Page 263 - 《软件学报》2025年第7期
P. 263
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2025,36(7):3184−3208 [doi: 10.13328/j.cnki.jos.007235] [CSTR: 32375.14.jos.007235] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
面向 Apache Flink 流式分析应用的高吞吐优化技术
秦 政 1,2 , 许利杰 1,2,3,4 , 陈 伟 1,2,3,4 , 王 毅 1,2 , 吴铭钞 1,2 , 曾鸿斌 1,2 , 王 伟 1,2,3,4
1
(中国科学院 软件研究所, 北京 100190)
2
(中国科学院大学, 北京 100049)
3
(计算机科学国家重点实验室 (中国科学院 软件研究所), 北京 100190)
4
(中国科学院大学南京学院, 江苏 南京 211135)
通信作者: 许利杰, E-mail: xulijie09@otcaix.iscas.ac.cn
摘 要: 随着大数据时代的到来, 海量的用户数据赋能了众多数据驱动的行业应用, 例如智慧交通、智能电网、商
品推荐等. 在数据实时性要求高的应用场景下, 数据中的业务价值随时间增长快速降低, 因此数据分析系统需要具
有高吞吐和低延迟能力, 以 Apache Flink 为代表的流式大数据处理系统得到广泛应用. Flink 通过在集群的计算节
点上并行化计算任务, 水平扩展系统吞吐率. 然而, 已有研究指出, Flink 存在单点性能弱, 集群水平可扩展性差的
问题. 为了提高流式大数据处理系统的吞吐率, 研究者在控制平面设计、系统算子实现和垂直可扩展性等方面开
展优化, 但现有工作尚缺乏对流式分析应用数据流的关注. 流式分析应用是由事件流驱动并使用有状态处理函数
的应用, 例如智能电网场景下的低电压检测应用、商品推荐场景下的广告活动分析应用等. 对典型的流式分析应
用的数据流特征进行分析, 总结其中存在的 3 个水平可扩展性瓶颈并给出相应的优化策略, 包括: 键级水位线, 动
态负载分发策略和基于键值的数据交换策略. 基于上述优化技术, 对 Flink 框架进行扩展并形成原型系统 Trilink,
选取真实场景数据集: 低电压检测应用, 桥梁拱顶监测应用和典型流式分析测试基准 Yahoo Streaming Benchmark,
与现有工作进行测试比较. 实验结果表明, 相较于 Flink, Trilink 在单机环境下吞吐率提升了 5 倍以上, 8 节点下水
平扩展加速比提高了 1.6 倍以上.
关键词: 流式处理; 分布式系统; 性能优化; 大数据系统
中图法分类号: TP311
中文引用格式: 秦政, 许利杰, 陈伟, 王毅, 吴铭钞, 曾鸿斌, 王伟. 面向Apache Flink流式分析应用的高吞吐优化技术. 软件学报,
2025, 36(7): 3184–3208. http://www.jos.org.cn/1000-9825/7235.htm
英文引用格式: Qin Z, Xu LJ, Chen W, Wang Y, Wu MC, Zeng HB, Wang W. High Throughput Optimization Technique for Apache
Flink. Ruan Jian Xue Bao/Journal of Software, 2025, 36(7): 3184–3208 (in Chinese). http://www.jos.org.cn/1000-9825/7235.htm
High Throughput Optimization Technique for Apache Flink
1,2 1,2,3,4 1,2,3,4 1,2 1,2 1,2 1,2,3,4
QIN Zheng , XU Li-Jie , CHEN Wei , WANG Yi , WU Ming-Chao , ZENG Hong-Bin , WANG Wei
1
(Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)
2
(University of Chinese Academy of Sciences, Beijing 100049, China)
3
(State Key Laboratory of Computer Science (Institute of Software, Chinese Academy of Sciences), Beijing 100190, China)
4
(University of Chinese Academy of Sciences, Nanjing, Nanjing 211135, China)
Abstract: With the advent of the big data era, massive volumes of user data have empowered numerous data-driven industry applications,
such as smart grids, intelligent transportation, and product recommendations. In scenarios where real-time data is crucial, the business
value embedded within data rapidly diminishes over time. Consequently, data analysis systems require high throughput and low latency.
* 基金项目: 国家重点研发计划 (2021YFB2600301)
收稿时间: 2024-02-03; 修改时间: 2024-03-29, 2024-05-16; 采用时间: 2024-06-11; jos 在线出版时间: 2024-11-20
CNKI 网络首发时间: 2024-11-21

