Page 263 - 《软件学报》2025年第7期
P. 263

软件学报 ISSN 1000-9825, CODEN RUXUEW                                        E-mail: jos@iscas.ac.cn
                 2025,36(7):3184−3208 [doi: 10.13328/j.cnki.jos.007235] [CSTR: 32375.14.jos.007235]  http://www.jos.org.cn
                 ©中国科学院软件研究所版权所有.                                                          Tel: +86-10-62562563



                                                                               *
                 面向    Apache Flink     流式分析应用的高吞吐优化技术

                 秦    政  1,2 ,    许利杰  1,2,3,4 ,    陈    伟  1,2,3,4 ,    王    毅  1,2 ,    吴铭钞  1,2 ,    曾鸿斌  1,2 ,    王    伟  1,2,3,4


                 1
                  (中国科学院 软件研究所, 北京 100190)
                 2
                  (中国科学院大学, 北京 100049)
                 3
                  (计算机科学国家重点实验室 (中国科学院 软件研究所), 北京 100190)
                 4
                  (中国科学院大学南京学院, 江苏 南京 211135)
                 通信作者: 许利杰, E-mail: xulijie09@otcaix.iscas.ac.cn
                 摘 要: 随着大数据时代的到来, 海量的用户数据赋能了众多数据驱动的行业应用, 例如智慧交通、智能电网、商
                 品推荐等. 在数据实时性要求高的应用场景下, 数据中的业务价值随时间增长快速降低, 因此数据分析系统需要具
                 有高吞吐和低延迟能力, 以        Apache Flink  为代表的流式大数据处理系统得到广泛应用. Flink          通过在集群的计算节
                 点上并行化计算任务, 水平扩展系统吞吐率. 然而, 已有研究指出, Flink                 存在单点性能弱, 集群水平可扩展性差的
                 问题. 为了提高流式大数据处理系统的吞吐率, 研究者在控制平面设计、系统算子实现和垂直可扩展性等方面开
                 展优化, 但现有工作尚缺乏对流式分析应用数据流的关注. 流式分析应用是由事件流驱动并使用有状态处理函数
                 的应用, 例如智能电网场景下的低电压检测应用、商品推荐场景下的广告活动分析应用等. 对典型的流式分析应
                 用的数据流特征进行分析, 总结其中存在的              3  个水平可扩展性瓶颈并给出相应的优化策略, 包括: 键级水位线, 动
                 态负载分发策略和基于键值的数据交换策略. 基于上述优化技术, 对                     Flink  框架进行扩展并形成原型系统         Trilink,
                 选取真实场景数据集: 低电压检测应用, 桥梁拱顶监测应用和典型流式分析测试基准                           Yahoo Streaming Benchmark,
                 与现有工作进行测试比较. 实验结果表明, 相较于               Flink, Trilink  在单机环境下吞吐率提升了    5  倍以上, 8  节点下水
                 平扩展加速比提高了       1.6  倍以上.
                 关键词: 流式处理; 分布式系统; 性能优化; 大数据系统
                 中图法分类号: TP311

                 中文引用格式: 秦政,  许利杰,  陈伟,  王毅,  吴铭钞,  曾鸿斌,  王伟.  面向Apache  Flink流式分析应用的高吞吐优化技术.  软件学报,
                 2025, 36(7): 3184–3208. http://www.jos.org.cn/1000-9825/7235.htm
                 英文引用格式: Qin Z, Xu LJ, Chen W, Wang Y, Wu MC, Zeng HB, Wang W. High Throughput Optimization Technique for Apache
                 Flink. Ruan Jian Xue Bao/Journal of Software, 2025, 36(7): 3184–3208 (in Chinese). http://www.jos.org.cn/1000-9825/7235.htm

                 High Throughput Optimization Technique for Apache Flink
                         1,2       1,2,3,4      1,2,3,4     1,2           1,2             1,2        1,2,3,4
                 QIN Zheng , XU Li-Jie  , CHEN Wei  , WANG Yi , WU Ming-Chao , ZENG Hong-Bin , WANG Wei
                 1
                 (Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)
                 2
                 (University of Chinese Academy of Sciences, Beijing 100049, China)
                 3
                 (State Key Laboratory of Computer Science (Institute of Software, Chinese Academy of Sciences), Beijing 100190, China)
                 4
                 (University of Chinese Academy of Sciences, Nanjing, Nanjing 211135, China)
                 Abstract:  With  the  advent  of  the  big  data  era,  massive  volumes  of  user  data  have  empowered  numerous  data-driven  industry  applications,
                 such  as  smart  grids,  intelligent  transportation,  and  product  recommendations.  In  scenarios  where  real-time  data  is  crucial,  the  business
                 value  embedded  within  data  rapidly  diminishes  over  time.  Consequently,  data  analysis  systems  require  high  throughput  and  low  latency.


                 *    基金项目: 国家重点研发计划  (2021YFB2600301)
                  收稿时间: 2024-02-03; 修改时间: 2024-03-29, 2024-05-16; 采用时间: 2024-06-11; jos 在线出版时间: 2024-11-20
                  CNKI 网络首发时间: 2024-11-21
   258   259   260   261   262   263   264   265   266   267   268