Page 280 - 《软件学报》2025年第7期
P. 280

秦政 等: 面向  Apache Flink  流式分析应用的高吞吐优化技术                                          3201



                           TaskManager               TaskManager
                                                              动态负载    数据采样    状态后端 配置管理
                             TaskSlot  TaskSlot       TaskSlot  分发策略
                                                               Local Merge 算子  Global Merge 状态
                              Task                      Task
                                                                         键级水位线

                                                   Task 管理
                                                                             Task 管理
                            应用程序                     JobManager
                                       程序
                                       代码             调度器     动态策略 数据采样        Sync   动态配置
                                                               协调器    动态均衡     协调器     中心
                              优化器/
                              图构建             Job 管理  检查点               Local Merge 算子
                                       Client


                                                  图 13 Trilink  系统架构图


                 6   系统实验与评价

                 6.1   实验目的
                    实验主要目的在于分析评估本文提出的优化策略和技术的有效性, 同时分析评估介绍对整体应用吞吐率的影
                 响, 以及与  Flink  原有机制或策略的性能对比.
                    本节实验评价将回答以下研究问题.
                    问题  1 (RQ1). 优化后的  Trilink  系统与原生  Flink  相比, 性能是否有所提升, 可扩展性是否有所提高?
                    问题  2 (RQ2). Trilink  中所设计的  3  种优化机制在性能上分别有什么样的效果?

                 6.2   实验环境与实验方法
                    本文所使用的实验环境为          8  台机器所组成的集群, 每台机器具有一个型号为               Intel(R) Xeon(R) Gold 5215 @
                 2.50 GHz  的  CPU  和  128 GB  的内存, 机器间通过路由器连接, 网络为千兆网络. 8         台机器均部署     Flink worker、
                 ZooKeeper、Kafka, 其中一台作为集群     Master, 部署  Flink master 和  Redis, 所使用的操作系统和软件版本如表    8 实
                 验环境软件版本所示.

                                                   表 8 实验环境软件版本

                                              软件                  软件版本
                                              OS           CentOS Linux release 8.0.190 5
                                              JDK                 1.8.0_301
                                            ZooKeeper              3.7.0
                                             Kafka                 3.1.0
                                             Redis                 6.2.6
                                             Flink                 1.14.0

                    本文选用低电压检测应用, 桥梁拱顶监测数据集和                 Yahoo Streaming Benchmark  作为测试负载, 重点分析评估
                 Trilink  相比于  Flink  和  GeoFlink  在吞吐率和水平扩展加速比的提升效果. 测试数据来源于真实历史电压数据, 交
                 通基础设施建设传感器数据和数据生成器模拟的业务数据. 其中, 桥梁拱顶监测场景下, 需要以低时延, 高频率对
                 桥梁施工建设状态进行分析从而确保基础设施建设可靠性. 测试数据预先储存在                           Kafka 中, 并在数据首尾做特殊
                 的标记以精确地测量数据处理时间, 从而计算应用吞吐率.
   275   276   277   278   279   280   281   282   283   284   285