Page 88 - 《软件学报》2021年第12期
P. 88

3752                                Journal of Software  软件学报 Vol.32, No.12, December 2021

         The experimental results show that compared with the five methods of Doc2vec, LDA, Deepwalk, Node2Vec, and TriDNR, the proposed
         method has 135.3%, 60.3%, 12.4%, 10.5%, and 4.3% improvement in Macro F1 value, which effectively improves the accuracy of service
         classification.
         Key words:    Web services classification; GAT2VEC model; random walks; SVM model

             Web 服务因其跨语言、跨平台、松散耦合、基于开放式标准等特点,成为 SOA(service-oriented architecture)
         的主流实现技术.随着 SOA 架构和 Web 服务相关标准的日趋成熟,网络上可用的 Web 服务越来越多.例如:截止
         到 2020 年 3 月 20 日,ProgrammableWeb 网站上已经发布了 7 961 个 Mashup 和 23 368 个 Web API;而当开发人
         员希望检索与消息传递相关的 Mashup 时,ProgrammableWeb 的搜索引擎将返回 1 695 个搜索结果.因此,在大量
         服务中快速、准确地发现和选择所需要的服务,成为服务计算领域的关键问题之一.通常情况下,Web 服务缺少
         规范的形式化的描述模型,如 Web 服务的描述文本内容过少、描述语言不规范等.前者使得服务缺乏足够有效
         信息,难以被用户发现;后者使得服务描述随意性较大,可能导致相同的服务描述不一,而不同的服务却描述相
                                                                            [2]
                                         [1]
         似,进一步增加了服务查找和发现的难度 .目前,该问题已引起了众多研究者的注意 .其中,如何通过自动服务
         分类减少服务匹配过程中的候选服务数量,以提高服务查找和服务发现的准确性和效率,已成为了近年来的研
         究重点.
                                                                                       [3]
             目前,关于 Web 服务分类的研究主要以基于功能语义的服务分类方法为主.例如:Crosso 等人 将 WSDL
         (Web service description language)中的元素进行分割去除停用词后,归至词根,然后利用不同的分类算法进行分
                     [4]
         类.Katakis 等人 考虑了 Web 服务的文本描述和语义标注,解决了 Web 服务在其应用领域的自动分类问题.但是
         WSDL 文档通常包含很少的描述内容,导致这些算法通常无法取得较满意的分类效果.随着机器学习的兴起,文
                                                      [5]
         档主题生成模型开始引起了众多研究者的关注.Shi 等人 提出了一种考虑多重 Web 服务关系的概率主题模型
                                                                                           [6]
         MR-LDA,其可对 Web 服务之间相互组合的关系以及 Web 服务之间共享标签的关系进行建模.Cao 等人 通过
         注意力机制将 BiLSTM 局部的隐状态向量和全局的 LDA 主题向量结合起来,提出一种基于主题注意力机制 Bi-
         LSTM 的 Web 服务分类方法.但是主题模型通常是基于大量的已知观测样本来推测隐含的后验主题分布概率,
         需要大量的辅助信息.为了进一步利用有限的特征信息挖掘出 Web 服务之间的隐含关系,越来越多的深度学习
                                        [1]
         方法被引入到了服务分类领域.Ye 等人 将 Web 服务描述文档中的所有离散特征结合起来,利用 Wide & Bi-
                                                [7]
         LSTM 模型对 Web 服务类别进行预测.Chen 等人 利用 LSA 模型对移动应用内容文本进行全局主题建模,再通
         过 BiLSTM 模型对内容文本进行局部隐藏表征,提出一种主题注意力机制增强的移动应用分类方法.但是这些
         深度学习的方法在耗费了大量计算资源的前提下,对服务分类准确度的提升并不明显.总的来说,上述的方法与
         技术虽然提高了 Web 服务分类的精度,但普遍存在以下两个问题.
             (1)  尽管考虑到了 Web 服务描述文档通常比较短、语料有限等问题,并提出挖掘描述文档中词语的语序
                 和上下文信息或融合标签等辅助信息的方法,更好地实现了短文本建模,但是这些方法利用的离散特
                 征关联性一般,且始终没有较好地解决文档语义稀疏的问题;
             (2)  这些方法基本都依赖于文本描述信息和标签等属性信息,而未考虑 Web 服务之间的结构交互关系.在
                 实际情况中,Web 服务之间存在着丰富的对象和链接.例如:在 ProgrammbleWeb 数据集中,存在两个
                 Mashup(200 Towns 和#haiku),它们都属于 Photos 类,然而二者的标签和主题描述都不相似,因此很难
                 将二者归为一类.但是这两个 Mashup 在结构上都调用了同一个名为 Twitter 的 API.由此可见,结构交
                 互信息在分类任务中起着相当重要的作用.
             网络表征学习(network representation learning,简称 NRL)是最近提出的通过学习网络节点连续、低维的潜
         在特征来解决稀疏性问题的一种重要方法.这些特征涵盖了网络的全局结构,并可以被提取到后续的机器学习
                              [8]
         任务中.其中,将 Deepwalk 算法应用到网络中提取特征并进行表征,成为一种常用的方法.它通常是先通过短
         随机游走得到节点序列,然后输入到 SkipGram 模型中,得到最终的嵌入向量.直观地说,邻近的节点往往具有相
         似的上下文(序列),因此具有彼此相似的嵌入.这一基本思想在后来的若干方面得到了扩展                              [9,10] .近年来,Yang 等
         人 [11] 证明了 Deepwalk 等价于邻接矩阵 M 的因式分解,并提出了一种通过分解文本关联矩阵结合节点文本特征
   83   84   85   86   87   88   89   90   91   92   93