Page 62 - 《软件学报》2025年第12期
P. 62
李春奕 等: 基于时序逻辑的需求文本隐含语义解析与推理 5443
词性标记 胶囊 squash 层候选类 查询集 Q
('Returns', 'NNS'), ('the', 'DT'), ('HTTP', 'NN'), ('status', Ws 向量 squash 层
'NN'), ('of', 'IN'), ('204', 'CD'), ('when', 'WRB'), ('the', 'DT'), LSTM LSTM d 待分类
('call', 'NN'), ('is', 'VBZ'), ('successful', 'JJ'), ('.', '.')
需求样本
需求文本示例 LSTM LSTM
Returns the HTTP status of 204 when the call is
successful.
相似度
评估
依存关系分析
('det', 4, 2), ('compound', 4, 3), ('dep', 1, 4), ('case', 6, 5), LSTM LSTM
('nmod', 4, 6),('advmod', 11, 7), ('det', 9, 8), ('nsubj', 11, 9), 时序语义逻辑
('cop', 11, 10), ('acl:relcl', 4, 11), ('punct', 1, 12) 标签
词向量 正向 反向
支持集 S
模型增强 时序逻辑语义
类 a
同义词替换 回译
时序逻辑语义 编码器模块 归纳模块 关系模块
类 b C×k×d C×k×u C×k C×1
对抗样本构建 联合训练
时序逻辑语义
类 c
图 3 FSLNets-TLSA 整体框架图
本文采用了小样本神经网络技术和 NLP 相结合的方法, 模型由数据预处理模块、编码器模块、归纳模块、
关系模块和数据增强模块组成. 在数据预处理阶段, 通过数据清洗降低需求文本中的噪声, 并使用词性标注来收集
带有时序标签的特征信息, 同时删除一些信息熵较低的单词. 此外, 利用依存关系分析推断出句子中单词之间的语
义关系, 进而提取单词之间的关联性特征信息. 以上所提取的特征信息被用于突出文本时序逻辑语义特征信息, 用
以应对自然语言文本描述模糊性问题. 在网络训练时, 网络结构由编码器, 归纳模块和关系模块堆叠构成, 用来捕
捉文本中隐含的时序逻辑语义信息. 在编码器中引入自注意力机制, 通过计算序列中所有词之间的加权关系, 使模
型能够捕捉远距离依赖关系, 从而增强对长文本语义的理解能力. 在归纳模块应用动态路由算法共享样本特征信
息, 捕捉不同神经层和神经元相关性, 从而提升输出和真实预测结果的耦合系数. 为了适应更复杂的监控语义识
别, 使用同义词替换和回译进行模型增强, 同时集成对抗训练模块, 提高神经网络模型的鲁棒性和语义分析的准
确率.
3.1 网络输入模块
本模块的数据来源于需求文档中原始的需求文本, 这些文本可能存在如语义模糊性、书写格式不统一、停用
词过多、文本样本标注不平衡、文本规模过少等缺陷, 本模块旨在通过数据预处理和小样本数据集构建方法, 提
取时序逻辑特征信息并构建良好的数据表示, 最终输出需求文本的特征向量表示.
3.1.1 数据预处理
为了降低数据噪声, 本论文使用词性标注 (part-of-speech tagging, POS) 分析单词词性, 当输入的自然文本句子
表示为 V = {v 1 ,v 2 ,v 3 ,...,v T }, 其中 T 是句子中单词的数量, 时序标签的集合可以表示为 TL = {tl 1 ,tl 2 ,tl 3 ,...}.
通过 POS 标记后的句子可表示为:
tl i = Γ(v) ∈ TL (5)
其中, Γ(v) 本文采用 NLTK 词性标注工具, 也可采用 Stanford CoreNLP 等工具, 其中表 1 中所列标签都为重点携带
时序逻辑语义的单词标注, 本文提取这 4 种单词作为时序特征信息补充在文本向量之后. 同时依据标记结果移除
需求文本中干扰性信息, 特别是移除在文本中频繁出现但通常不携带重要信息的常见 dt-停用词, 比如 a, the. 无用
的单词标签被定义为 {ul 1 ,ul 2 ,ul 3 ,...}, 数据降噪过程可表示为:
+ + +
′
V = (v κ ) ∧¬(Delete(v)∧Γ(v) ∈ {ul 1 ,ul 2 ,ul 3 ,...}) (6)
κ
其中, Delete(v) 表示删除单词操作, + 表示一个到多个的关系, 表示标点符号. 最后, 通过依存关系分析, 确定文本

