Page 254 - 《软件学报》2025年第9期
P. 254

黄俏娟 等: 基于大语言模型的事件常识知识图谱扩展方法                                                     4165


                    事件  1: 招待客人.
                    事件  2: 接待客人.
                    在计算事件     1  和事件  2  的余弦相似度时, 首先从      ECKG  的语义角色标注数据中获取它们对应的标注数据:
                    事件  1  标注: 施事: 人 招待 客人/向事: 人.
                    事件  2  标注: 施事: 人 接待 他人/向事: 人.

                                                    表 5 实体类型的分类

                   实体类型               实体类型标注示例                  实体类型              实体类型标注示例
                      人               朋友/施事: 人 哭泣               时长属性           吃饭时间/当事: 时长属性 短
                     人群              父母/施事: 人群 争吵                国家          施事: 国家 举办 奥运会/成事: 竞赛
                     物体            施事: 人 买 材料/受事: 物体            生物属性            睡眠/当事: 生物属性 不足
                     食物            施事: 人 吃 饼干/受事: 食物          信息传达过程       当事: 人 不能 交流/动事: 信息传达过程
                   量化属性         二氧化碳浓度/当事: 量化属性 上升             建筑物部件          施事: 人 跳 窗/源事: 建筑物部件
                     钱财            施事: 人 兑 现金/受事: 钱财            人造物           当事: 人 丢失 物品/客事: 人造物
                     动物            施事: 人 养 宠物/客事: 动物          植物躯体部件       施事: 人 点燃 木头/变事: 植物躯体部件
                   外观属性         施事: 人 保持 身材/客事: 外观属性           意向性过程        当事: 人 不能 开车/动事: 意向性过程
                   心理属性        领事: 人 有 经济压力/属事: 心理属性            电气器件          施事: 人 修 电脑/受事: 电气器件
                   人躯体部件         手指/变事: 人躯体部件 被 刺破              时间属性         施事: 人 填写 日期/成事: 时间属性
                   地理区域        当事: 灯 照亮 周围环境/变事: 地理区域           辐射过程        当事: 人 接触 高压电/客事: 辐射过程
                   生理属性         当事: 人 失去 意识/客事: 生理属性          交通工具部件        施事: 人 踩 油门/受事: 交通工具部件
                    情绪值          感事: 人 感到 轻松/客事: 情绪值          反常解剖结构        当事: 人 长 皱纹/成事: 反常解剖结构
                   交通工具            汽车/当事: 交通工具 抛锚               损害过程          当事: 人 出 事故/客事: 损害过程
                   空间区域             天/位事: 空间区域 下雨             蒸馏酒精饮料        施事: 人 买 啤酒/受事: 蒸馏酒精饮料

                    接下来, 剔除事件     1  标注和事件   2  标注中句子成分“客人”和“他人”, 得到对应的           ESR (包括中枢语义角色、周
                 边语义角色和实体类型) 为:
                    ESR 1 : 施事: 人 招待 向事: 人.
                    ESR 2 : 施事: 人 招待 向事: 人.
                    然后, 将事件    1  和事件  2  的整个  ESR (在此例中两个     ESR  相同, 都为“施事: 人 招待 向事: 人”) 通过       text-
                 embedding-ada-002  模型得到了  1 536  维的嵌入向量. 由于  ESR 1 和  ESR 2 相同, 因此它们的嵌入向量也相同. 这些
                 向量的前后    4  个维度值  (保留小数点后     4  位) 分别是:
                    [−0.0200, −0.0163, 0.0249, −0.0093,…, 0.0157, −0.0094, −0.0017, −0.0040].
                    最后, 通过公式     (1) 计算这两个向量的余弦相似度, 从而得到含实体类型的语义角色标注                      1  和标注  2  的余弦
                 相似度值. 由上述得知这两个标注具有相同的嵌入向量, 因而它们的余弦相似度等于                          1.
                    (2) 关联句子成分的语义角色标注          (semantic role labeling of associated sentence components, SRL-ASC)
                    通过分析事件的含实体类型语义角色相似度, 我们发觉尽管有些事件在语义角色上具有很高的相似度, 但它
                 们的实际含义却有所差异. 以事件          3  和事件  4  为例进行说明:
                    事件  3: 父母爱孩子.
                    事件  4: 朋友爱不合适的人.
                    在  ECKG  中, 事件  3  和事件  4  的标注分别为:
                    事件  3  标注: 父母/施事: 人 爱 孩子/向事: 人.
                    事件  4  标注: 朋友/施事: 人 爱 不合适的人/向事: 人.
                    从事件   3  标注和事件   4  标注可以看出, 它们对应的含实体类型语义角色标注相同, 均为“施事: 人 爱 向事: 人”. 但
                 事件主体分别为“父母”和“朋友”, 客体分别是“孩子”和“不合适的人”, 从而导致整个事件所表达的情感含义存在差异.
   249   250   251   252   253   254   255   256   257   258   259