Page 341 - 《软件学报》2024年第4期
P. 341
吴信东 等: HAO 打卡系统: 以组织智能成就智能组织 1919
本)、无组织关联用户的打卡数据、单/多组织的组织架构等. 同时为了补全和扩大知识图谱的规模, 抓取百科类网
站 (百度百科、互动百科、维基百科) 以及旅游垂直网站 (携程网等) 上的描述信息如企业的描述信息、地点的周
边信息等作为 HAO 打卡知识图谱的数据来源. 将收集到的数据输入到数据治理中心, 对其中的数据进行数据清
洗、数据规范等, 必要时进行主题划分和数据关联, 然后进行数据集成, 治理完成后的数据汇聚到数据共享中心 [2] .
数据共享中心主要为了对数据进行安全审计, 并在权限控制下进行共享和交换.
2.1.2 知识校验
知识校验模块是 HAO 打卡领域知识图谱构建的主要模块, 主要包括知识抽取、知识融合、知识表示以及知
识推理. 知识抽取需要在 HAO 智能理论的指导下进行, 主要包括 3 个部分. 其一是要确定领域知识, 一方面是为
了在知识抽取时可以有效避免语义漂流, 另一方面是为了在后期的评估任务中可以过滤掉那些有悖于领域知识的
三元组. 领域知识的确定主要由 3 种方式: (1) 监督 (HI): 需要领域专家知识来构造高层语义网络; (2) 半监督
(HI+AI): 人工列出所需构建的实体之间的层次关系, 然后利用机器学习技术从语料库中学习其中的关系; (3) 无监
督: 将句子中的动词视为关系, 名词视为实体, 这种方式噪声较大. 其二是三元组的抽取, 也有 3 种方式: (1) 监督
(HI): 领域专家知识输入规则; (2) 半监督 (HI+AI): 人工给出种子实例, 由机器学习该实例包含的模式; (3) 无监督:
将句子中符合一定语法规则的动词作为关系, 关系左右的名词为实体. 其三是可靠性评估: (1) 监督: 由组织智能来
设计评估函数 (OI), 或从大规模的标签数据中心学习评估函数 (HI+AI); (2) 半监督 (HI+AI): 迭代的评估有标签的
数据和无标签的数据; (3) 无监督: 一个模式的得分正比于抽取出该模式所使用的实例个数. 在 HI+AI+OI 的指导
下, 更好地进行知识抽取 [12] .
知识抽取是构建大规模知识图谱的关键技术, 它的目标是从多源、异构的数据中提取有用的信息, 并将其存
储到知识图谱中 [12] , 主要包括实体识别、属性抽取、关系抽取 3 个子任务. 命名实体识别旨在从预定义好语义类
型 (例如人、位置、组织等) 的文本中识别相应实体类型的提及词 [28] . 早期的实体识别主要采用规则的启发式方
法, 随着机器学习和深度学习的发展, 利用神经网络来进行命名实体识别已经成为主流. 关系抽取是指从文本中识
别抽取实体及实体之间的关系. 关系抽取的方法可分为基于模板、基于监督学习和基于弱监督学习的关系抽取.
而属性抽取的目标是从不同的来源中抽取特定于实体的属性信息, 如打卡用户的昵称, 性别, 出生地等信息, 这里
也可以将实体的属性看作是实体和对应的属性值之间的一种名词性关系. 关系抽取和属性抽取与实体识别密切相
关, 一般在识别出实体后, 再抽取实体之间可能存在的关系以及实体对应的属性.
HAO 打卡知识图谱构建过程中主要存在两类数据, 其一是用户和企业在系统注册或进行打卡存储在系统中
的结构化数据, 另一类是百科类网站或垂直类网站爬取的半结构化数据. 针对这两种不同类型数据, 分别采取不同
的知识抽取方法. 对于系统中的结构化数据, 如当用户通过系统中直接上级提供的二维码加入某单位时, 系统将该
用户直接与该上级以及该单位进行绑定. 该类数据采用直接映射方法, 将关系型数据库转变为知识图谱所需要的
RDF 三元组数据类型. 对于半结构化数据, 如大多企业的考勤文本, 该类文本领域确定, 文本规模较小, 风格基本
一致, 因此采用基于规则的方法. 该方法无需训练, 实现简单, 能够以较快的速度抽取出相应的关系与实体, 从而构
建图谱.
HAO 打卡知识图谱构建过程中采用两种构建方法: 基于规则和基于监督学习的抽取方法. 对于大多企业的考
勤文本, 该类文本领域确定, 文本规模较小, 风格基本一致, 因此采用基于规则的方法, 该方法无需训练, 实现简单,
能够以较快的速度抽取出相应的关系与实体, 从而构建图谱. 而对于第 2.1.1 节中提及的其他数据来源, 以及企业
管理条例文本, 此类数据规模较大, 手动构建规则会耗费领域专家大量的时间, 因此采用基于监督学习的抽取方
法, 将实体抽取和关系抽取相结合, 减少并改善特征抽取过程中的误差积累问题.
知识抽取后的数据形成了一个个孤立的抽取图谱, 需要对知识进行融合形成一个完整的知识图谱, 主要包括
实体对齐和本体构建技术. 实体对齐是为了发现指向真实世界中同一对象的实体, 解决语言异构问题. 将对齐后的
这些相同实体合并为一个具有全局唯一表示的实体添加到知识图谱中. HAO 打卡知识图谱除了其他知识图谱面
临的从百科类或垂直领域网站抽取的知识三元组需要对齐外, 系统内部的实体也需要进行实体对齐. 如一个用户
使用两个邮箱号注册 HAO 打卡系统, 同时在不同的单位任职, 我们需要判断两个不同的实体是否表示现实世界