Page 198 - 《软件学报》2021年第9期
P. 198
2822 Journal of Software 软件学报 Vol.32, No.9, September 2021
(1) 碎片化特征
随着家谱文献的数字化,互联网中的家谱数据逐渐增多,海量的家谱数据堪称人文社科领域的大数据.由于
大数据的特征——海量、多源、异构、碎片化,针对家谱数据的信息抽取任务存在着巨大的挑战.
(2) 结构特点
家谱数据中的文本通常以“世系图+人物描述”形式记录人物信息:“世系图”为树形结构,记载男性人物亲属
关系,该部分可用于人物姓名及关系抽取;“人物描述”为一段记叙性文字,记载该人物属性信息及其人物关系,该
部分是人物信息抽取的关键部分.家谱数据的这两部分结构中的内容可用于交叉验证人物姓名及关系抽取的
正确性.
(3) 语言特点
与传统的文本数据相比,家谱数据使用的语言有其独有的特点:a) 包含大量繁体字及生僻字;b) 经常使用
一些偏文言文的词汇和语法,如“妣”“适”等;c) 同一份家谱中,人物的描述性信息通常具有相同的模式.
家谱中的人物信息隐藏在文本数据中,计算机很难自动对其进行处理.因此,自然语言处理、数据抽取等技
术在家谱数据的挖掘和推理中将发挥重要的作用.同时,家谱数据的碎片化特征、结构特点和语言特点给这些
技术在家谱领域内的应用带来新的机遇和挑战,其挑战主要在于家谱的用词语法和行文风格与开放领域文本
或其他领域文本截然不同.因此,已有的自然语言处理工具如分词、依存句法分析等在家谱数据上都有可能失
效.同时,通过充分利用家谱数据的特点,如家谱数据中较强的模式化表达习惯、语言精练准确无歧义等,可以使
得处理难度大为降低,并利用结构之间的联系进行信息归纳和推理.
2.3.2 家谱数据抽取方法
家谱数据多是以自然语言描述的非结构化文本,并且包含大量领域内特有词汇及语法,与机器语言之间存
在巨大鸿沟,导致用计算机直接处理和分析家谱数据的效率较低,也影响了分析结果的质量.通过对家谱数据的
观察,我们发现:家谱数据在行文和布局上具有一定的结构和规律,但不同家谱的行文方式和布局结构又不尽相
同.对于具有一定结构的家谱数据来说,采用基于启发式规则的方法进行数据抽取最为简单高效.但面对大量不
同种类不同结构的家谱数据,如果对每一份家谱均编写一套相应的规则,将耗费大量的人力物力,在实际应用
中,实用性非常低,不具有通用性.因此,本文提出一种基于 HAO 模型的通用家谱信息抽取方法,在 OI 提供的家谱
领域规范的标准下,利用 HI 和 AI 的协同作用,对家谱数据进行信息抽取.由上一小节中对家谱数据的分析可知,
家谱数据中的文本通常以“世系图+人物描述”形式记录人物信息.因此,我们分别对“世系图”及“人物描述”中的
信息进行抽取,在经过专家(HI)确认后的“世系图”数据抽取结果的协助下,对“人物描述”中所包含的人物属性
信息和人物间关系进行抽取.
(1) “世系图”数据抽取
“世系图”以树形结构记载家谱中男性人物的亲属关系.我们可以通过计算机读取家谱中的“世系图”部分,
从中抽取家谱人物姓名.但是计算机无法自动区分家谱中的“世系图”和“人物描述”,因此,本文通过与 HI 的交
互,为计算机提供少量信息,确定家谱中“世系图”所处范围.之后,计算机自动抽取“世系图”中的人物姓名.另外,
我们将抽取出的家谱人物姓名作为有监督数据,构建家谱领域人名词典,以便提高 NLP 工具对家谱进行分析处
理的精确性.
(2) “人物描述”数据抽取
“人物描述”中蕴含着丰富的人物信息,包括人物姓名、属性及关系.通过对家谱数据的观察,我们发现:在“人
物描述”中,每个家谱人物的描述信息独立成一段或多段;并且每份家谱以固定的模式化语句对人物属性信息和
人物间关系进行介绍.
首先,HI 即领域专家们通过对家谱数据的观察与分析,根据家谱文本描述的前后语义关系,结合对语境的理
解,对家谱数据的语言模式进行总结,构建家谱领域全局知识库,为计算机提供家谱领域外部语义知识.由于家
谱语法结构复杂,信息不一,表 1 为简化后的家谱语言模式.其中,N 表示人物姓名,FN 表示父亲姓名, PN 表示配
偶姓名,SN 表示儿子姓名,XX 为属性信息.