Page 135 - 《软件学报》2021年第12期
P. 135
孔芳 等:篇章视角的汉语零指代语料库构建 3799
指代消解的性能为 69.66%).从表中列出的实验结果可以看到:不论是标准还是自动实体指代链,零元素的识别
性能都对零指代消解的性能产生很大的影响,F1 值下降了大约 10%.但相比已有的从句法视角进行的研究
(Chen 等人 [21,27] 以及 Kong 和 Zhou [26] 等,自动零元素下消解性能下降了约 20%),下降幅度有所减小,后续将考虑
融入更多的篇章级信息来增强系统的鲁棒性.
Table 9 Performance of Zero Anaphor Resolution
表 9 零指代消解的性能
设置 P (%) R (%) F (%)
标准 ZP 91.23 85.42 88.23
标准实体链
自动 ZP 86.23 72.36 78.69
标准 ZP 61.68 60.78 61.23
自动实体链
自动 ZP 58.07 47.29 52.13
5 总结与展望
从服务于篇章分析和文本理解出发,本文给出了汉语零指代结构的表示体系,并基于这一表示体系选取汉
语树库 CTB、连接词驱动的汉语篇章树库 CDTB 和 OntoNotes 语料中重叠的 325 篇文本进行了汉语零指代的
标注,构建了一定规模的汉语零指代语料库.系统检测表明:本文提出的表示体系合理有效,构造的语料库质量
上乘,能够为篇章视角的汉语零指代研究提供必要的支撑.
本文的主要贡献体现在 3 个方面:(1) 从篇章视角构建了汉语零指代表示体系,并据此构建了一定规模的汉
语零指代语料库,为篇章视角的汉语零指代研究提供了支持;(2) 提出的汉语零指代表示体系使用了汉语篇章
微观修辞结构表示体系中定义的基本篇章单元 EDU 和篇章修辞结构树,为探索汉语篇章微观修辞结构与汉语
零指代之间的关系,开展两者的联合学习奠定了扎实的基础,同时也为构建多视角的汉语篇章结构的统一表示
体系做了初步的探索;(3) 给出了一个基于 EDU 进行汉语零指代的基准平台,为与实体指代的联合以及融入更
多的篇章级信息奠定了基础.
接下来我们将进一步修正语料并正式对外发布,同时开展两个核心工作.一是进行篇章视角的汉语零指代
消解研究,侧重考虑两方面:(1) 如何借助丰富的篇章信息来更好地表征零元素及其上下文,从而提升零元素识
别及消解的性能;(2) 主干型和修饰型零元素对篇章信息和句法信息的依赖度是不一样的,后续将对它们分别
建模,再借助多任务学习框架进行结合;二是进行汉语篇章零指代和微观修辞结构的联合学习研究,侧重考虑零
指代在篇章逻辑语义关系推进中的作用.
References:
[1] Kim YJ. Subject/Object drop in the acquisition of Korean: A cross-linguistic comparison. Journal of East Asian Linguistics, 2000,9:
325−351.
[2] Beaugrande RAD, Dressler W. Introduction to Text Linguistics. London and New York: Longman Paperback, 1981.
[3] Schank Roger C. Conceptual dependency: A theory of natural language understanding.Cognitive Psychology, 1972,3(4):552−631.
[4] Pradhan S, Ramshaw L, Marcus M, et al. CoNLL-2011 shared task: Modeling unrestricted coreference in ontonotes. In: Proc. of the
15th Conf. on Computational Natural Language Learning: Shared Task. Association for Computational Linguistics, 2011. 1−27.
[5] Pradhan S, Moschitti A, Xue N, et al. CoNLL-2012 shared task: Modeling multilingual unrestricted coreference in OntoNotes. In:
Proc. of the Joint Conf. on EMNLP and CoNLL-Shared Task. Association for Computational Linguistics, 2012. 1−40.
[6] Li CN, Thompson SA. Third-person pronouns and zero-anaphora in Chinese discourse. Syntax and Semantics, 1979,12:311−335.
[7] Li WD. Topic chains in Chinese discourse. Discourse Processes, 2004,37:25−45.
[8] Converse S. Pronominal anaphora resolution in Chinese [Ph.D. Thesis]. University of Pennsylvania, 2006.
[9] Zhao SH, Ng HT. Identification and resolution of Chinese zero pronouns: A machine learning approach. In: Proc. of the EMNLP-
CoNLL 2007. Association for Computational Linguistics, 2007. 541−550.
[10] Campbell R. Using linguistic principles to recover empty categories. In: Proc. of the 42nd Annual Meeting on Association for
Computational Linguistics. Association for Computational Linguistics, 2004. 645.