Page 135 - 《软件学报》2021年第12期
P. 135

孔芳  等:篇章视角的汉语零指代语料库构建                                                            3799


         指代消解的性能为 69.66%).从表中列出的实验结果可以看到:不论是标准还是自动实体指代链,零元素的识别
         性能都对零指代消解的性能产生很大的影响,F1 值下降了大约 10%.但相比已有的从句法视角进行的研究
         (Chen 等人 [21,27] 以及 Kong 和 Zhou [26] 等,自动零元素下消解性能下降了约 20%),下降幅度有所减小,后续将考虑
         融入更多的篇章级信息来增强系统的鲁棒性.
                                  Table 9    Performance of Zero Anaphor Resolution
                                           表 9   零指代消解的性能
                                   设置              P (%)      R (%)      F (%)
                                      标准 ZP        91.23      85.42      88.23
                           标准实体链
                                      自动 ZP        86.23      72.36      78.69
                                      标准 ZP        61.68      60.78      61.23
                           自动实体链
                                      自动 ZP        58.07      47.29      52.13
         5    总结与展望

             从服务于篇章分析和文本理解出发,本文给出了汉语零指代结构的表示体系,并基于这一表示体系选取汉
         语树库 CTB、连接词驱动的汉语篇章树库 CDTB 和 OntoNotes 语料中重叠的 325 篇文本进行了汉语零指代的
         标注,构建了一定规模的汉语零指代语料库.系统检测表明:本文提出的表示体系合理有效,构造的语料库质量
         上乘,能够为篇章视角的汉语零指代研究提供必要的支撑.
             本文的主要贡献体现在 3 个方面:(1)  从篇章视角构建了汉语零指代表示体系,并据此构建了一定规模的汉
         语零指代语料库,为篇章视角的汉语零指代研究提供了支持;(2)  提出的汉语零指代表示体系使用了汉语篇章
         微观修辞结构表示体系中定义的基本篇章单元 EDU 和篇章修辞结构树,为探索汉语篇章微观修辞结构与汉语
         零指代之间的关系,开展两者的联合学习奠定了扎实的基础,同时也为构建多视角的汉语篇章结构的统一表示
         体系做了初步的探索;(3)  给出了一个基于 EDU 进行汉语零指代的基准平台,为与实体指代的联合以及融入更
         多的篇章级信息奠定了基础.
             接下来我们将进一步修正语料并正式对外发布,同时开展两个核心工作.一是进行篇章视角的汉语零指代
         消解研究,侧重考虑两方面:(1)  如何借助丰富的篇章信息来更好地表征零元素及其上下文,从而提升零元素识
         别及消解的性能;(2)  主干型和修饰型零元素对篇章信息和句法信息的依赖度是不一样的,后续将对它们分别
         建模,再借助多任务学习框架进行结合;二是进行汉语篇章零指代和微观修辞结构的联合学习研究,侧重考虑零
         指代在篇章逻辑语义关系推进中的作用.

         References:
          [1]    Kim YJ. Subject/Object drop in the acquisition of Korean: A cross-linguistic comparison. Journal of East Asian Linguistics, 2000,9:
             325−351.
          [2]    Beaugrande RAD, Dressler W. Introduction to Text Linguistics. London and New York: Longman Paperback, 1981.
          [3]    Schank Roger C. Conceptual dependency: A theory of natural language understanding.Cognitive Psychology, 1972,3(4):552−631.
          [4]    Pradhan S, Ramshaw L, Marcus M, et al. CoNLL-2011 shared task: Modeling unrestricted coreference in ontonotes. In: Proc. of the
             15th Conf. on Computational Natural Language Learning: Shared Task. Association for Computational Linguistics, 2011. 1−27.
          [5]    Pradhan S, Moschitti A, Xue N, et al. CoNLL-2012 shared task: Modeling multilingual unrestricted coreference in OntoNotes. In:
             Proc. of the Joint Conf. on EMNLP and CoNLL-Shared Task. Association for Computational Linguistics, 2012. 1−40.
          [6]    Li CN, Thompson SA. Third-person pronouns and zero-anaphora in Chinese discourse. Syntax and Semantics, 1979,12:311−335.
          [7]    Li WD. Topic chains in Chinese discourse. Discourse Processes, 2004,37:25−45.
          [8]    Converse S. Pronominal anaphora resolution in Chinese [Ph.D. Thesis]. University of Pennsylvania, 2006.
          [9]    Zhao SH, Ng HT. Identification and resolution of Chinese zero pronouns: A machine learning approach. In: Proc. of the EMNLP-
             CoNLL 2007. Association for Computational Linguistics, 2007. 541−550.
         [10]    Campbell  R.  Using linguistic principles to recover  empty categories. In: Proc. of the 42nd Annual  Meeting  on Association for
             Computational Linguistics. Association for Computational Linguistics, 2004. 645.
   130   131   132   133   134   135   136   137   138   139   140