上海大学学报(自然科学版) ›› 2018, Vol. 24 ›› Issue (6): 900-911.doi: 10.12066/j.issn.1007-2861.1888

• 研究论文 • 上一篇    下一篇

面向事件的中文指代语料库的构建

张亚军1,2, 刘宗田1(), 李强1, 周文1   

  1. 1.上海大学 计算机工程与科学学院, 上海 200444
    2.上海精密计量测试研究所, 上海 201109
  • 收稿日期:2017-02-05 出版日期:2018-12-30 发布日期:2018-12-24
  • 通讯作者: 刘宗田 E-mail:ztliu@shu.edu.cn
  • 基金资助:
    国家自然科学基金资助项目(61273328);国家自然科学基金资助项目(61305053);国家自然科学基金资助项目(71203135)

Construction of event-oriented Chinese coreference corpus

ZHANG Yajun1,2, LIU Zongtian1(), LI Qiang1, ZHOU Wen1   

  1. 1. School of Computer Engineering and Science, Shanghai University, Shanghai 200444, China
    2. Shanghai Precision Metrology and Test Research Institute, Shanghai 201109, China
  • Received:2017-02-05 Online:2018-12-30 Published:2018-12-24
  • Contact: LIU Zongtian E-mail:ztliu@shu.edu.cn

摘要:

指代消解是自然语言处理中的关键和热点问题之一, 而语料库的研究是指代消解研究中的基础性工作. 在中文突发事件语料库 (Chinese emergency corpus, CEC) 的基础上, 通过自动生成和人工标注的方法, 构造一个面向事件的中文指代语料库. 与传统指代语料库不同, 该语料库针对的是以事件作为知识表示单元的文本, 对事件中各要素和事件的指代进行标注, 其构建对面向事件的中文指代消解的研究十分关键, 提供了更多的资源支持. 同时, 对 CEC 中各事件要素和事件的指代进行了统计和分析, 为今后的工作提供了一些铺垫.

关键词: 中文, 事件, 指代, 语料库

Abstract:

Coreference resolution, a key in natural language processing, is a basic reasearch topic. This paper describes how an event-oriented Chinese coreference corpus is built based on the Chinese emergency corpus (CEC) via automatic generation and manual annotation. Differing from the traditional coreference corpuses, this corpus is directed to the text, in which knowledge representation unit is based on events, and coreference of elements and events are annotated. The construction of corpus is a key to the research of event-oriented Chinese coreference resolution, which provides more resources to support. The coreference of elements and events are counted and analyzed to provide a basis for the future research.

Key words: Chinese, event, coreference, corpus

中图分类号: