论文部分内容阅读
近年来,在搜索、信息抽取、机器翻译等技术和需求的推动下,自然语言处理技术迅速发展成为一门独立的学科,并倍受关注。语言资源建设是自然语言处理研究领域的基础性研究内容,语篇标注是文本信息处理和语言资源建设的一个重要方面。语篇标注系统是完成语篇标注的有力工具,开发语篇标注系统是直接影响语篇标注的效率和质量的一个重要环节,是文本信息处理方向的一个重要研究和尝试。本文在相应语篇标注理论的基础上,设计并实现了面向文本内容计算的语篇标注系统,辅助建设面向内容计算的文本信息标注语料库。对突发事件信息及时、有效的提取是应对突发事件的一个重要方面,突发事件新闻文本格式相对严格,所以我们选取突发事件新闻文本作为标注对象。本文以相关课题研究为背景,以国内外关于语篇标注的理论、语篇标注工具为基础,以突发事件新闻文本中的意义单元为标注对象,分层分类的进行标注。本文主要做了以下几个方面的工作:1.确定突发事件新闻文本分类分层标注集,确定生成XML文件的元素和层次结构:根据理论中确定的标注内容,为标注内容和相关属性选取适当的关键字,并把层次结构和关键字值在生成XML文件中体现出来。2.完成各类意义单元从线性文本到结构化文本的转化:标注中实体、实体关系、事件、事件关系、时间等任何意义单元的标注,都要从原始文本中提取出,并加上对应标注集中的关键字,转化为XML格式的结构化文本。3.完成文本信息人工标注辅助系统的设计与实现:根据标注需求设计并实现了一个语篇标注系统,并完成了一定数量文本的标注。本文设计并实现了一个界面友好的语篇标注系统,从而提高了语篇标注的标注效率和质量,并最大程度地进行了固定格式的自动标注。是语篇标注理论具体实践方法,为语篇标注乃至面向内容的计算提供了可参考的标注解决方法和模块。