文本信息人工标注辅助系统的设计与实现

被引量 : 1次 | 上传用户:cz9104
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在搜索、信息抽取、机器翻译等技术和需求的推动下,自然语言处理技术迅速发展成为一门独立的学科,并倍受关注。语言资源建设是自然语言处理研究领域的基础性研究内容,语篇标注是文本信息处理和语言资源建设的一个重要方面。语篇标注系统是完成语篇标注的有力工具,开发语篇标注系统是直接影响语篇标注的效率和质量的一个重要环节,是文本信息处理方向的一个重要研究和尝试。本文在相应语篇标注理论的基础上,设计并实现了面向文本内容计算的语篇标注系统,辅助建设面向内容计算的文本信息标注语料库。对突发事件信息及时、有效的提取是应对突发事件的一个重要方面,突发事件新闻文本格式相对严格,所以我们选取突发事件新闻文本作为标注对象。本文以相关课题研究为背景,以国内外关于语篇标注的理论、语篇标注工具为基础,以突发事件新闻文本中的意义单元为标注对象,分层分类的进行标注。本文主要做了以下几个方面的工作:1.确定突发事件新闻文本分类分层标注集,确定生成XML文件的元素和层次结构:根据理论中确定的标注内容,为标注内容和相关属性选取适当的关键字,并把层次结构和关键字值在生成XML文件中体现出来。2.完成各类意义单元从线性文本到结构化文本的转化:标注中实体、实体关系、事件、事件关系、时间等任何意义单元的标注,都要从原始文本中提取出,并加上对应标注集中的关键字,转化为XML格式的结构化文本。3.完成文本信息人工标注辅助系统的设计与实现:根据标注需求设计并实现了一个语篇标注系统,并完成了一定数量文本的标注。本文设计并实现了一个界面友好的语篇标注系统,从而提高了语篇标注的标注效率和质量,并最大程度地进行了固定格式的自动标注。是语篇标注理论具体实践方法,为语篇标注乃至面向内容的计算提供了可参考的标注解决方法和模块。
其他文献
阳极键合是一种利用电和热相互作用实现固体电解质玻璃(陶瓷)与金属材料固态连接的一种新方法。由于其具有低温、快速、良好的可靠性和稳定性的特点,现已发展成为一种用于微机
目的:探讨带旋髂深血管蒂髂骨瓣移植治疗青壮年股骨颈骨折的临床效果。方法:对10例青壮年股骨颈骨折患者行切开复位内固定,取带旋髂深血管蒂髂骨瓣移植于股骨颈骨折处,观察其
在经济高速发展的今天,能源是影响社会进步的重要因素,节能降耗、减少排放日益成为各个发电企业的首要任务。本课题结合三河电厂一期工程相关系统、设备对火力发电厂凝汽设备
本文对数据挖掘算法在人才测评中的应用作了研究。随着人力资源管理日益成为企业生存关键的时候,人才测评作为人力资源管理的一项专门技术也越来越受到人们的重视。人才测评
目的:Y染色体除拟常染色体区外,在遗传过程中不发生染色体重组,呈父系单倍型遗传特点,因此应用Y染色体多态性DNA遗传标记,可对不同群体间的遗传距离进行分析,从而揭示不同群
以溶胶-凝胶法采用硝酸氧锆为主要原料和柠檬酸为分散剂探索出了制备NASICON粉体和薄膜材料的新方法。通过对其进行的XRD、FTIR、Raman、TEM、XPS、SEM和复阻抗等表征分析,表
县域经济在国民经济中的重要地位已经引起社会各界的高度重视,近年来,江西省宜春市县域经济得到较大发展,但与江西省和全国整体水平相比,仍处于落后地位,且发展差距呈扩大之
试验以“桂淮2号”淮山药为供试品种,研究不同的植物生长调节剂对南方地区淮山药生长及品质的影响,以探索有效的植物生长调节剂种类及浓度。2006年选用6种植物生长调节剂进行
作为语言的核心,词汇在英语教学中扮演着非常重要的角色。近年来,国内外关于词汇习得策略的研究硕果累累。然而,对于词汇教学模式的研究未能给予广泛的关注。本文借助信息加
往复式压缩机因具有效率高等特点,广泛用于石化等领域。压缩机管道振动引起的事故不计其数,并且其振动幅度也是评价压缩机性能的指标。据相关资料显示,我国压缩机事故原因大