科学家中文文本简历信息提取的研究与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:dsfsfsg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言构成的文本中往往包含了丰富的信息,但是这些自然语言描述的信息是提供给人阅读理解,计算机无法组织里面的有效信息加以利用。一般的解决办法是人工直接从文本中提取信息,或者利用计算机程序通过自然语言特征抽取特定信息。如何让计算机更好的自动抽取文本信息成为急需解决的问题。中文文本信息抽取成为自然语言处理及文本挖掘领域的一个研究热点。   文本信息抽取主要分为实体抽取、实体关系抽取等部分,目前大多采用机器学习,尤其是基于概率统计的机器学习方法来解决这些问题。主要分为有指导(Supervised)和弱指导(Weakly Supervise)的学习方法。大多数自然语言处理问题面对的是一般领域语料,大多采用有指导的学习方法,需要费时费力的标注训练集,训练集的优劣直接决定了最终学习模型的好坏。然而信息抽取任务针对的往往是特殊领域语料,基于一般领域语料所总结出的抽取内容往往不能很好解决特殊领域问题。所以需要利用机器学习方法快速构建特殊领域文本信息抽取系统。   本文采用弱指导Bootstrapping方法,只需研究领域文本特征,建立规模很小的种子模板集。由于中文本身的特点,绝大部分中文自然语言处理工作的基础都是分词、词性标注等词法分析,因此本文利用中文分词工具以及特定实体名称识别对文本进行预处理,最终可将实体提取和关系提取统一起来,进行模板自动学习抽取。用文本特征及统计信息对模板匹配到的信息评估打分,满足要求的信息作为新的模板添加到对应模板集,实现对模板的迭代学习。   本文针对科学家文本简历领域实现了该方法,与直接通过模板提取信息相比,本文提出的方法大大提高了准确率召回率,以及减少了大量人工干预,建立模板的工作工作量。并且具有很好的扩展性,可以做到迅速构建系统应对新的中文文本抽取任务。   通过本文的理论研究以及系统实现,可以总结出,在具有一定语料特征的领域中,相比较传统的有指导学习方法,Bootstrapping可以大大减少人工标注量,并且最终结果可以和有指导方法相当,甚至优于有指导方法。
其他文献
随着我国各行业的信息化建设的迅速发展,信息系统更新的速度越来越快,并且项目往往集中出现而且时间要求严格。目前国内有很多信息系统是遵循J2EE规范开发的,而且基于J2EE平台的
层次短语翻译模型是具有代表性的统计机器翻译模型。它属于形式句法模型,使用同步上下文无关语法进行译文的生成,既能兼容短语模型中的所有短语翻译,同时也如语言学句法模型
光学遥感图像舰船目标自动识别具有重要的应用价值。舰船目标识别的核心问题在于如何准确地从大量的遥感图像数据中提取出舰船目标。本文以光学遥感卫星海面目标监视应用为背
载人航天技术是世界各国探索太空领域的重要技术手段,并且是衡量各国军事和工业发展水平的重要标志。保证航天器发射、运行和返回过程不出差错,不仅可以避免巨大的经济和物质损
地球静止轨道卫星具有大覆盖以及实时性等特点,可对灾害性天气现象的发生、发展和消亡进行有效监测,能弥补极轨气象卫星时效差的缺陷。微波探测相比可见光/红外探测具有更强的
学位
大规模地形绘制一直是图形学研究的热点问题。尤其是球面地形绘制,它在形状和数据组织方面相较于平面地形绘制更加复杂,一直处于研究重点和难点。对球面地形的可视化仿真希望达
近年来,随着计算机技术的迅速发展,图像处理技术在空间科学实验中得到了广泛的应用。本文在图像处理中的几项关键技术的研究基础之上,结合相应的空间科学实验环境特点,将相关技术
随着我国航天技术的发展,越来越多的空间科学实验在空间飞行器上进行,各种成像类仪器在空间科学实验中的需求也逐渐增多,导致了电子学处理的数据总量显著增加,从而对仪器设备之间
数据蕴含的巨大价值驱使大量研究的开展。然而,大数据呈现碎片化的特征,形成多源、割裂、异构的数据形态,使得数据的利用变得困难。为了能够使数据价值的最大化,往往需要把多个来