论文部分内容阅读
自然语言构成的文本中往往包含了丰富的信息,但是这些自然语言描述的信息是提供给人阅读理解,计算机无法组织里面的有效信息加以利用。一般的解决办法是人工直接从文本中提取信息,或者利用计算机程序通过自然语言特征抽取特定信息。如何让计算机更好的自动抽取文本信息成为急需解决的问题。中文文本信息抽取成为自然语言处理及文本挖掘领域的一个研究热点。
文本信息抽取主要分为实体抽取、实体关系抽取等部分,目前大多采用机器学习,尤其是基于概率统计的机器学习方法来解决这些问题。主要分为有指导(Supervised)和弱指导(Weakly Supervise)的学习方法。大多数自然语言处理问题面对的是一般领域语料,大多采用有指导的学习方法,需要费时费力的标注训练集,训练集的优劣直接决定了最终学习模型的好坏。然而信息抽取任务针对的往往是特殊领域语料,基于一般领域语料所总结出的抽取内容往往不能很好解决特殊领域问题。所以需要利用机器学习方法快速构建特殊领域文本信息抽取系统。
本文采用弱指导Bootstrapping方法,只需研究领域文本特征,建立规模很小的种子模板集。由于中文本身的特点,绝大部分中文自然语言处理工作的基础都是分词、词性标注等词法分析,因此本文利用中文分词工具以及特定实体名称识别对文本进行预处理,最终可将实体提取和关系提取统一起来,进行模板自动学习抽取。用文本特征及统计信息对模板匹配到的信息评估打分,满足要求的信息作为新的模板添加到对应模板集,实现对模板的迭代学习。
本文针对科学家文本简历领域实现了该方法,与直接通过模板提取信息相比,本文提出的方法大大提高了准确率召回率,以及减少了大量人工干预,建立模板的工作工作量。并且具有很好的扩展性,可以做到迅速构建系统应对新的中文文本抽取任务。
通过本文的理论研究以及系统实现,可以总结出,在具有一定语料特征的领域中,相比较传统的有指导学习方法,Bootstrapping可以大大减少人工标注量,并且最终结果可以和有指导方法相当,甚至优于有指导方法。