论文部分内容阅读
校友是高等学校拥有的具有巨大潜力的资源,是一个信息丰富、知识密集、社会能力强的群体,不但是高等院校的形象资源,也是高等院校的财富资源,对高等学校的发展起着举足轻重的作用。目前高等学校对校友资源的开发大都是使用人工搜集和管理,信息的实用性、利用率和实效性较低,高等学校很难充分的利用校友资源。因此,进行校友的人际关系抽取对于校友资源的开发具有重要作用,本文的研究工作就是从文本信息中抽取出校友的人际关系。
信息抽取的任务是自动从自然语言文本中抽取出用户感兴趣的信息,通过将关系结构引入到非结构化文本中来为搜索引擎的发展提供一种很有前途的解决方案。关系抽取是在识别出文本中的实体的基础上,确定这些实体中存在的关系,使得用机器来自动的阅读、理解和提取信息成为可能,实现了信息的自动抽取和检索。
本文首先介绍了实验数据集的构造方法,文本使用的数据集是我们人工构造的数据集。接着,本文提出了一种基于监督学习的关系抽取方法,将校友人际关系抽取问题看成是一个分类问题,针对每一个人名实体对构建了实体的自身特征、上下文特征和句法特征这三大类特征,分别使用最大熵分类器和支持向量机分类器进行实验。从实验结果得知,使用相同的特征进行实验,两个分类器的效果比较相近,但是召回率较低,这是由词法特征的缺失导致的。然后,本文提出了将基于分类的关系抽取方法和基于聚类的关系抽取方法相结合的混合抽取方法,在介绍了基于聚类的关系抽取方法后给出了混合关系抽取方法的流程,经过实验证明,混合抽取方法提高了召回率,取得了较好的性能。