面向文本的校友人际关系抽取

来源 :南开大学 | 被引量 : 0次 | 上传用户:ABCDEFGHIJKLMN100083
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
校友是高等学校拥有的具有巨大潜力的资源,是一个信息丰富、知识密集、社会能力强的群体,不但是高等院校的形象资源,也是高等院校的财富资源,对高等学校的发展起着举足轻重的作用。目前高等学校对校友资源的开发大都是使用人工搜集和管理,信息的实用性、利用率和实效性较低,高等学校很难充分的利用校友资源。因此,进行校友的人际关系抽取对于校友资源的开发具有重要作用,本文的研究工作就是从文本信息中抽取出校友的人际关系。   信息抽取的任务是自动从自然语言文本中抽取出用户感兴趣的信息,通过将关系结构引入到非结构化文本中来为搜索引擎的发展提供一种很有前途的解决方案。关系抽取是在识别出文本中的实体的基础上,确定这些实体中存在的关系,使得用机器来自动的阅读、理解和提取信息成为可能,实现了信息的自动抽取和检索。   本文首先介绍了实验数据集的构造方法,文本使用的数据集是我们人工构造的数据集。接着,本文提出了一种基于监督学习的关系抽取方法,将校友人际关系抽取问题看成是一个分类问题,针对每一个人名实体对构建了实体的自身特征、上下文特征和句法特征这三大类特征,分别使用最大熵分类器和支持向量机分类器进行实验。从实验结果得知,使用相同的特征进行实验,两个分类器的效果比较相近,但是召回率较低,这是由词法特征的缺失导致的。然后,本文提出了将基于分类的关系抽取方法和基于聚类的关系抽取方法相结合的混合抽取方法,在介绍了基于聚类的关系抽取方法后给出了混合关系抽取方法的流程,经过实验证明,混合抽取方法提高了召回率,取得了较好的性能。
其他文献
片上多核处理器系统已经成为处理器发展的主流趋势,针对此类系统的并行程序的运行时优化成为当前研究中的热点。并行线程调度优化已经成为提高系统资源利用率的关键之一,而传统
大学课程中物理实验是理工类院校提供综合性很强的实验能力培养课程,是学生对科学实验开展基本训练的基础课程和必修课程,同时也是培养大学生科学的严谨的实验操作能力、提升科
在当前互联网应用激增的背景下,基于Web的应用系统软件在社会生活的各个领域都得到了广泛的应用。政府和企业为提高工作效率、节省工作成本,将信息化建设作为重点工作内容,投入
网格作为一种新的计算能力,它可以对分布的、异构的资源进行共享及选择,并且能够解决大规模的计算问题,比如科学和商业上的,因此被越来越多的人所重视。网格技术是近几年新兴
随着网络存储系统中的信息量的爆炸式增长,系统的存储容量需求日益提高。而随着海量存储系统中的磁盘数目越来越多,由磁盘故障所引起的数据丢失的可能性也越来越大,系统的可靠性
目前DB2数据库技术作为信息系统的核心技术得到了不断的发展和完善。随着企业内的数据总量正在呈指数级增长,数据库系统的性能逐渐遇到了瓶颈,如何在有限的资源条件下提高数据
随着计算机和通信技术的高速发展,计算机网络在人们的工作和生活领域正在迅速普及,许多企业和组织为了充分利用和共享网络中的资源,都将自己的内部网络与互联网连接。但随之
医疗数据因其自身具有独特的异构性、海量性、复杂性及安全性等特点,在其采集与处理的过程中会产生许多不完整、不一致的“脏数据”,从而影响了对这些数据的分析及利用。目前
HDFS是Hadoop的旗舰级分布式文件系统,是云存储的基础架构。HDFS采用了完全复制的存储方案,该存储方案下的数据存储占用较多的存储空间,数据块-存储节点映射信息占用较多的存储
随着信息技术的不断增长,海量数据信息的存储越来越依赖云存储系统。作为云存储系统的典型代表Hdfs,需要将每一个数据块的副本放置在多个节点上。副本放置策略的好坏,直接影响着