论文部分内容阅读
近年来,互联网发展迅速,网络数据量飞速增长,这使得传统的方法很难从海量的网络数据中有效的提取出有用的信息。信息抽取与实体知识库的提出可以有效的解决这一问题。论文基于信息抽取中命名实体识别与实体关系抽取技术构建实体知识库系统。论文的研究工作得到了国家自然科学基金项目(No.61271308、61172072、61401015)和北京市教育委员会研究生学科建设项目的支持。论文的主要工作如下:论文针对中文的命名实体识别一直存在边界难以界定、命名规则多样等问题,依据相同类别的中文命名实体往往具有结构或规则的相似性的特点,分实体类别采用不同的识别过程,实现命名实体的有效识别。提出通过设置不同的特征模板,使用条件随机场算法训练得到实体识别模板,并且针对识别难度较高的地名实体、组织机构实体采用校准规则,提升整体识别效果,完成命名实体识别模型的构建。此外,论文提出了一种面向网络新闻语料,从大规模数据中抽取实体关系的无监督实体关系抽取模型,该方法可以克服传统实体关系抽取方法所具有的人工投入量大、领域移植性差的缺点。该模型构建新的关系识别函数,对有关系的实体对进行识别;使用句法分析构建规则,提取关系特征词,并结合"上下文窗口"的特征词提取方法的结果,建立关系特征词列表;采用聚类效果较传统k-means算法表现更为优异的相似性传播算法,实现特征词的聚类。经过实体对筛选、特征词提取、特征词聚类,得到实体关系。为了验证方法的有效性,论文使用网络获取的语料,分别对设计的方案进行了实验验证。经过不同实验数据在识别准确率的对比、分析,可以看出,论文提出的方法能够有效地识别命名实体及其关系,提升实体知识库系统的数据采集性能。