基于信息抽取的实体知识库系统研究

来源 :北京交通大学 | 被引量 : 13次 | 上传用户:vincent1115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网发展迅速,网络数据量飞速增长,这使得传统的方法很难从海量的网络数据中有效的提取出有用的信息。信息抽取与实体知识库的提出可以有效的解决这一问题。论文基于信息抽取中命名实体识别与实体关系抽取技术构建实体知识库系统。论文的研究工作得到了国家自然科学基金项目(No.61271308、61172072、61401015)和北京市教育委员会研究生学科建设项目的支持。论文的主要工作如下:论文针对中文的命名实体识别一直存在边界难以界定、命名规则多样等问题,依据相同类别的中文命名实体往往具有结构或规则的相似性的特点,分实体类别采用不同的识别过程,实现命名实体的有效识别。提出通过设置不同的特征模板,使用条件随机场算法训练得到实体识别模板,并且针对识别难度较高的地名实体、组织机构实体采用校准规则,提升整体识别效果,完成命名实体识别模型的构建。此外,论文提出了一种面向网络新闻语料,从大规模数据中抽取实体关系的无监督实体关系抽取模型,该方法可以克服传统实体关系抽取方法所具有的人工投入量大、领域移植性差的缺点。该模型构建新的关系识别函数,对有关系的实体对进行识别;使用句法分析构建规则,提取关系特征词,并结合"上下文窗口"的特征词提取方法的结果,建立关系特征词列表;采用聚类效果较传统k-means算法表现更为优异的相似性传播算法,实现特征词的聚类。经过实体对筛选、特征词提取、特征词聚类,得到实体关系。为了验证方法的有效性,论文使用网络获取的语料,分别对设计的方案进行了实验验证。经过不同实验数据在识别准确率的对比、分析,可以看出,论文提出的方法能够有效地识别命名实体及其关系,提升实体知识库系统的数据采集性能。
其他文献
病毒滴度是麻疹减毒活疫苗的主要质量指标之一。本文结合生产实际,就有关提高麻疹疫苗病毒滴度的影响因素进行了探讨。试验说明,生产用毒种的质量十分重要,要保证麻疹疫苗的高滴
<正>2010年11月24-26日,2010年浙江省初中语文课堂教学评比活动在温州举行。两天的赛课,深深为赛课教师的才情和精巧的设计以及学生一次又一次的精彩回答所折服,同时又不禁思
<正>随着甘肃平凉供电公司"三集五大"体系的全面建成,"大检修"体系下的配网运检业务发生了诸多变化。在新形势下,县级供电公司如何探索配网运维精细化管理之策,提升配网运维
为评价碧流河水库污染状况和对未来发展提供指导依据,于2014年8月至2015年5月按季度采样研究碧流河水库及其流域河流理化因子、浮游植物种类组成、密度、生物量及物种多样性,
<正>2001年9月11日,美国,震惊全世界,自1973年始就毅然耸立的标志性建筑双子大楼在恐怖分子的有计划有组织进攻下轰然倒塌。消息传来,我们这些当时还似懂非懂的高中生一度欢
<正>在"学习践行强军目标、做新一代革命军人"主题教育活动中,我们紧紧围绕"理论灌输牵引、配合活动深化、岗位实践见效、制度机制固化"的目标思路,从立起军人样子中选题破题
NPC1L1是近年来人们研究高脂血症的重点内容,该蛋白已被证实在胆固醇的肠道吸收和胆汁分泌中发挥了关键作用。NPC1L1调节体内胆固醇的生物合成,是维持生物体胆固醇动态平衡的
十八大以来,习近平围绕我国传统文化的思想精华、时代价值、历史地位和具体弘扬途径展开了深入研究,形成了系统的、科学的马克思主义传统文化观,本文分四部分对其进行了思考
菌落形态是鉴别和分类菌种的重要特征之一。以分形和多重分形理论为基础,以计算机图像识别技术为手段,考察霉菌(绿僵菌)菌落形态的定量描述,分别测定各菌落样本的分形特征(覆盖维)和