融合干扰词上下文特征的中文命名实体识别研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户：wn206403

【摘要】

：

现有识别中文命名实体方法多依赖其自身结构特点,并且嵌套命名实体的识别还没有引起足够的重视,另外,广泛类型实体识别几乎没有研究,如产品品牌、新闻媒体等。基于此,本文提

【作者】

：

郝娟

【出处】

：

华东师范大学

【发表日期】

：

2015年期

【关键词】

：

命名实体广泛类型命名实体上下文特征相交特征独有特征干扰词特征匹配算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现有识别中文命名实体方法多依赖其自身结构特点,并且嵌套命名实体的识别还没有引起足够的重视,另外,广泛类型实体识别几乎没有研究,如产品品牌、新闻媒体等。基于此,本文提出了融合干扰词上下文特征的中文命名实体识别算法。该算法用统一模型识别人名、地名、机构名以及广泛类型的命名实体；同时,可以进行不包含自身结构特点的实体以及嵌套命名实体的识别。本文方法既不依赖命名实体边界词知识库和实体知识库,也不依赖命名实体的内部特征,而是通过训练得到命名实体的上下文特征,然后利用这些特征对命名实体进行识别。在特征选取上,将上下文特征分为命名实体独有特征和干扰词与命名实体相交特征。每一个特征赋予一个错误率权重w,选择不同错误率w范围内的特征,采用上下文特征匹配算法对各类命名实体进行识别。算法还通过建立干扰词表和扩展操作,进一步提高命名实体的准确率与召回率。为验证本文提出的命名实体识别方法的有效性,论文选择了多组测试数据进行测评。首先在人民日报语料上对人名、地名、机构名的识别进行6折交叉验证实验。接着分析1月人民日报语料各类命名实体的组成结构,并与依赖边界特征词、命名实体内部特征和命名实体知识库的方法进行对比。再接下来,本文又对广泛类型的命名实体进行识别,其中品牌、新闻媒体的识别取得了较好的结果。为了全面验证本文方法的有效性,又在搜狗测试集上对命名实体进行识别。最后,我们在人民日报语料与搜狗语料上,用本文的方法和最好的汉语词法分析器ICTCLAS对命名实体进行识别,本文方法在人民日报语料上获得较高的平均识别效果。

其他文献

尘螨标准化变应原对儿童哮喘治疗作用的临床研究

目的：探讨特异性免疫治疗（SIT）对儿童哮喘的治疗效果和安全性。方法：对53例尘螨过敏的哮喘患儿采用尘螨标准化变应原进行SIT，通过观察不同时期激素吸入量、肺功能变化和哮喘症状评

期刊

儿童哮喘特异性免疫治疗标准化变应原肺功能Asthma children Specific immunotherapy Standardization

基于iBeacon技术的安全性服装设计

绿色生态时代下,服装安全受到人们越来越多的重视。电子信息技术和材料科学等多学科的发展与交叉运用,为服装安全设计提供了更多的可能。文章将iBeacon这项技术作为安全因子

期刊

iBeacon技术NFC安全性服装设计科技

海南尖峰岭热带山地雨林小气候特征研究

森林小气候的研究是揭示森林生态系统功能、评估森林环境效益的基础,森林小气候资料不但为森林生态学的各项研究提供了基础数据,同时为全球变化对森林生态系统的影响及其响应

学位

尖峰岭热带山地雨林原始林次生林小气候

班主任提高学生核心素养研究

中小学阶段是学生知识积累、人格健全最为重要的阶段。核心素养作为学生的基本素养,同时也是评价人才培养最为重要的指标,对学生的成长具有重要意义。文章从班主任的思维角度

期刊

核心素养班主任日常教学人才培养

哮喘大鼠血管内皮生长因子表达与γ-干扰素、白介素-4变化的相关性及地塞米松的干预

目的：观察血管内皮生长因子（vascular endothelial growth factor，VEGF）、γ-干扰素（IFN-1）、白介素-4（IL-4）在大鼠哮喘急性模型中的表达情况，探讨Th细胞亚群的失衡与其表达的相关性。

期刊

哮喘血管内皮生长因子Γ-干扰素白介素-4地塞米松Asthma Vascular endothelial growth factor IL-4 IFN-

我院呼吸道感染住院患儿抗生素使用情况调查

目的：分析我院3年中呼吸道感染住院患儿抗生素使用情况，探讨抗生素使用的合理性及规范性。方法：采用分层抽样的方法，回顾性地分析1146例患儿首选及联合使用抗生素情况。结果：在首

期刊

抗生素合理用药呼吸道感染患儿Antibiotics Rational drug use Respiratory tract infections Chi

基于统一模型的中文社交媒体命名实体识别的研究

随着信息时代的发展,人们迫切须要从海量的文本信息中快速读懂信息,命名实体识别技术运用而生。命名实体识别是指从文本中筛选和识别出人名、机构名、地名等专有名称和有意义

学位

命名实体识别统一识别模型跨领域学习相似度半监督学习置信度

融合干扰词上下文特征的中文命名实体识别研究

其他学术论文