基于统计和规则混合策略的维吾尔人名识别研究

被引量 : 0次 | 上传用户:liuling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众所周知,与其它语言的命名实体识别研究成果相比,维吾尔人名识别还是处于一个初步的研究阶段。维吾尔文命名实体识别是维吾尔文信息处理任务的前提和基础,其中人名占有相当大的比例,而且是最难识别的一部分。其识别精度还远远达不到实际应用的需要。考虑到单纯地用基于统计的方法或基于规则的方法,在维吾尔人名的自动识别上都存在一定的不足,而统计和规则相结合的方法可以互相补充,弥补所产生的缺陷。本文采用统计与规则相结合的混合策略,提出了一种从维吾尔文中识别出维吾尔族人名的方法。本文的主要研究工作包括:(1)构建了人名用字知识库(UyghurNames)、维吾尔族男女人名前缀后缀词库(ManSuffix、WomanSuffix)、地名特征词库(PlaceNames)、机构名特征词库(OrganizationNames)、以及著名人物字典(FamousPersonNames)和常用的歧义性人名库(AmbiguousNames),利用各种库中的统计信息,对文本中的维吾尔人名作初步的提取(称作候选人名的提取)。(2)分析了构成维吾尔人名的各种特征,以及包括上下文信息、模板信息等在内的内部和外部特征,提取典型的特征集,并总结出相应的识别规则,对候选人名进行识别。(3)本文分析歧义性维吾尔人名的结构特点和语法、词法特征,总结了相应的消歧规则,对歧义性人名进行消歧。本文采用基于规则的方法消除歧义,从而进一步提高了人名识别的准确率。(4)识别系统的设计与实现:采用基于统计和规则混合策略的方法构建了一个维吾尔人名识别系统。候选人名提取之后进行特征提取和规则施加,确定输入的文本中存在的维吾尔人名,并将其提取,保存到结果文件中。本文以12.59MB的测试语料作为实验数据,对构建的系统进行了封闭和开放测试,实验结果表明,封闭测试的准确率到达88.47%,召回率到达85.1%,封闭测试的准确率到达88.47%,召回率到达85.1%。
其他文献
技术和商业模式的不断迭代创新;当地物流、支付体系,包括互联网和电信基础设施的不完善;政策变化给企业带来困惑和影响等,都对电商企业提出了越来越高的要求。6月经历了以“
期刊
就业是劳动者通过劳动维持生存并实现其价值的重要环节和前提,就业权的平等享有与保障是人人平等原则在就业领域的体现。就业权的享有和保障状况,不仅关系着就业者的生存权的
本文主要对"三驾马车"对中国经济增长拉动进行了实证分析。主要从数据、指标和基本模型,分析过程,结论三方面展开了详细论述。
目的探讨局部氧疗在新生儿尿布性皮炎护理中的应用效果。方法选取2016年6月至2017年6月在我院新生儿科接受治疗的尿布性皮炎足月新生儿100例,随机等分为对照组和观察组,对照
[目的]探讨Orem自护理论结合辨证施护应用于脑卒中后遗症病人居家康复的实用性及有效性。[方法]对122例脑卒中后遗症病人及其家庭进行综合干预,制定护理方案和评价体系,实施
近年来,中国农业发展银行(以下简称农发行)快速发展,会计核算管理平台不断提升,促进了农发行会计业务的发展,同时带来了会计风险,对于农发行县级支行也提出了更高的要求。本文以中国
[目的]探讨简易步态训练对老年帕金森病病人平衡的影响及其预防跌倒的临床效果。[方法]选取60例60岁以上原发性帕金森病病人,对病人采用5m步行训练法,用步速和步长、计时"起
课前预习:阅读课文,了解并掌握西亚的三个突出的地理特点,明确超级大国争夺西亚的目的。引入新课:南亚东以阿拉干山脉为界,与东南亚毗邻。问:南亚西北面与亚洲哪部分地区相
随着中国国力的逐步增强,改革开放的进一步推进,与周边国家,特别是独联体国家各领域的合作日益密切,以能源、矿产资源为代表的科技交流日益频繁,科技文献翻译显得尤为重要。笔者对
体验经济时代,信息化的发展为我国旅游产业结构优化、旅游服务水平提高提供了重要手段。网络时代的来临,散客旅游市场的兴起,促使旅游电子营销产品不断调整和发展。虚拟旅游产品