论文部分内容阅读
众所周知,与其它语言的命名实体识别研究成果相比,维吾尔人名识别还是处于一个初步的研究阶段。维吾尔文命名实体识别是维吾尔文信息处理任务的前提和基础,其中人名占有相当大的比例,而且是最难识别的一部分。其识别精度还远远达不到实际应用的需要。考虑到单纯地用基于统计的方法或基于规则的方法,在维吾尔人名的自动识别上都存在一定的不足,而统计和规则相结合的方法可以互相补充,弥补所产生的缺陷。本文采用统计与规则相结合的混合策略,提出了一种从维吾尔文中识别出维吾尔族人名的方法。本文的主要研究工作包括:(1)构建了人名用字知识库(UyghurNames)、维吾尔族男女人名前缀后缀词库(ManSuffix、WomanSuffix)、地名特征词库(PlaceNames)、机构名特征词库(OrganizationNames)、以及著名人物字典(FamousPersonNames)和常用的歧义性人名库(AmbiguousNames),利用各种库中的统计信息,对文本中的维吾尔人名作初步的提取(称作候选人名的提取)。(2)分析了构成维吾尔人名的各种特征,以及包括上下文信息、模板信息等在内的内部和外部特征,提取典型的特征集,并总结出相应的识别规则,对候选人名进行识别。(3)本文分析歧义性维吾尔人名的结构特点和语法、词法特征,总结了相应的消歧规则,对歧义性人名进行消歧。本文采用基于规则的方法消除歧义,从而进一步提高了人名识别的准确率。(4)识别系统的设计与实现:采用基于统计和规则混合策略的方法构建了一个维吾尔人名识别系统。候选人名提取之后进行特征提取和规则施加,确定输入的文本中存在的维吾尔人名,并将其提取,保存到结果文件中。本文以12.59MB的测试语料作为实验数据,对构建的系统进行了封闭和开放测试,实验结果表明,封闭测试的准确率到达88.47%,召回率到达85.1%,封闭测试的准确率到达88.47%,召回率到达85.1%。