基于HMM及角色标注的中国人名识别研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:crosswind123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文未登录词识别或命名实体识别是中文信息处理的基本任务,命名实体识别是从文本中提取专有名词和数字信息,并将其分类为诸如人名、地名和组织机构名等类别。命名实体识别技术在多种自然语言处理技术发挥着重要作用,如文本理解、文本校对、文本主题自动抽取、文本聚类、文本挖掘、文本过滤、信息提取和机器翻译等。作为中文信息处理的重要基础课题,命名实体的研究有着重要的意义,它能显著地提高中文信息处理的质量。  本文主要研究了中国人名的识别相关问题。本文首先简要介绍了中国人名识别的难点,然后介绍了一些现有的中文分词方法以及人名识别方法,并对各种人名识别方法进行了比较,分析了每种方法的优劣势以及目前的研究趋势,最后实现了一种基于HMM及角色标注的中国人名识别方法。首先利用隐马尔可夫模型,对中文文本进行分词和词性标注,然后对分词结果进行角色标注转换,最后利用人名识别模式集,通过模式匹配算法找出符合要求的文本片段,将其作为人名识别出来,最终实现中国人名的识别。在识别过程中,本文充分考虑了非完整形式的人名识别,促进了人名识别工作的完整性。  通过对一些语料的测试证明本文中的方法是行之有效的,能够成功从文本中识别出中国人名。
其他文献
本文在万林克公司系列路由器上实现了SNMPv3模块,主要是SNMP引擎以及命令响应器和通知生成器等等。在最终完成整个SNMPv3客户端程序设计、编码和测试,最终此模块运行稳定并投入
山西省广播电视学会电视学研究委员会于4月11日召开了《家庭音乐会》研讨会。今年2月,省电视台与省总工会、省妇联联合举办的“首届春笋杯家庭音乐会”,在社会上引起了强烈
本文通过分析BS模式系统开发的各种方案,提出了基于XML技术的四层分布式WEB信息系统构架,基于该构架设计并实现了陕西柴油机厂生产处信息系统。 本文从该信息系统的分析设计
如今很多高端Android手機都开始主打全功能的NFC功能,即可实现添加银行卡和公交卡,用手机刷POS机的服务(图1)。不过,不少用户都在手机刷银行卡时遇到了各种各样的问题,今天我们就简单对常见问题进行一下解答(以华为手机为例)。  如果在添加银行卡时出现“未知类型的错误,请您联系银行客服,卡号识别错误”的报错提示,请检查手机网络,或是由于摄像头扫描银行卡号与实际银行卡号不一致,需要手动修改。如果
随着Agent技术的发展和成熟,智能界面的设计正越来越多的采用Agent技术。界面Agent是软件Agent的一员,它和用户共同合作来完成任务,功能上类似于个人助手。目前,界面Agent研究的
由100家新闻单位组成的全国新闻观测网于1月中旬在广州召开首次工作会议,同时召开的还有中国社会调查系统首届民意研讨会。来自全国各地的新闻工作者作为观测员与民意调查系
动态域名系统是可以实现动态更新的域名系统.该文首先介绍了域名系统的技术,并分析了动态域名系统的相关协议(RFC2126、RFC3007等)以及已有的实现方法(BIND、微软DNS服务器).
该文在对传统的和现有的应用于地面网络的网络管理结构和技术广泛的了解和深入的分析基础上,提出了基于MobileAgent分布式异构网络管理结构.这一结构,充分利用Mobile Agent开
基于多核的分类器能同时考虑多个核空间,在处理多源的、异构的、不规则且高维空间分布不平衡等问题具有较好的效果。经验核映射能显式地将样本映射到核空间中,便于处理和分析样
我国正在走向世界,对外开放进一步扩大,外向型经济正在发展。全国各地,尤其是沿海各省人民,急切盼望新闻媒介及时地提供世界这个经济大舞台的各种信息。我们应该让人民了解