论文部分内容阅读
中文未登录词识别或命名实体识别是中文信息处理的基本任务,命名实体识别是从文本中提取专有名词和数字信息,并将其分类为诸如人名、地名和组织机构名等类别。命名实体识别技术在多种自然语言处理技术发挥着重要作用,如文本理解、文本校对、文本主题自动抽取、文本聚类、文本挖掘、文本过滤、信息提取和机器翻译等。作为中文信息处理的重要基础课题,命名实体的研究有着重要的意义,它能显著地提高中文信息处理的质量。 本文主要研究了中国人名的识别相关问题。本文首先简要介绍了中国人名识别的难点,然后介绍了一些现有的中文分词方法以及人名识别方法,并对各种人名识别方法进行了比较,分析了每种方法的优劣势以及目前的研究趋势,最后实现了一种基于HMM及角色标注的中国人名识别方法。首先利用隐马尔可夫模型,对中文文本进行分词和词性标注,然后对分词结果进行角色标注转换,最后利用人名识别模式集,通过模式匹配算法找出符合要求的文本片段,将其作为人名识别出来,最终实现中国人名的识别。在识别过程中,本文充分考虑了非完整形式的人名识别,促进了人名识别工作的完整性。 通过对一些语料的测试证明本文中的方法是行之有效的,能够成功从文本中识别出中国人名。