论文部分内容阅读
中文机构名称的自动识别对提高汉语自动分词的精确率有着重要的意义,也是自然语言理解、机器翻译、信息抽取和信息检索的基础。 由于机构名称和姓名同属于专名,而且两者在组成上有一定的相似性,本文首先对中文姓名和中文机构名称进行了对比研究。根据机构名称的特点,并参照中文姓名的识别系统,利用统计方法建立了机构名称特征词词典、前部词词典、单词词典、双词接续词典,综合考虑机构名称上下文以及机构名称本身的构词能力,设计并实现了以统计为主的机构名称识别系统。 由于机构名称长度的不确定性以及用词用字的复杂性,导致机构名称左边界的确定是识别的难点,因而本文根据对汉语语法知识以及实际语料的分析,对机构名称前词进行了研究和分类,总结了有效的规则,以进一步提高机构名称左边界识别的正确率。 通过对实际语料的测试,该模型闭式精确率和召回率分别达94.17%和91.50%,开式精确率和召回率分别达92.40%和86.48%。