论文部分内容阅读
日语形态素解析是日文信息处理特有的研究课题,也是日文信息处理研究的基础。它在拼音输入、语音识别、文章校对、信息检索、文本分类、机器翻译等领域有着广泛的应用。
本文首先根据日中机器翻译的特点,构建了日语词典:然后,充分挖掘了日语源语言的特点,根据日语的语法知识,把活用匹配、接续检查、预切分处理过程同最长次长匹配法结合到一起,实现了日语形态素解析模型。另外,考虑到未登录词对最长次长模型的影响,本文对姓名、机构名、片假名、平假名、英文等未登录词进行了识别,并在最长次长匹配法模型中引入了再执行机制处理未登录词。
通过对实际语料的测试,该系统的封闭式精确率达到99%,开放式精确率达到97.6%。从测试结果可以看出,该形态素解析系统已经具有比较高的形态素解析精确率。目前,该系统已经应用到实际的日中翻译系统中。