论文部分内容阅读
中文分词是中文信息后续处理和应用的基础和关键,所以中文分词是中文信息处理中的重要组成部分。中文分词算法研究受到人们的极大重视。中文分词算法很多,其中基于词典匹配的中文分词算法和基于字标注的中文分词算法是现在的主要中文分词方法。基于词典匹配的中文分词算法,计算复杂度比较低,应用相对简单,理解也很直观,但在存在歧义字段和未登陆词的情况下,中文分词切分精度下降很厉害,同时,切分正确率、切分速度和词库规模大小有紧密联系。基于字标注的中文切分方法是以统计理论为基础,是一种机器学习中文分词算法。这种算法的计算复杂度大,但该方法在分词时能够获取字特征,合理利用上下文语境信息,能在未登录词和歧义问题上取得不错的效果,成为现阶段中文分词的主要方法。中文分词规范现在还不完善,给中文分词研究带来了很大困难。最大熵方法是一种基于字标注的方法,能够处理中文词汇的非常细微特征,中文词汇区分能力很强,并且简单易于理解。在中分词领域中,最大熵模型已被广泛应用。中文文本包含有很多有意义的稳定组合字串,利用基于字标注的最大熵分词方法进行分词时,不会利用这些组合字串信息。为了利用这些字串信息提出了基于有效子串的最大熵中文分词方法。在该分词方法中,引入了一种提取有效子串的方法,先统计训练语料中所有的子串,形成初始子串词典,并计算得到每个子串相应的频数,用获得的这个初始子串词典对训练语料中所有的字串或语句进行全匹配切分。当初始子串词典中的某个子串跨越了训练语料中的切分标记,则将该子串从初始子串词典中删除,再删除包含阿拉伯数字的子串,最终选择频数大于一定阈值的子串作为最终的有效子串词典。在得到有效子串词典后,对训练语料进行匹配切分和标注,用最大熵模型进行训练并得到相应的模型参数,用得到的模型对测试语料进行预测得到结果。在最后的实验中,通过与最大熵分词方法相比,新方法的切分结果有一定的提高,是一种有效的中文分词方法。