论文部分内容阅读
随着人工智能的发展,机器人逐渐进入人们的日常生活。在人机交互的过程中,自然语言处理被广泛应用。中文分词,作为自然语言处理的基础技术,也是当今人工智能领域研究的热点之一。目前公开的中文分词算法针对特定领域的分词效果不佳,语义理解偏差较大。本文针对特定使用场景——政务领域,提出一种针对条件随机场模型(Conditional Random Field,CRF)的改进算法,来提高中文分词的正确率和召回率。首先,本文对三种主流分词方法进行介绍。在比较各自优缺点的基础上,选取条件随机场作为本文的分词模型。针对当前中文分词研究中存在的技术难点,设计了中文分词的总体流程。其次,针对现有分词预处理方式中词性缺失的问题,提出了一种词性词位标记方式,引入参数对重点词性进行标注。针对条件随机场,提出了一种改进的特征模板,对常用特征进行提取的同时,加入了复合一元特征信息,提高未登录词(Out Of Vocabulary,OOV)的识别能力。然后,将随机梯度下降法(Stochastic Gradient Descent,SGD)应用于条件随机场的训练过程中,提出了一种基于特征频率自适应的方法,提高了模型训练的收敛速度。针对模型预测算法对于词性词位标记的适用问题,本文提出了一种改进的维特比算法(Viterbi)。在后续处理部分,使用基于Tire树的逆向最大匹配算法进行歧义发现。对于发现的歧义,提出了三种消歧方法。最后,利用JAVA语言实现了本文设计的中文分词系统。针对实际应用场景,搜集并构建了针对政务领域的语料库,进行了测试,并对测试结果进行了分析。通过和主流分词工具的比较,对系统的有效性和实用性进行了验证。