基于条件随机场的中文分词技术的研究与实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:yogonet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的发展,机器人逐渐进入人们的日常生活。在人机交互的过程中,自然语言处理被广泛应用。中文分词,作为自然语言处理的基础技术,也是当今人工智能领域研究的热点之一。目前公开的中文分词算法针对特定领域的分词效果不佳,语义理解偏差较大。本文针对特定使用场景——政务领域,提出一种针对条件随机场模型(Conditional Random Field,CRF)的改进算法,来提高中文分词的正确率和召回率。首先,本文对三种主流分词方法进行介绍。在比较各自优缺点的基础上,选取条件随机场作为本文的分词模型。针对当前中文分词研究中存在的技术难点,设计了中文分词的总体流程。其次,针对现有分词预处理方式中词性缺失的问题,提出了一种词性词位标记方式,引入参数对重点词性进行标注。针对条件随机场,提出了一种改进的特征模板,对常用特征进行提取的同时,加入了复合一元特征信息,提高未登录词(Out Of Vocabulary,OOV)的识别能力。然后,将随机梯度下降法(Stochastic Gradient Descent,SGD)应用于条件随机场的训练过程中,提出了一种基于特征频率自适应的方法,提高了模型训练的收敛速度。针对模型预测算法对于词性词位标记的适用问题,本文提出了一种改进的维特比算法(Viterbi)。在后续处理部分,使用基于Tire树的逆向最大匹配算法进行歧义发现。对于发现的歧义,提出了三种消歧方法。最后,利用JAVA语言实现了本文设计的中文分词系统。针对实际应用场景,搜集并构建了针对政务领域的语料库,进行了测试,并对测试结果进行了分析。通过和主流分词工具的比较,对系统的有效性和实用性进行了验证。
其他文献
介绍了一种优良的面膜膏产品的研制改进过程。
目的:本课题通过随机对照研究,观察训练前后治疗组与对照组肌肉酸痛程度、小腿周径变化和小腿三头肌等长收缩最大肌力的变化,探讨芍药甘草汤对延迟性肌肉酸痛的影响。研究方法
随着经济的迅速发展和城市电网的不断升级,城区高压电缆数量持续增大,高压电缆的安全运行直接影响了城区的供电可靠性。提出了一种改进的二次脉冲法定位电缆主绝缘故障,并通
改革开放三十多年来,中国的中小企业在国民经济发展中的重要作用和地位已经越来越显著。中小企业数量已经超过全国企业总户数的99%,截止到2012年底,中小企业提供了八成的城镇就
农村地区社会经济的发展,最大的阻碍是资金不足,资金流通不活跃。农村地区金融发展的滞后已经制约了经济的发展。在经历三十多年的"工业化主导、城市化先行"的发展路径之后,
介绍了一种防水透气功能性聚氨酯合成革的制造方法。通过在不织布上涂敷聚醚型聚氨酯浆料,经湿法凝聚成膜,水洗烘干后对表面进行磨削处理,然后通过离型纸转移法在表面转移一
近年来,虽然美国次级贷款危机和欧洲主权债务危机逐渐好转。但通过这些危机,我们看到作为中国最主要贸易伙伴的美国和西欧发达国家,这些世界主要经济体的经济危机会对中国的对外
目的观察浅针治疗周围性面瘫后遗症的临床疗效,探寻治疗周围性面瘫后遗症安全有效而又无痛的方法,为临床治疗周围性面瘫后遗症提供一项新的选择和思路。方法2013年1月~2014年2
<正>敦煌莫高窟艺术中数量最大、内容最丰富、题材最广泛的是尊像画,即人们供奉的各种佛、菩萨、天王及其说法相等。这种以壁画、雕塑为主要表现形式的尊像画,不仅深刻地影响
介绍了大豆一次浸出生产线的一系列工艺和设备的技术改造,重点介绍了几项技术革新:卧式滚筒软化机的设计与改进,浸出器喷头的结构设计.从清理到出油、出粕,应用国内外技术含