基于深度学习的中文词法分析模型算法研究

来源 :浙江理工大学 | 被引量 : 2次 | 上传用户：pikaqiuqqq

【摘要】

：

在自然语言处理任务中,中文词法分析是一个关键的基础研究领域,其研究成果直接关系到中文句法分析和语义分析的精确度,深刻影响机器翻译、智能问答等高级应用处理的效率。中

【作者】

：

王书培

【出处】

：

浙江理工大学

【发表日期】

：

2019年01期

【关键词】

：

中文分词中文词性标注双向门控循环神经网络线性链条件随机场

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在自然语言处理任务中,中文词法分析是一个关键的基础研究领域,其研究成果直接关系到中文句法分析和语义分析的精确度,深刻影响机器翻译、智能问答等高级应用处理的效率。中文词法分析由中文分词和中文词性标注两个任务组成,这两个任务是中文词法分析的关键所在。然而现有的中文词法分析研究以统计方法为主,存在模型复杂、训练时间过长等缺点。随着深度学习的兴起,基于深度神经网络解决现有方法的不足成为了自然语言处理领域热点问题。首先,针对现有中文分词方法存在的训练时间长、不能有效利用长距离信息、模型结构复杂等缺点,本文提出了基于深度学习的双向门控循环神经网络和线性条件随机场组合模型。该组合模型利用门控循环神经网络强大的建模能力,通过前向和后向两个方面处理,快速得到评分矩阵,然后利用线性条件随机场模型考虑整个句子的局部特征加权,得到最终的分词结果。该组合模型突破了传统方法窗口的极限、结构简单、易于操作、可以自动学习特征、减少特定知识任务的学习、有效地利用上下文信息、真正实现端到端处理。通过在微软亚洲研究院分词语料库和北京大学分词语料库进行实验证明,本文提出的分词组合模型不仅提升了分词结果,而且在保证分词速度的基础上大大缩短了训练时间。其次,针对中文词性标注任务现有研究方法严重依赖人工特征的不足,本文在分词组合模型基础上提出了预训练算法。基于预训练算法的组合模型不仅能够自动获取特征,而且模型误差更小,随着神经网络深度的增加,鲁棒性更好,平均方差更小。通过在北京大学人民日报语料库实验分析,基于预训练算法的组合模型有效地提高了词性标注的精确度和速率。最后,针对中文词法分析任务中存在的歧义词识别问题进行研究,通过对双向门控循环神经网络进行外部权重加权,在处理常见的歧义词上取得了显著效果。在此基础上,本文进一步提出了一体化模型和针对一体化模型的优化算法。经过实验对比,一体化模型取得了比单独分词任务和词性标注任务模型更好的结果。

其他文献

建筑物自动消防设施存在的问题与管理对策

经济高速发展，人们开始关注建筑的安稳性特征，此时自动消防设备就应运而生了。它们的存在是为了确保建筑不会受到火情的影响而出现的。文章重点的以现在某市的该项设备为例，开展

期刊

建筑物自动消防设施管理对策

65583部队突出抓好车辆维修骨干组训能力培训

为提高车辆维修骨干教学组训能力，近期，沈阳军区65583部队组织一期车辆维修骨干教学组训培训。培训采取辅导授课、实装拆检、参观见学、考核评比的组织程序，重点抓好“四个一”

期刊

车辆维修培训能力部队突出组织程序沈阳军区典型故障

全军规模最大的车辆装备野外集结场地在济南军区建成使用

近期,由军地有关专家组成的验收委员会,对济南军区车辆装备野外集结场地进行了验收。验收采取听汇报介绍、查档案文件、组织现场勘察、

期刊

济南军区车辆装备场地档案文件现场勘察委员会

蛋白酶体抑制剂MG-132增强4-羟苯基维胺脂诱导的肺癌细胞凋亡

[目的]观察4-羟苯基维胺脂(4-HPR)联合应用蛋白酶体抑制剂MG-132对肺癌A549细胞凋亡的影响.[方法]用倒置显微镜和TUNEL染色观察4-HPR或(和)MG-132联合应用后A549细胞形态学变

期刊

蛋白酶体抑制剂MG-132增强苯基维胺脂诱导癌细胞凋亡lungcancercellsA549细胞4-HPR免疫印迹法联合应用表达形

73176部队组织驾驶员骨干“换手”技能集训

为确保年底前如期形成大规模作战装备保障能力，73176部队针对“车辆多、型号新、修理工少”的实际问题．于2015年9月10日至19日组织了22名驾驶员骨干“换手”技能训练。通过集训

期刊

部队车辆驾驶员组织装备保障能力技能训练管理能力装备维修业务工作

光大“乌龙指”股民维权终胜诉

光大证券内幕交易民事赔偿案的判决具有标志性意义，可能预示着相关部门在投资者权益保护方面走出新的步伐。2015年9月30日下午，光大证券内幕交易民事赔偿案在上海相关法院再次

期刊

乌龙指光大证券一审判决内幕交易行为中小投资者民事赔偿

不同给药途径及剂量的LNNA对小鼠血清一氧化氮及一氧化氮合酶水平的影响

[目的]探讨不同给药途径及剂量的一氧化氮合酶抑制剂N-硝基-L-精氨酸（LNNA）对小鼠血清一氧化氮合酶活性和一氧化氮浓度的影响.[方法]选择健康昆明种小鼠180只，采用腹腔注射、皮

期刊

硝基精氨酸一氧化氮一氧化氮合酶小鼠nitroarginine nitric oxide nitric oxide synthase mice

羟乙基纤维素应用概况

<正> 羟乙基纤维素(以下简称HEC)在国外是纤维素醚类中工业化生产较早的品种之一。由于它具有增稠、悬浮、分散、乳化、粘合、成膜、保持水分和提供保护胶体作用等优良性能,

期刊

羟乙基纤维素氯乙烯保护胶体醋酸乙烯乳化涂料增稠剂应用概况

63880部队从持有“驾照”的新兵中选拔技术学兵

针对2011年持有“驾照”入伍的新兵多、素质高等现象，63880部队军交运输部门及早筹划，在选拔技术学兵时重点考虑，提前组织持有“驾照”的新兵进行全员额、全方位、全要素考核，精

期刊

部队战斗力技术学驾照运输部门社会资源有效利用

汽车喇叭问题的三种自我解决方法

当按下转向盘上或其他位置的喇叭按钮时．来自蓄电池的电流会通过回路流到喇叭继电器的电磁线圈上。电磁线圈吸引继电器的动触点开关闭合，电流就会流到喇叭处。电流使喇叭内部的

期刊

汽车喇叭喇叭继电器电磁线圈膜振动电流蓄电池转向盘电磁铁

基于深度学习的中文词法分析模型算法研究

其他学术论文