基于改进的双向LSTM-CRF中文分词模型

来源 :云南大学 | 被引量 : 0次 | 上传用户:tian1_sheng2_wo3_cai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言作为人类最重要的交际工具,是人类进行沟通交流的最主要表达方式。自然语言处理是指用计算机对语言信息进行处理的方法和技术,中文分词是中文自然语言处理的基础。分词质量的好坏直接影响之后的自然语言处理任务。目前主流的方法是基于序列标注的传统机器学习模型。近年来,随着人工智能大潮的又一次兴起,长短期记忆(LSTM)神经网络模型改进了普通循环神经网络模型长期依赖局限性的缺点,被广泛应用于自然语言处理的各种任务中并取得了不错的效果。在中文分词任务上,我们在经典双向LSTM模型上加以改进,并引入了贡献率?,对前传LSTM层和后传LSTM层的权重矩阵进行调节,除了改进了单向LSTM对后文依赖性不足的缺点,又把前后文对分词的贡献不同加以建模。双向LSTM-CRF神经网络模型使用双向长短期记忆神经网络层捕捉序列的前后文信息,并使用链式条件随机场对输出序列进行预测,被广泛应用于自然语言处理的各种任务中并取得了不错的效果。本文首先构建了基于双向LSTMN-CRF神经网络模型的中文分词模型,并引入基于注意力机制的LSTMN单元替代双向LSTM-CRF神经网络模型中的LSTM单元。新模型解决了原模型在编码过程中“记忆压缩”的问题。
其他文献
随着Web2.0的发展和普及,我国互联网行业发展迅速。2012年以来,国内主流媒体引入弹幕播放技术后,弹幕逐渐从ACG人群聚集地走向大众视野。青少年群体热衷于在视频中发送弹幕与
本文提出了一种基于以太网中央空调远程集散控制系统全新的设计方案,介绍了整个系统的组成、结构及部分功能,并对该系统的特色和创新点作了概括。同时对使用该系统优越性进行了
<正>一、商会组织的发展及其特点商会组织通常被定义为:独立的经营单位、事业单位或由自由商人、企业职员等自愿组成,保护和增进全体成员既定利益的非营利性组织。它是诸多类
会议
近年来,在科技飞速发展的背景下,在很大程度上推动着人工智能技术的快速发展,且人工智能在各个领域中的应用非常广泛。人工智能属于计算机系统的一个分支结构,涉及到的领域较
城市居民参与社区治理可以为社区的发展及社会进步提供重要的推动力量。文章以沈阳市第一城社区的实地问卷调查为基础进行研究,发现城市社区居民在参与社区治理中存在参与率
新生儿低钠血症12例临床分析ClinicalAnalysisof12CasesofNeonatalHyponatremia潘桂英,全裕凤(附属医院新生儿科)关键词新生儿;低钠血症;氯化钠溶液低钠血症是指由某些因素引起血清钠<130mmol/L,是新生...
目的通过检测肺结核患者和健康人群外周血中Treg细胞、Th17细胞以及CD8~+CD28~+T细胞和CD8~+CD28-T细胞的数量,探讨各细胞亚群的数量与肺结核发病的关系,为结核的诊断、治疗
决策在管理中扮演着非常重要的角色,是组织成败的关键,而信息则对制定科学的决策有着不可或缺的支持作用,可以这么说,得信息者得天下。伴随着随着移动互联网、云计算、大数据
英语影视作品在我国与包括美国在内的其他国家交流与合作中发挥着重要作用。相应地,对有关作品字幕翻译的研究则日益重要。本研究依据接受理论,对美剧《权力的游戏》第七季英
随着我国船舶检验的改革和发展的深入,以及市场经济正在不断深化,所以在企业安全生产的过程中,先进的技术和设备是保证也是维护生产设备的最高效率和最佳状态的技能,是保证企