基于循环神经网络序列标注的中文分词研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户：yourwp

【摘要】

：

分词是中文自然语言处理中的关键技术。在自然语言处理中，序列标注在中文分词中有着极其重要的应用。当前主流的中文分词方法是基于监督学习，从中文文本中提取特征信息。这些方

【作者】

：

刁琦古丽米拉·克孜尔别克钟丽峰张健张志强

【机构】

：

新疆农业大学计算机与信息工程学院,新疆维吾尔自治区图书馆,新疆虹联软件有限公司

【出处】

：

计算机技术与发展

【发表日期】

：

2017年10期

【关键词】

：

自然语言处理循环神经网络序列标注中文分词监督学习 natural language processing recurrent neural netwo

【基金项目】

：

新疆维吾尔自治区科技计划项目（2015X0106）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

分词是中文自然语言处理中的关键技术。在自然语言处理中，序列标注在中文分词中有着极其重要的应用。当前主流的中文分词方法是基于监督学习，从中文文本中提取特征信息。这些方法未能充分地利用上下文信息对中文进行分割，缺乏长距离信息约束能力。针对上述问题进行研究，提出在序列标注的前提下利用双向循环神经网络模型进行中文分词，避免了窗口对上下文大小的限制，可以获得一个词的前面和后面的上下文信息，通过增加上下文能够有效地解决梯度爆炸和爆的问题，然后再在输入层加入训练好的上下文词向量，取得相对较好的分词效果。实验结果表明，该

其他文献

《聊斋志异》中的明代山东亲王

一明代两百多年间，先后有六位宗室亲王分藩山东：洪武十五年，明太祖庶七子齐王朱就藩青州府；洪武十八年，明太祖庶十子鲁王朱檀就藩兖州府；永乐二年，明成祖嫡二子汉王朱高煦就藩乐安

期刊

《聊斋志异》林四娘蒲松龄王府王朱青州府明世宗安致远《明经世文编》郑成功

以抒情为基点的多样化追求——论《聊斋志异》的文体风格

期刊

《聊斋志异》蒲松龄文体风格《世说新语》语言形式《尚书》语言风格文言小说冯镇峦幽深孤峭

抄水表

一天,一位穿着工作服的叔叔来我家,说要秒我家水表该数,我非常好奇,心想:水还有读数?还可以抄?于是我央求叔叔教我"抄水表",想弄个明白。到了安装水表的位置,叔叔揭开盖子冲

期刊

水表小齿轮手表表盘工作服打交道

基于密度与最小距离的K-means算法初始中心方法

为了克服在传统K—means聚类算法过程中因初始类簇中心的随机性指定所带来的聚类结果波动较大的缺陷，提出了一种基于密度与最小距离作为参数来确定初始类簇中心的算法。该算法

期刊

K-MEANS算法类簇中心密度最小距离迭代次数K -means algorithm cluster center density minim

论聊斋俚曲《蓬莱宴》

这是无比奇妙的一次神仙聚会。时间：海干了的时节。地点：蓬莱山。由王母娘娘主持，参加人员为上八仙、中八仙、下八仙和五岳的散仙。他们各显神通，在蓬莱山顶上造了七十里地一座大

期刊

聊斋俚曲蒲松龄《聊斋志异》吕洞宾蓬莱读书人知识分子神仙道化抄书历史时期

基于PCRLB的目标跟踪节点选择算法

针对能量、带宽、存储等资源限制的无线传感器网络下的目标跟踪问题，提出了基于扩展口。滤波的后验一克拉美罗下界（PCRLB）传感器节点的选择算法。该算法可随时间动态选择一个最

期刊

目标跟踪节点选择均方根误差后验-克拉美罗下界扩展H∞滤波无线传感器网络target trackingsensor selectionRMSEP

嘟嘟熊家的百货商店(十六)——医药箱事件

每个周末,嘟嘟熊都会把作业带到百货商店去写。今天,他又背着书包去百货商店。嘟嘟熊刚进商店,就发现只有爸爸在店里,他就疑惑地问:"爸爸,我妈妈去哪了?""哦,你妈妈去商场买

期刊

百货商店写作业熊爸爸

地震前近震中区地电场比值异常研究

大地电场长短极距比值方法是利用大地电场变化与变化磁场的关系，遵从介质中的麦克斯韦方程，当场源足够远时，在各向同性、均匀的连续介质中，同一测向的长、短极距观测到的地电场值

期刊

地电场比值震中区地震前异常麦克斯韦方程连续介质变化磁场

肝癌Ⅱ期切除的治疗体会

期刊

Ⅱ期肝癌切除术

异丙酚伍用芬太尼或咪唑安定用于麻醉诱导的比较

期刊

异丙酚芬太尼咪唑安定配伍复合麻醉

基于循环神经网络序列标注的中文分词研究

其他学术论文