基于循环神经网络序列标注的中文分词研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:yourwp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分词是中文自然语言处理中的关键技术。在自然语言处理中,序列标注在中文分词中有着极其重要的应用。当前主流的中文分词方法是基于监督学习,从中文文本中提取特征信息。这些方法未能充分地利用上下文信息对中文进行分割,缺乏长距离信息约束能力。针对上述问题进行研究,提出在序列标注的前提下利用双向循环神经网络模型进行中文分词,避免了窗口对上下文大小的限制,可以获得一个词的前面和后面的上下文信息,通过增加上下文能够有效地解决梯度爆炸和爆的问题,然后再在输入层加入训练好的上下文词向量,取得相对较好的分词效果。实验结果表明,该
其他文献
一明代两百多年间,先后有六位宗室亲王分藩山东:洪武十五年,明太祖庶七子齐王朱就藩青州府;洪武十八年,明太祖庶十子鲁王朱檀就藩兖州府;永乐二年,明成祖嫡二子汉王朱高煦就藩乐安
一天,一位穿着工作服的叔叔来我家,说要秒我家水表该数,我非常好奇,心想:水还有读数?还可以抄?于是我央求叔叔教我"抄水表",想弄个明白。到了安装水表的位置,叔叔揭开盖子冲
为了克服在传统K—means聚类算法过程中因初始类簇中心的随机性指定所带来的聚类结果波动较大的缺陷,提出了一种基于密度与最小距离作为参数来确定初始类簇中心的算法。该算法
这是无比奇妙的一次神仙聚会。时间:海干了的时节。地点:蓬莱山。由王母娘娘主持,参加人员为上八仙、中八仙、下八仙和五岳的散仙。他们各显神通,在蓬莱山顶上造了七十里地一座大
针对能量、带宽、存储等资源限制的无线传感器网络下的目标跟踪问题,提出了基于扩展口。滤波的后验一克拉美罗下界(PCRLB)传感器节点的选择算法。该算法可随时间动态选择一个最
每个周末,嘟嘟熊都会把作业带到百货商店去写。今天,他又背着书包去百货商店。嘟嘟熊刚进商店,就发现只有爸爸在店里,他就疑惑地问:"爸爸,我妈妈去哪了?""哦,你妈妈去商场买
大地电场长短极距比值方法是利用大地电场变化与变化磁场的关系,遵从介质中的麦克斯韦方程,当场源足够远时,在各向同性、均匀的连续介质中,同一测向的长、短极距观测到的地电场值