基于神经网络的词法分析研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:g348386408
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词法分析是自然语言处理领域中一项重要的基础任务。词法分析任务由中文分词和词性标注这两个基本任务组成。分词是一种将中文字串转换为中文词串的任务。对于中文文本分析来说,几乎所有的任务都依赖于分词。词性标注是给组成句子的每一个词指定一个词性类别的任务。对于句法分析,语义分析等高层次任务来说,词性可以帮助消解歧义,缓解词特征的稀疏性。词法分析任务虽然比较基础,但是具有着非常广泛的需求和应用前景,目前仍是自然语言处理领域中的热点问题。中文分词技术在早期由于计算资源有限以及缺乏标注语料,一般采用基于词典的规则方法。随着计算能力的增长以及标注语料的出现,中文分词的处理技术慢慢从规则方法转移到基于机器学习的方法,其中字标注方法是目前解决分词问题最常使用的手段。在深度学习兴起之后,也有一些研究者尝试利用神经网络解决分词问题,取得了一些进展。词性标注任务也存在着类似的研究路径。在本文中,首先针对传统基于字标注的分词模型基于窗口抽取局部特征,无法捕获长距离依赖的问题,我们提出使用双向长短期记忆网络代替原有特征抽取模块,该网络既可以保存长距离信息也简化了特征抽取工作。其次,我们设计了基于双向长短期记忆网络的贪心模型和结构化模型。最后我们针对通用的词嵌入与具体任务不契合的问题,我们分别设计了分词和词性标注任务相关的词嵌入模型。实验结果表明,基于双向长短期记忆神经网络的分词模型取得了和传统模型相当的效果,而且简单快速的贪心模型与结构化模型性能相当;在加入WCC(Word-context Character Embedding)模型预训练的字嵌入后,在标准数据集上取得了当前最佳或相当的性能,在领域迁移试验中也取得了不错的效果。对于词性标注模型,在加入PCS(POS Sensitive Embedding)模型预训练的词嵌入后,提升了标注系统的能力,并且PCS模型可以快速利用异构数据提高模型性能。
其他文献
甲状腺结节是外科医师在临床工作中经常遇到的,据估计约4%成年人可发生甲状腺结节,有的因临床症状来就诊,有的无自主表现,在体格检查中偶然发现。恶性甲状腺结节虽不常见川,但术中
当前,为了全面适应社会人才的发展需求,培养出更多高素质、高品质的人才,各高校也在不断推广合作办学模式,并将其视为教育人才的重要途径。在市场多元化发展背景下,高校继续
顶管施工作为一种常采用的非开挖技术,不可避免地会引起地层扰动和损失,导致地表沉降或隆起。因此,顶管施工下穿越高速公路时,必然会对高速公路路面及行车的安全和舒适性带来
患者,女,6岁,因“发现心脏杂音6年”于2005年12月6日入院。查体:Bp130/75mmHg。心界无扩大,心率88次/min,律整,P2亢进,胸骨左缘第3、4肋间可闻及4/6级收缩期杂音,伴收缩期震颤。
2004年全国传染病网络直报系统运行以来,截至2008年底,全国100%的疾病预防控制机构、96.9%的县级及以上医疗机构,82.2%的乡镇卫生院实现网络直报,中国传染病疫情报告工作进入
1病历摘要患者男,50岁,因左下颌牙龈反复起瘘管半年余来我院就诊.检查: 5银汞补料完好,叩(+),颊侧瘘管.诊断: 5慢性根尖周炎.因患者不愿拍片,遂去除银汞补料,暴露根管口,在颊
山东省日照市东港区在区委、区政府的统一布置下于今年3月份,对全区10个镇(街道)2008年度农村集体经济进行全面审计。审计的方式是10个镇(街道)组成10个审计组,各镇(街道)经管站长任
从国内外高等教育发展历程来看,依法治教是高等教育发展的必由之路。目前,我国高等教育发展越来越普及,高等教育的发展类型也不断趋于多样化,高等教育的培养模式也逐渐侧重于
会议
传播翻译在具体研究的时候,其通常情况下是在多个译本对比分析的基础上或者是在语言学的方向对译作加以研究,但是,对于译者的研究是比较少的,在二十世纪七十年代的时候,翻译