【摘 要】
:
在自然语言处理领域中,词和句子是最基本的表示单位。词是一种抽象的表示方法,往往包含多种含义,不同词间的关系也各不相同。句子可以看作词序列,具有特定的句法结构,内涵也
论文部分内容阅读
在自然语言处理领域中,词和句子是最基本的表示单位。词是一种抽象的表示方法,往往包含多种含义,不同词间的关系也各不相同。句子可以看作词序列,具有特定的句法结构,内涵也更为丰富。分布式表示研究的目表是,为每个词、句子赋予恰当的向量表示,服务于后续的信息检索、语义挖掘等任务。语言模型的选择是分布式表示研究的基础。当前基于神经网络的分布式研究方法多采用n-gram语言模型,基于文本条件独立假设,可将n-gram模型简化为bigram模型,降低参数空间,解决数据稀疏问题。本文提出了基于bigram语言模型的分布式表示改进方法,将词对间的位置信息、句法依存信息等融入其分布式表示之中。同时完成了中文关系数据集的构建。主要研究内容和阶段成果如下:第一、在词分布式表示研究方面,提出了基于位置信息的词分布式表示优化方法。本文认为,现有的动态窗口方法中,位置权重都通过人为设定,不能真实反映词间关系。因此提出了两种动态窗口权重改进方案。首先是自适应的权重因子方法,针对不同语料,学习出不同权重因子。以及基于KL散度的权重向量方法,为每个目标词计算自己的权重向量。在词相似性及语义、语法评估指标中,都有显著提高。第二、构建了中文关系抽取数据集。本文提出了基于弱监督和半自动的中文关系抽取数据集构建方法,借助维基百科、sogouCA新闻语料及百度API,完成弱监督句子抽取,借助循环神经网络实现半自动标注,最终通过大量人工标注完成数据集的构建。数据集被选为中文倾向性分析评测(COAE)任务语料,对中文关系抽取发展起到了推到作用。第三、句子分布式表示研究方面,本文提出了基于依存路径的关系抽取改进算法,借助依存句法分析结果,改变神经网络词序列的输入结构。本文进行了多组实验对比,发现将传统自然语言处理特征融入神经网络结构的做法非常有效。
其他文献
随着计算机科学和移动通信的发展,互联网已经成为人们不可或缺的工具。每一次计算机和互联网的革命都会大大提升人们产生数据的能力,而每一次革命都会对数据的收集、存储和应
光通信网络作为未来通信的发展趋势,正得到与日俱增的关注。其中,早前广泛使用的“光-电-光”模式因电信息处理在效率与功耗等方面的瓶颈,正向逐步全光网络过渡。半导体激光
油膜轴承由于其摩擦系数小、损耗低、刚性高等优点,被广泛应用于钢铁、矿山、冶金、电力等系统的高、精、尖关键设备上。衬套作为油膜轴承的核心部件,其结构和运行过程中的受
pH中和过程广泛存在于化工、发电、污水处理等重要领域中,因为其具有强非线性、时变性、大时滞等复杂过程的典型特点,在控制界和工程界都一直被认为是最具挑战的难题之一。早
氮氧化物是造成诸如光化学烟雾、酸雨及雾霾等污染事件的重要污染物之一,严重影响了我国的生态环境及经济的可持续发展。选择性催化还原(SCR)技术是当前脱除NOx最为有效的技术
目的:促进创伤性脑损伤(traumatic brain injury,TBI)后轴突的再生和正确致靶是神经外科研究领域的热点和难点。本课题以小鼠TBI模型为研究对象,分析TBI后创伤区微小核糖核酸
实验室前期研究中,利用大豆慢生型根瘤菌Brdyrhizobium japonicum USDA110基因芯片技术,大豆异黄酮genistein作为刺激元,获得了全基因组表达谱,首次发现了一处染色体位点的表
互联网正在从“用户以获取信息为主”的Web1.0时代过渡到“用户既是网络信息获取者又是网络信息制造者”的Web2.0时代。为了能够在海量数据中发掘信息或者服务,用户画像具有
为了减少江淮丘陵地区麦玉两熟系统氮肥施用量,本研究利用秸秆和有机肥猪粪替代化肥的方法探索该地区减氮增效绿色生产模式。通过设置6个试验处理,分别为化肥全量+秸秆不还田
蛋白质结构预测是生物信息学中一个非常重要的研究课题。在蛋白质结构预测过程中,会获得许多候选蛋白质结构。但是到目前为止,如何从得到的数目巨大的候选结构中选出最接近天