基于深度学习的文本向量化研究与应用

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:star2006111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本向量化是指将文本表示成低维、稠密、实数向量的一种方法。随着深度学习技术的广泛应用,基于神经网络的文本向量化成为自然语言处理领域的研究热点,尤其是对单词的向量化研究。单词作为自然语言的最基本语义单位,对理解语句、文本的重要性不言而喻,其向量化学习方法被大量提出,并已成功应用于各种自然语言理解任务中。传统的单词表示法,比如独热表示(one-hot representation)、矩阵表示等,往往存在数据稀疏、维度高等问题。而词向量,又称为词嵌入(word embedding)或词分布式表示(distributed word representation),相对于传统的单词表示法具有明显优势:1)维度低,通常在几十维到数百维之间;2)语义可计算性,即语义相似的单词也具有相似的向量表示,其相似性可通过向量间的距离计算得到。本文首先在研究、分析现有的各种词向量学习方法的基础上,提出了一种新颖的、编码isA语义关系的词向量模型,然后将向量表示技术进一步推广到短文本和长文本领域,分别设计、实现了将短文本和长文本语义编码到向量的方法,并深入探索了本文提出的各种文本向量化技术在自然语言处理任务中的应用价值。主要研究内容包括以下三个方面:1.IsA关系词向量的学习:IsA语义关系具有很强的泛化能力,对文本理解、关系推断等有着重要作用。本文设计了一种新颖的神经网络模型,可以快速、有效地将isA语义关系编码到词向量中。将生成的isA词向量作为模型的特征输入,本文进一步设计了两种机器学习预测模型,分别用以判断任意两个单词之间是否存在上下位语义关系和主题-修饰词语义关系。2.短文本的向量化表示:主要包括语义增强和语义哈希两部分。短文本广泛存在于各种应用中,像微博,查询搜索,新闻标题等。由于短文本缺乏语义信息,且句法结构随意,如何快速、有效地比较任意两个短文本的语义相似性成为自然语言处理领域的一个难点。受词向量学习方法的启发,如果能将短文本通过神经网络技术表示成向量形式,则该问题迎刃而解。但是,由于短文本缺乏足够的上下文信息,直接使用神经网络模型学习到的向量往往无法精确地捕获其语义。针对这些问题,本文提出了一种结合语义丰富机制和语义哈希模型的方法。首先,基于Probase语义网提供的知识,为短文本中的每一个词语增加概念词和共现词,然后使用深层神经网络将短文本信息映射到低维的二进制编码上,使得该编码向量能够表示短文本语义信息,因此该编码可看做短文本的向量表示。最终,通过比较任意两个短文本的编码表示之间的海明距离能够快速、有效地测量它们的语义相似性。3.长文本的向量化:基于已有词向量,本文进一步探讨了如何高效地将长文本进行向量化的技术,并分析了使用该向量对文本进行聚类和分类的效果。不同于传统的文本表示方法,本文的主要目的是将长文本的典型含义而非整体语义信息编码到向量中。其基本思想是:基于词向量对文本单词进行聚类,然后从结果中挑选出最具语义代表性的单词聚类,使用该聚类的词向量生成最终的文本向量。最后,本文进行了大量的实验分析和验证,证明了上述三种向量化学习技术的可靠性和有效性,且训练出的向量表示能广泛应用于各种自然语言处理任务,包括文本分类、聚类,信息检索,语义关系识别等。
其他文献
近期,江苏省无线电监测站在日常监测工作中,发现国家还未规划的1850-1860MHz频段中有不明信号.5月27至28日,省站派出人员从南京珠江路出发,经鼓楼-水西门-雨花台等地区对该频
为落实监测站监听、监测的职责,特别是为行政执法、查处干扰和电磁环境测试提供第一手资料,利用频谱分析仪打印原始波形、数据是必不可少的.按照日本安立公司提供的MS2665C频
人类进入文明时代至,今已有数千年的历史,几千年来,人类所使用的各种器具,包括生活起居、生产劳作、学习求知、娱乐玩耍等等活动当中所使用的五花八门的器具除首先具有实用性之外
相关干涉仪,包括单信道相关干涉仪,是目前成熟的一种测向体制,已经得到广泛应用.我们在研发相关干涉仪测向机过程中,不仅对它展现的技术特点产生了浓厚兴趣,而且它的独特的设
每年.万宝龙都会推出一款赞助人系列书写工具。此系列书写工具往往以精致、独特的设计和深远的意义备受世界各国收藏家的青睐。2005年,万宝龙为纪念文艺复兴时期的罗马教皇朱利
随着改革开放的深入和社会经济快速发展,广东无线电通信事业蒸蒸日上,无线电新技术、新业务和新产品层出不穷,各类台站数量高速增长,总量居全国第一.地市级无线电管理机构在