基于BTM主题模型特征扩展的短文本相似度计算

被引量 : 0次 | 上传用户:tonytanli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网和各种移动终端的发展,计算机对各种文本类信息处理的重要性日益凸显。短信、微博、电子商务的普及更使得用简短的文字表示信息越来越重要。每天TB级数据的产生,标志着大数据时代的来到。从简单的文本中挖掘舆论倾向,从商品评论中挖掘消费心理,短文本的挖掘有助于帮助政府更贴近了解民意倾向,帮助企业更好的了解用户需求。然而,短文本不像长文本那样具有丰富的语义特征,语义和特征矩阵的稀疏特性导致难以对它进行挖掘。本文的重点在于改善短文本特征矩阵的稀疏性问题,并用改善后的短文本矩阵进行相似度计算。在长文本的领域,主题模型的发展和应用已经日趋成熟。但是对于有着数据稀疏性的短文本来说,主题模型还不能脱离长文本的影子。很多论文致力于如何把短文本通过相关信息扩充成长文本再进行建模计算。由于很多的短文本相关信息并不是那么容易找到,并且这种方法,其结果的好坏对于用来扩充的信息的准确度有着很大的依赖性,所以这种方法不具有通用性。本文结合2013年5月IW3C2会议上提出的在短文本建模方面有具有优势的BTM主题模型对短文本进行特征扩展后,再用扩展后的特征矩阵进行相似度计算,实验证明了本方法取得了很好的效果。本文首先介绍了VSM的原理,以及如何使用VSM对短文本建模进而进行短文本的相似度计算。其次,本文简要介绍三种文本相似度计算公式(距离公式),实验对比了夹角余弦和JS距离两种相似度计算方法的好坏,最终确定了使用JS距离作为本算法中的距离计算方法。然后简要介绍了LSI、pLSI、LDA、和BTM主题模型的原理。简要介绍LDA模型原理、参数估计方法、GibbsLDA模型的输入输出。重点介绍BTM模型建模及推断过程、BTM参数估计方法和BTM模型的输入输出的文档形式和参数。并且实验对比了两种模型在相似度计算中的效果,作为刚刚提出的文本模型,相比较于传统的针对长文本建模的主题模型,和使用外部背景资料进行扩充的短文本处理方法,BTM模型利用整个短文本语料库的丰富信息进行建模和推断,很好的改善了短文本语义稀疏的问题,在短文本建模以及概率推断上有着很大优势。最后,本文提出了使用BTM主题模型对短文本特征扩展来改善短文本特征稀疏的问题,后用改善后的短文本特征矩阵计算短文本相似度的方法,首先对短文本特征选择进行去噪处理,建立短文本的特征矩阵,由于该矩阵具有稀疏性,所以用BTM模型的推断结果对短文本的稀疏的特征矩阵进行特征扩展,将扩展后的矩阵作为相似度计算的输入。最后用JS距离衡量短文本相似度。本文详细介绍了LDA模型和BTM模型的输入输出格式、参数,并在论文的末尾附上了BTM模型预处理代码。本文使用百度知道语料集,通过开源平台Weka中的KNN算法的分类结果来衡量相似度算法的好坏。结果表明,本方法的效果较好。
其他文献
在调查了2005、2006年黄海北部大连海域虾夷扇贝的繁殖期、浮游幼虫的时空分布的基础上,对虾夷扇贝海区天然采苗进行了研究。结果表明,2005、2006年该区域的獐子岛海域、大长山
目的:过敏性紫癜(Henoch-Schonlein purpura,HSP)或称许兰亨诺氏血管炎(Henoch-Schonlein vasculitis),是比较常见的一种系统性血管炎症疾病,临床症状主要为紫癜样皮肤损害以及肾脏
农地整理不仅是实现耕地总量动态平衡、保障粮食和生态安全的重要手段,还是转变土地利用方式、城乡统筹发展和建设社会主义新农村的内在要求。由于目前农地整理资金供不应求,
自由意志问题,这个古老而弥新,复杂而繁琐的问题历来困扰着无数的哲学家。在漫长的人类智慧史长河中,其中不乏少数的哲学家提出了一些很精彩独到的洞见和解决思路。然而,终究
古典诗词是我国文学艺术宝库中最灿烂、最耀眼的明珠,是中华民族智慧的伟大结晶,是汉语言高度浓缩的精华,在语文课程中占据重要地位,具有独特的价值和意义。而古典诗词类文本的教
随着经济全球化的快速发展,在国民经济中占据重要地位的资本市场发挥了极大的作用,有效推动了全国经济的增长,使得我国的社会经济增长水平得到不断提高。为了适应当前金融资
进入新世纪以来,以物联网、云计算为代表的先进信息技术迅猛发展,信息技术已经成为推动社会变革、人类生活方式转变的重要力量,信息化技术在国民经济各个领域得到了广泛运用,
立足于我国中小学生“聋哑英语”问题进行调查与研究。浅谈“聋哑英语”产生的原因及对策。如何改变当今中小学生英语口语的“聋哑”状况?通过我多年教学实践和实际调查,本论
当今时代,知识和技术成为经济增长的主要推动力。高技术企业作为典型的知识技术密集型企业,可以说拥有了高技术优势,就拥有了在国际上的主动权。因此,各国纷纷把高技术企业作
随着互联网和网络技术的快速发展,很多网络通信交流平台被广泛使用,如手机短信、微博、电子邮件、论坛、聊天软件、新闻评论等,而他们通常会产生大批量的短文本信息资源。这