主题模型的发展及应用研究

来源 :电脑迷·中旬刊 | 被引量 : 0次 | 上传用户:muzhe8835
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着经济的快速发展,我国各项领域都得到了很好的发展,主题模型是自然语言的一种模型,本文就主题模型的类型及发展阶段进行分析总结。
  关键词:主题模型发展;LDA主题模型;主题数
  引言
  本文首先介绍了主题模型的相关理论;其次,从技术、方法和应用三个方面分析了面向LDA主题模型的文本分类的研究现状;然后,分析了目前研究中存在的一些问题和研究策略;最后,分析并讨论了文本分类未来的一些发展趋势.
  1 主题模型的发展
  随着科技的飞速发展,数据量也在不断的增加。数据的形式不仅仅是数字形式,也包含文字形式的数据。文本数据隐藏着大量有价值的信息,需要我们去挖掘探索。想要快速了解大量的文本数据讲的是什么,主题模型随之产生。
  1.1 潜在语义索引
  潜在语义索引(LSI)模型指的是对tf-idf矩阵进行奇异值分解,将文档向量与词向量映射到低维空间.LSI模型原理简单,通过一次奇异值分解就能获得主题,同时使词义问题得到解决。同时,这个文本模型有缺点:奇异值分解十分耗时,尤其是对高维度矩阵。其次主题数的选择对实验的结果影响很大,并且缺乏统计基础,很难有一个直观的解释。
  1.2 TF-IDF文本模型
  TF-IDF文本模型就是以信息论中TF-IDF公式为基础,模型的核心就是这个公式。公式包括词频和逆文档频率。词频是该词在文本中出现的次数除以文本中所有词的个数,而逆文档频率是总文本数与含该词的文本数的商的对数。最后两个值的乘积就是tf-idf值。所有词的tf-idf值组成一个矩阵。这个算法简单快速,结果也比较符合实际。但是算法仅以词频来判断词的重要性,是很片面的。
  1.3 向量空间模型
  VSM模型将文档用向量(t1;t2;t3...;tn;wn)表示,tk是特征项,一个文档可以看成是它含有的所有的特征项的集合,wk是特征项的权重,表示它们在文档中的重要程度.把特征项看作是n维坐标系,权重就是相应的坐标值,那么一个文本就表示为n维空间的一个向量.因此就将非结构化的文本信息转化到向量空间来表示.
  1.4 一元文本模型
  一元文本模型是最简单的概率文本模型中的一种,文档中的每一个词都是从一个单独的多项分布中独立采样得到的。
  1.5 概率潜在语义索引
  由于混合一元模型每篇文档只能有一个主题,所以提出了概率潜在语义索引(pLSI)。它的结构中加入一层隐含主题层,为了跟各变量之间的语义关系产生一定关联同时降维。pLSI模型是以LSI模型为基础的概率生成模型。它的隐含主题是由词汇特征聚合而来的,从而降低了文档集的维度。由于LSI文本模型是以VSM模型为基础,所以它并不能很好的处理同义词或者一词多义的情况。然后pLSI模型恰恰可以解决这个问题,因为它的隐含主题是由单词按照一定概率生成的。
  1.6 LDA主题模型
  LAD模型是全概率生成模型,内部结构清晰,即文档-主题-特征词三层结构,可以利用高效的概率推断算法进行计算,并且参数空间的规模与训练文本数量无关,因此可以处理大规模语料.它的基本思想是:语料库中的每个文本可以看成是若干潜在主题构成的一个概率分布,每个主题是由若干个特定词汇组成的,并且以一定的概率出现.它解决了LSA的性能受损和计算复杂性的问题以及pLSA模型参数随着文档数量增加出现的过拟合问题,因此得到了广泛应用.
  2 主题模型的应用
  2.1 LDA主题模型主题数的确定
  LDA主题模型是一种可以挖掘大型文档数据集合中潜在主题信息和实现文本信息的分类的概率模型,自从提出以来得到了广泛的应用,并取得良好效果.应用至今,已有不少专家学者对其进一步的改进,其分类效果得到进一步提升.因此,把LDA主题模型和其他方法相结合得到了广泛研究,并取得不错效果.基于Labeled-LDA(附加类别标签的LDA)模型的文本分类,将类别信息融入传统LDA模型,进而支持文档在全部类别的隐含主题上的协同分配,解决了传统LDA模型用于分类时强制分配隐含主题的缺陷;基于mRMR和LDA主题模型的文本分类,预先使用mRMR特征选择算法将输入空间映射到低维空间,去除较大不相关信息和重叠信息,使得LDA能够在更简洁的文本上建模,从而得到更精确的主题分布;基于词向量与LDA相融合的短文本分类方法,能有效克服短文本的主题聚焦性差及特征稀疏性问题,提高短文本分类性能.基于LDA的微博生成模型,利用微博之间的转发、对话、支持(赞)和评论等关系来计算微博之间的相关性,综合考虑微博之间的相关性和同一用户微博信息间的关系,来辅助对微博的主题进行挖掘。
  2.2 删除低频词
  删除低频词,首先这里我们可能需要进行数据表重塑,统计分词的词频,删除词频为0的词。之后将词语放入语料库,并将其转换为文档词条矩阵。对这个文档词条矩阵使用tf-idf算法。为了保留尽量多的词,设置tf-idf值的中位数作为阈值,tf-idf值大于这个阈值的词就保留下来。
  2.3 基于吉布斯采样建立主题模型
  吉布斯采样是指想要知道样本中一个属性在其他所有属性下的条件概率,然后通过这个条件概率来产生各个属性的样本值。吉布斯采样是MCMC算法中的一個采样算法。采样就是通过将一个不太好解决的问题转化为一个能够通过采样来解决的问题,但是采样方法不确定。吉布斯采样就是为了得到一个样本,没有计算概率但能够通过其他方法统计概率。
  3 结语
  本文研究了主题模型,探讨了主题模型的相关理论;然后,从技术、方法和应用三个方面分析了面向LDA主题模型的文本分类的研究现状;总结了目前研究中存在的一些问题和研究策略;最后,展望了文本分类未来的一些发展趋势.文本分类的最终目的还是为自然语言处理服务,因此,可以将文本分类的研究成果应用到信息检索、信息抽取、舆情分析和个性化推荐、网络安全等研究中,以期取得更好性能.
  参考文献:
  [1]常东亚,严建峰,杨璐.基于中心词的的上下文主题模型[J].计算机应用研究,2017,35(4).
  [2]郑玉桂.面向电商评论细粒度观点挖掘的拓展主题模型研究(D).浙江:浙江工商大学,2017.
  [3]姚立,张曦煌.基于主题模型的改进随机森林算法在文本分类中的应用[J].计算机应用与软件,2017,34(8).
  [4]文聪聪,彭玲,杨丽娜,池天河.主题模型与SVM组合的小尺度街区用地分类方法[J].地球信息科学学报,2018,20(2).
其他文献
期刊
中国重型机械工业协会桥式起重机专业委员会(以下简称:桥机专委会)九届四次理事及扩大会议于2018年12月2日至4日在浙江省瑞安市隆重召开.会议由桥机专委会主办,浙江通力重型
期刊
摘 要:在科学技术飞速发展和充满竞争的市场环境下,信息已成为企业的主要资源之一,是组织运行的基础,也是企业利用现代化管理的理念和方法进行高效管理的基础。现代企业在面对不断变化的外部环境,面对不断出现的关乎企业生存的挑战时,几乎所有的企业都选择了管理信息系统作为提高自己的竞争能力、保持竞争优势的基础性支撑。  关键词:管理信息系统;企业;管理变革  前言:随着21世纪的到来,信息技术越来越深刻的影响
摘要:“大逃杀”类游戏成为2017年度电子竞技行业的一匹黑马,该款游戏中我国青少年玩家占比过半的。本文通过对该类游戏的历史追溯,以及其“爆红”的客观原因和玩家心理因素进行分析得出相关结论,为高校思政教育工作者的后续研究提供可靠基础与现实依据。  关键词:“大逃杀”类游戏;原因分析;青少年  在2017年电子竞技行业中,除了《英雄联盟》游戏,当前青少年群体中风靡的《绝地求生:大逃杀》(PLAYERU
中国重型机械工业协会起重葫芦分会(以下简称分会)三届二次会员大会,于2018年11月28日至29日在安徽省芜湖市召开,中国重型机械工业协会常务副理事长李镜、中国重型机械工业协
期刊
摘要:在餐饮业高速发展的今天,餐厅除了保证和提供自身的服务质量,服务方式的创新业显得尤为重要。移动订餐系统应用于智能手机上,可以让用户足不出户便可以浏览菜单并下单,图片信息和消费者留言,更让你可以轻松的选择喜欢的就餐环境以及可口的饭菜并且价格公开,在最大程度上方便了顾客的情况上,不仅节约人工,提高餐厅效率,更体现了餐厅为客户着想、服务创新的理念,为企业注入不断前进的动力。  关键词:Android
在继全国起重机械标准化技术委员会成立20周年纪念活动成功召开后,全国起重机械标准化技术委员会(以下简称“起重机标委会”)四届五次会议于2018年12月12日下午至13日在北京
期刊
自20世纪40年代,迅雨(傅雷)以《论张爱玲的小说》一文开启了张爱玲研究之旅以来,张爱玲研究就在海内外逐渐展开。然而,在蔚为壮观的“张学”中,对张爱玲翻译领域的研究却较为滞后,尤
中职学生的心理健康状况是必须要关注的一个问题,心理问题在学生的发展过程中发挥着重要的作用,特别是对于中职的学生来说,问题更加严重。主要从职业学校的心理健康状况进行分析
由中国重型机械工业协会停车设备工作委员会主办,上海万耀企龙展览有限公司承办的2018国际(上海)城市停车博览会,于2018年11月22日在国家会展中心(上海)开幕.rn本届展览会得
期刊