论文部分内容阅读
摘要:随着经济的快速发展,我国各项领域都得到了很好的发展,主题模型是自然语言的一种模型,本文就主题模型的类型及发展阶段进行分析总结。
关键词:主题模型发展;LDA主题模型;主题数
引言
本文首先介绍了主题模型的相关理论;其次,从技术、方法和应用三个方面分析了面向LDA主题模型的文本分类的研究现状;然后,分析了目前研究中存在的一些问题和研究策略;最后,分析并讨论了文本分类未来的一些发展趋势.
1 主题模型的发展
随着科技的飞速发展,数据量也在不断的增加。数据的形式不仅仅是数字形式,也包含文字形式的数据。文本数据隐藏着大量有价值的信息,需要我们去挖掘探索。想要快速了解大量的文本数据讲的是什么,主题模型随之产生。
1.1 潜在语义索引
潜在语义索引(LSI)模型指的是对tf-idf矩阵进行奇异值分解,将文档向量与词向量映射到低维空间.LSI模型原理简单,通过一次奇异值分解就能获得主题,同时使词义问题得到解决。同时,这个文本模型有缺点:奇异值分解十分耗时,尤其是对高维度矩阵。其次主题数的选择对实验的结果影响很大,并且缺乏统计基础,很难有一个直观的解释。
1.2 TF-IDF文本模型
TF-IDF文本模型就是以信息论中TF-IDF公式为基础,模型的核心就是这个公式。公式包括词频和逆文档频率。词频是该词在文本中出现的次数除以文本中所有词的个数,而逆文档频率是总文本数与含该词的文本数的商的对数。最后两个值的乘积就是tf-idf值。所有词的tf-idf值组成一个矩阵。这个算法简单快速,结果也比较符合实际。但是算法仅以词频来判断词的重要性,是很片面的。
1.3 向量空间模型
VSM模型将文档用向量(t1;t2;t3...;tn;wn)表示,tk是特征项,一个文档可以看成是它含有的所有的特征项的集合,wk是特征项的权重,表示它们在文档中的重要程度.把特征项看作是n维坐标系,权重就是相应的坐标值,那么一个文本就表示为n维空间的一个向量.因此就将非结构化的文本信息转化到向量空间来表示.
1.4 一元文本模型
一元文本模型是最简单的概率文本模型中的一种,文档中的每一个词都是从一个单独的多项分布中独立采样得到的。
1.5 概率潜在语义索引
由于混合一元模型每篇文档只能有一个主题,所以提出了概率潜在语义索引(pLSI)。它的结构中加入一层隐含主题层,为了跟各变量之间的语义关系产生一定关联同时降维。pLSI模型是以LSI模型为基础的概率生成模型。它的隐含主题是由词汇特征聚合而来的,从而降低了文档集的维度。由于LSI文本模型是以VSM模型为基础,所以它并不能很好的处理同义词或者一词多义的情况。然后pLSI模型恰恰可以解决这个问题,因为它的隐含主题是由单词按照一定概率生成的。
1.6 LDA主题模型
LAD模型是全概率生成模型,内部结构清晰,即文档-主题-特征词三层结构,可以利用高效的概率推断算法进行计算,并且参数空间的规模与训练文本数量无关,因此可以处理大规模语料.它的基本思想是:语料库中的每个文本可以看成是若干潜在主题构成的一个概率分布,每个主题是由若干个特定词汇组成的,并且以一定的概率出现.它解决了LSA的性能受损和计算复杂性的问题以及pLSA模型参数随着文档数量增加出现的过拟合问题,因此得到了广泛应用.
2 主题模型的应用
2.1 LDA主题模型主题数的确定
LDA主题模型是一种可以挖掘大型文档数据集合中潜在主题信息和实现文本信息的分类的概率模型,自从提出以来得到了广泛的应用,并取得良好效果.应用至今,已有不少专家学者对其进一步的改进,其分类效果得到进一步提升.因此,把LDA主题模型和其他方法相结合得到了广泛研究,并取得不错效果.基于Labeled-LDA(附加类别标签的LDA)模型的文本分类,将类别信息融入传统LDA模型,进而支持文档在全部类别的隐含主题上的协同分配,解决了传统LDA模型用于分类时强制分配隐含主题的缺陷;基于mRMR和LDA主题模型的文本分类,预先使用mRMR特征选择算法将输入空间映射到低维空间,去除较大不相关信息和重叠信息,使得LDA能够在更简洁的文本上建模,从而得到更精确的主题分布;基于词向量与LDA相融合的短文本分类方法,能有效克服短文本的主题聚焦性差及特征稀疏性问题,提高短文本分类性能.基于LDA的微博生成模型,利用微博之间的转发、对话、支持(赞)和评论等关系来计算微博之间的相关性,综合考虑微博之间的相关性和同一用户微博信息间的关系,来辅助对微博的主题进行挖掘。
2.2 删除低频词
删除低频词,首先这里我们可能需要进行数据表重塑,统计分词的词频,删除词频为0的词。之后将词语放入语料库,并将其转换为文档词条矩阵。对这个文档词条矩阵使用tf-idf算法。为了保留尽量多的词,设置tf-idf值的中位数作为阈值,tf-idf值大于这个阈值的词就保留下来。
2.3 基于吉布斯采样建立主题模型
吉布斯采样是指想要知道样本中一个属性在其他所有属性下的条件概率,然后通过这个条件概率来产生各个属性的样本值。吉布斯采样是MCMC算法中的一個采样算法。采样就是通过将一个不太好解决的问题转化为一个能够通过采样来解决的问题,但是采样方法不确定。吉布斯采样就是为了得到一个样本,没有计算概率但能够通过其他方法统计概率。
3 结语
本文研究了主题模型,探讨了主题模型的相关理论;然后,从技术、方法和应用三个方面分析了面向LDA主题模型的文本分类的研究现状;总结了目前研究中存在的一些问题和研究策略;最后,展望了文本分类未来的一些发展趋势.文本分类的最终目的还是为自然语言处理服务,因此,可以将文本分类的研究成果应用到信息检索、信息抽取、舆情分析和个性化推荐、网络安全等研究中,以期取得更好性能.
参考文献:
[1]常东亚,严建峰,杨璐.基于中心词的的上下文主题模型[J].计算机应用研究,2017,35(4).
[2]郑玉桂.面向电商评论细粒度观点挖掘的拓展主题模型研究(D).浙江:浙江工商大学,2017.
[3]姚立,张曦煌.基于主题模型的改进随机森林算法在文本分类中的应用[J].计算机应用与软件,2017,34(8).
[4]文聪聪,彭玲,杨丽娜,池天河.主题模型与SVM组合的小尺度街区用地分类方法[J].地球信息科学学报,2018,20(2).
关键词:主题模型发展;LDA主题模型;主题数
引言
本文首先介绍了主题模型的相关理论;其次,从技术、方法和应用三个方面分析了面向LDA主题模型的文本分类的研究现状;然后,分析了目前研究中存在的一些问题和研究策略;最后,分析并讨论了文本分类未来的一些发展趋势.
1 主题模型的发展
随着科技的飞速发展,数据量也在不断的增加。数据的形式不仅仅是数字形式,也包含文字形式的数据。文本数据隐藏着大量有价值的信息,需要我们去挖掘探索。想要快速了解大量的文本数据讲的是什么,主题模型随之产生。
1.1 潜在语义索引
潜在语义索引(LSI)模型指的是对tf-idf矩阵进行奇异值分解,将文档向量与词向量映射到低维空间.LSI模型原理简单,通过一次奇异值分解就能获得主题,同时使词义问题得到解决。同时,这个文本模型有缺点:奇异值分解十分耗时,尤其是对高维度矩阵。其次主题数的选择对实验的结果影响很大,并且缺乏统计基础,很难有一个直观的解释。
1.2 TF-IDF文本模型
TF-IDF文本模型就是以信息论中TF-IDF公式为基础,模型的核心就是这个公式。公式包括词频和逆文档频率。词频是该词在文本中出现的次数除以文本中所有词的个数,而逆文档频率是总文本数与含该词的文本数的商的对数。最后两个值的乘积就是tf-idf值。所有词的tf-idf值组成一个矩阵。这个算法简单快速,结果也比较符合实际。但是算法仅以词频来判断词的重要性,是很片面的。
1.3 向量空间模型
VSM模型将文档用向量(t1;t2;t3...;tn;wn)表示,tk是特征项,一个文档可以看成是它含有的所有的特征项的集合,wk是特征项的权重,表示它们在文档中的重要程度.把特征项看作是n维坐标系,权重就是相应的坐标值,那么一个文本就表示为n维空间的一个向量.因此就将非结构化的文本信息转化到向量空间来表示.
1.4 一元文本模型
一元文本模型是最简单的概率文本模型中的一种,文档中的每一个词都是从一个单独的多项分布中独立采样得到的。
1.5 概率潜在语义索引
由于混合一元模型每篇文档只能有一个主题,所以提出了概率潜在语义索引(pLSI)。它的结构中加入一层隐含主题层,为了跟各变量之间的语义关系产生一定关联同时降维。pLSI模型是以LSI模型为基础的概率生成模型。它的隐含主题是由词汇特征聚合而来的,从而降低了文档集的维度。由于LSI文本模型是以VSM模型为基础,所以它并不能很好的处理同义词或者一词多义的情况。然后pLSI模型恰恰可以解决这个问题,因为它的隐含主题是由单词按照一定概率生成的。
1.6 LDA主题模型
LAD模型是全概率生成模型,内部结构清晰,即文档-主题-特征词三层结构,可以利用高效的概率推断算法进行计算,并且参数空间的规模与训练文本数量无关,因此可以处理大规模语料.它的基本思想是:语料库中的每个文本可以看成是若干潜在主题构成的一个概率分布,每个主题是由若干个特定词汇组成的,并且以一定的概率出现.它解决了LSA的性能受损和计算复杂性的问题以及pLSA模型参数随着文档数量增加出现的过拟合问题,因此得到了广泛应用.
2 主题模型的应用
2.1 LDA主题模型主题数的确定
LDA主题模型是一种可以挖掘大型文档数据集合中潜在主题信息和实现文本信息的分类的概率模型,自从提出以来得到了广泛的应用,并取得良好效果.应用至今,已有不少专家学者对其进一步的改进,其分类效果得到进一步提升.因此,把LDA主题模型和其他方法相结合得到了广泛研究,并取得不错效果.基于Labeled-LDA(附加类别标签的LDA)模型的文本分类,将类别信息融入传统LDA模型,进而支持文档在全部类别的隐含主题上的协同分配,解决了传统LDA模型用于分类时强制分配隐含主题的缺陷;基于mRMR和LDA主题模型的文本分类,预先使用mRMR特征选择算法将输入空间映射到低维空间,去除较大不相关信息和重叠信息,使得LDA能够在更简洁的文本上建模,从而得到更精确的主题分布;基于词向量与LDA相融合的短文本分类方法,能有效克服短文本的主题聚焦性差及特征稀疏性问题,提高短文本分类性能.基于LDA的微博生成模型,利用微博之间的转发、对话、支持(赞)和评论等关系来计算微博之间的相关性,综合考虑微博之间的相关性和同一用户微博信息间的关系,来辅助对微博的主题进行挖掘。
2.2 删除低频词
删除低频词,首先这里我们可能需要进行数据表重塑,统计分词的词频,删除词频为0的词。之后将词语放入语料库,并将其转换为文档词条矩阵。对这个文档词条矩阵使用tf-idf算法。为了保留尽量多的词,设置tf-idf值的中位数作为阈值,tf-idf值大于这个阈值的词就保留下来。
2.3 基于吉布斯采样建立主题模型
吉布斯采样是指想要知道样本中一个属性在其他所有属性下的条件概率,然后通过这个条件概率来产生各个属性的样本值。吉布斯采样是MCMC算法中的一個采样算法。采样就是通过将一个不太好解决的问题转化为一个能够通过采样来解决的问题,但是采样方法不确定。吉布斯采样就是为了得到一个样本,没有计算概率但能够通过其他方法统计概率。
3 结语
本文研究了主题模型,探讨了主题模型的相关理论;然后,从技术、方法和应用三个方面分析了面向LDA主题模型的文本分类的研究现状;总结了目前研究中存在的一些问题和研究策略;最后,展望了文本分类未来的一些发展趋势.文本分类的最终目的还是为自然语言处理服务,因此,可以将文本分类的研究成果应用到信息检索、信息抽取、舆情分析和个性化推荐、网络安全等研究中,以期取得更好性能.
参考文献:
[1]常东亚,严建峰,杨璐.基于中心词的的上下文主题模型[J].计算机应用研究,2017,35(4).
[2]郑玉桂.面向电商评论细粒度观点挖掘的拓展主题模型研究(D).浙江:浙江工商大学,2017.
[3]姚立,张曦煌.基于主题模型的改进随机森林算法在文本分类中的应用[J].计算机应用与软件,2017,34(8).
[4]文聪聪,彭玲,杨丽娜,池天河.主题模型与SVM组合的小尺度街区用地分类方法[J].地球信息科学学报,2018,20(2).