论文部分内容阅读
科学技术突飞猛进促进了学科间交流合作,带动了各学科发展。学科文献作为学科知识的承载体,其数量呈高速膨胀的增长态势。要想从繁杂的文献中快速地探测学科研究趋势掌握研究热点并且准确地检索到自己的目标文献,就需要文本数据分析技术的支持。近年来,机器学习的广泛应用使得主题模型得到研究者们重点关注。其中相关主题模型(Correlated Topic Model,CTM)不仅能够挖掘主题粒度的语义信息,还可以利用主题对文本数据进行降维。与主题模型家族中另一个优秀模型——潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)相比,CTM主题模型能够捕获主题与主题之间的相关性,具有丰富的文本表示能力。因而,该模型在自然语言处理、数据挖掘和人工智能等领域占领一席之地。此外,该模型不仅可以处理文本数据,还可以作用于图像数据、语音数据等实体。基于已有研究,本文重点探究如何利用CTM主题模型对学科主题识别以及学科文献自动分类。具体内容如下:前两章主要对国内外主题模型发展以及在学科主题识别与学科文献分类方面的研究做了详细的综述,指出研究中存在的不足。介绍了文本挖掘流程以及各个流程的详细操作步骤,并对CTM主题模型的文档生成过程、后验推断与参数估计做了详细解释。第三章中探究CTM主题模型在主题识别方面的优点。通过CTM主题模型对两学科交叉主题分时间段进行识别,利用文档主题概率分布计算主题强度并计算各个时间段主题相似度,动态展现学科交叉主题演化过程。实验证明,CTM主题模型能够较全面地识别学科交叉的主题。第四章中基于CTM主题模型良好的学科主题识别能力提出将该模型与KNN分类算法结合的C-KNN分类方法,将主题信息纳入到对学科文献的分类中,既保留学科主题信息的同时降低语料库维度,解决传统KNN分类算法在计算文本相似度时因计算量大、未考虑语义信息而导致分类效果较差的问题。与传统KNN分类算法、基于LDA主题模型的KNN分类算法进行比较,证明C-KNN分类算法对多学科文献分类效果较好。最后一章对全文研究内容加以总结,并根据研究中存在的不足对接下来的研究工作进行展望。