CTM主题模型在学科主题识别与学科文献分类中的应用研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:haiyang1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学技术突飞猛进促进了学科间交流合作,带动了各学科发展。学科文献作为学科知识的承载体,其数量呈高速膨胀的增长态势。要想从繁杂的文献中快速地探测学科研究趋势掌握研究热点并且准确地检索到自己的目标文献,就需要文本数据分析技术的支持。近年来,机器学习的广泛应用使得主题模型得到研究者们重点关注。其中相关主题模型(Correlated Topic Model,CTM)不仅能够挖掘主题粒度的语义信息,还可以利用主题对文本数据进行降维。与主题模型家族中另一个优秀模型——潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)相比,CTM主题模型能够捕获主题与主题之间的相关性,具有丰富的文本表示能力。因而,该模型在自然语言处理、数据挖掘和人工智能等领域占领一席之地。此外,该模型不仅可以处理文本数据,还可以作用于图像数据、语音数据等实体。基于已有研究,本文重点探究如何利用CTM主题模型对学科主题识别以及学科文献自动分类。具体内容如下:前两章主要对国内外主题模型发展以及在学科主题识别与学科文献分类方面的研究做了详细的综述,指出研究中存在的不足。介绍了文本挖掘流程以及各个流程的详细操作步骤,并对CTM主题模型的文档生成过程、后验推断与参数估计做了详细解释。第三章中探究CTM主题模型在主题识别方面的优点。通过CTM主题模型对两学科交叉主题分时间段进行识别,利用文档主题概率分布计算主题强度并计算各个时间段主题相似度,动态展现学科交叉主题演化过程。实验证明,CTM主题模型能够较全面地识别学科交叉的主题。第四章中基于CTM主题模型良好的学科主题识别能力提出将该模型与KNN分类算法结合的C-KNN分类方法,将主题信息纳入到对学科文献的分类中,既保留学科主题信息的同时降低语料库维度,解决传统KNN分类算法在计算文本相似度时因计算量大、未考虑语义信息而导致分类效果较差的问题。与传统KNN分类算法、基于LDA主题模型的KNN分类算法进行比较,证明C-KNN分类算法对多学科文献分类效果较好。最后一章对全文研究内容加以总结,并根据研究中存在的不足对接下来的研究工作进行展望。
其他文献
<正>目的本实验旨在检测健康及慢性牙周炎牙龈组织中人β防御素-4(hBD-4)基因及蛋白分布情况,比较其与hBD-1、hBD-2、hBD-3的表达差异。方法收集牙龈组织样本共96例,其中,慢
会议
<正>2016年12月21日,江苏省常州市武进区宋剑湖小学(以下简称"宋小")的阶梯教室里,师生济济一堂。"跟着古诗游中国"课堂研讨活动正在开展着,该校丁雄鹰副校长执教《跟着古诗
研究了处理自由落体频闪数据测定重力加速度的平均法,结果表明:有2种可行方法,结合实测数据给出了合理结果;拓展了现行教课书中相关的方法,提出了相应的教学建议. The avera
背景慢性阻塞性肺疾病(简称“慢阻肺”)是呼吸系统常见疾病,发病率高,病死率高,医疗花费高,预计在2020年将成为全球第三大死亡原因。慢阻肺急性加重时,伴呼吸肌疲劳及痰液引
目的结肠癌是我国常见的消化系统恶性肿瘤之一,尽管与炎性肠病相关的结直肠癌仅占全部结直肠癌的1%-2%,但却是造成炎性肠病患者死亡的主要原因。结肠炎相关性结肠癌的发生经
<正>2月7日,昆明公交集团公司召开2017年度年终评比表彰大会。大会对在2017年各项工作中做出突出成绩的22个先进集体和60名优秀个人进行了表彰,其中包括对宣传思想文化工作先
<正>你在设计企业远景时,一定要留意,你的远景必须和你的员工有紧密的联系。你如果能给你的同仁一个远景的话,他就会和你一起走得更远,也更长久每一位经营企业的朋友都要思考
地下轨道交通在城市交通中占有重要地位。目前,我国地铁车站主要采用人工照明。通过部分实测与研究,站内部分场所照度及出入口亮度比值未达标准。相关标准规范也仅仅是从满足
转型期公众对地方政府的政治信任处于一个滑坡的状态,而突发事件则处于一个特殊时期,如果运用得当,地方政务微博能够对公众政治信任的建构起积极作用;反之,则起反作用。
随着集成光学、激光技术的发展,对高折射率光电功能材料特别是高精确折射率薄膜的需求越来越急迫。高折射率材料具有优秀的折射率性质,应用于精密激光器、增透膜、反射膜、光