基于主题特征的迁移学习文本分类算法研究与应用

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:hukaigui88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今的计算机网络技术发展日新月异,人们在享受网络便利的同时,也对冗杂的信息感到力不从心。因此人们希望通过简单操作,便可以找到最有价值的信息。相较于其他类型的信息,这种需求在文本信息方面尤为突出,而文本分类技术是解决此类问题最常用到的手段之一。文本分类技术大体来说,是在分类前先设定出不同的文本类别,之后再由计算机尽可能正确地,把要分类的文本归类到预设类别中。这种技术有一个很大的限制,就是要求所有的文本数据必须在相同分布下。但在实际操作中,有很多实例中的训练文本和测试文本会因为时间变化等原因而出现差异,既文本之间不同分布但却有相关性。为了突破这个瓶颈,本文将迁移学习框架引入其中,这是因为迁移学习既不要求数据必须同分布,也不要求样本中有大量的标记数据,而是依靠一些与测试文本有相关性的文本数据去辅助训练分类器,从而提高文本分类效果。在考虑文本数据的特征时,本文通过使用LDA(Latent Dirichlet Allocation)主题模型技术,来挖掘文本的主题特征。主题特征相较于词特征具有很大的优势:首先是主题对文本的含义具有高度概括性,其次是主题特征的维度更低、最后是分类效果不受词频或者无用词的干扰。将LDA主题模型与迁移学习文本分类算法相结合,提出TL-LDA算法。将此算法在数据集上进行实验,并与传统的文本分类方法对比、分析,从实验结果中表明,TL-LDA算法具有良好的性能。并在智能组卷系统中的主观题评分模块,利用TL-LDA算法,为学生主观题答案进行评测,并给出得分。
其他文献
经过几代人的努力,我们对陆壳化学组成的认识日趋完善,且熟知它是非常重要的地球化学储库,然而我们对陆壳成因和演化的认识还远远不够,如“大陆地壳是如何生长以及生长速率是
目的:探讨针刺并阿托品联合笑气对人工流产的镇痛效果。方法:选择自愿行无痛人工流产早孕患者1863例,其中观察组925例,术前即肌肉注射阿托品1mg,针刺合谷、足三里、三阴交穴位,
2019年12月以来中国爆发的“新型冠状病毒”疫情更是让在线教育成为了备受瞩目的一个焦点。自疫情的爆发,各在线教育平台纷纷在线上推出了免费的课程,随着2020年1月27日教育部通知春季开学延期后又提出“停课不停学”的在线教育政策,各教育部门也开始了筹备线上的教学,许多在线教育平台和教育出版单位积极响应号召,纷纷在各自线教育服务平台在线上或推出在线教育服务产品。根据艾瑞咨询在其网站上发布的《2020
生物解剖性状的比较是几个世纪以来生物学研究的核心问题,通过找出不同分类单元之间形态和结构上的差异,对生物进行系统分类和生物多样性的研究。近代以来的形态学的发展趋势
近年来,二语习得逐渐成为教学领域被学者关注的话题;在二语习得的研究领域,研究重点又都放在了母语对二语习得的影响上。但母语在二语习得中扮演的角色问题一直是一个颇具争议的