【摘 要】
:
主题模型能够提取文本数据中潜在的主题,进而根据每篇文本所属的主题对大规模文档集进行聚类。一个广泛使用的主题模型是LDA(Latent Dirichlet allocation)模型,但是LDA模型
论文部分内容阅读
主题模型能够提取文本数据中潜在的主题,进而根据每篇文本所属的主题对大规模文档集进行聚类。一个广泛使用的主题模型是LDA(Latent Dirichlet allocation)模型,但是LDA模型存在“顺序效应”,也就是说,如果建模时改变文本数据的读入顺序,模型会产生不同的主题,文本也可能会被划分到不同的主题中。这种“顺序效应”使结果具有误导性,严重降低文本挖掘的效率和准确性。有学者曾提出基于遗传进化算法(Genetic algorithms)的LDA模型,在某种程度上提高了模型的稳定性,但这种基于遗传进化算法的LDA模型收敛速度相对较慢,易陷入局部最优解,且对聚类结果的解释性较差。针对这些不足,本文应用差分进化算法对LDA模型的相关参数进行优化,并将优化之后的模型称为LDA-DE模型。在建立LDA-DE模型之后,本文定义了描述模型稳定性的概念:主题稳定度,之后以主题稳定度和文本聚类的准确度作为模型评价指标,对LDA模型和LDA-DE模型的建模结果进行对比。结果表明,LDA-DE模型具有更高的主题稳定度和准确度。最后,本文以“2019年315消费者权益日”热点新闻为语料库,建立LDA模型和LDA-DE模型,并以主题稳定度更高的LDA-DE模型进行主题挖掘。通过对比LDA-DE模型提取的主题与语料库中新闻报道的内容,发现LDA-DE模型具有较好的效果。
其他文献
文化自信作为一个国家发展中更基本、更深厚、更长久的力量,随着社会经济的跨越式发展,具象表现为群众精神文化需求的日益增长、对文化服务的品质要求日益提高。农村社区作为农村社会治理的基本单元,农村社区文化事业的发展也倍加受到中央重视。作为提升农村社区村民生活质量和文明素养关键的公共文化服务体系建设,需不断强化公共文化产品及服务的有效供给。公共文化服务体系的宗旨即保障群众基本文化权益,因此表明在实践中公共
随着物联网技术的不断发展和普及,万物互联的时代将全面开启,伴随着智能终端种类和设备的持续增多,其产生的海量数据所面临的数据传输处理问题日益浮现,这些设备不仅有智能手
在第五代移动通信网络(The Fifth Generation Mobile Communication Network,5G)研究过程中,为了拓宽通信带宽,学术界和工业界逐渐将研究的重点放在毫米波频段。但随着频谱范
经略海洋,向海图强。2018年3月8日,习近平总书记参加十三届全国人大一次会议山东省代表团的审议,并发表了重要讲话。他明确提出,山东“要更加注重经略海洋”。经略,在字典中
离散化虚内键模型(DVIB)是一种新型的格子模型,其离散结构由键元胞组成,每个键元胞可以代表一个矿物颗粒,因而它能再现岩石细观结构特征。本文以DVIB为基本力学模型,首先对岩
卫星导航系统在无人驾驶、农机导航、灾害监测、公共交通和救援等领域得到广泛应用,在军民用都已经形成庞大的产业链。随着我国自主研发的北斗三号卫星导航系统的逐步建成,卫
肺栓塞疾病对患者的生命安全和身体健康造成了极大的威胁,利用计算机对该类疾病进行辅助诊断能极大提高医生的诊断效率,对疾病的成功治疗具有重要意义;计算机断层扫描(comput
随着电力抄表业务的发展,为了保证更有效、更可靠、更智能的抄表业务,宽带微功率无线通信作为新的通信方式将取代电力线通信(Power Line Communication,PLC)。但其仍然面临两
日前社会发展迅速,互联网的时代已经到来,信息化技术在生活中的所有领域随处可见,同时也影响着企业的运营和发展。中国电信黑龙江公司长期以来采取自有渠道与代理商相互合作
近年来,随着我国经济的迅速发展,土木工程基础设施建设也在快速的发展中。基础在动载作用下的动力响应是基础设计的关键;例如,高速列车运行中引起的地基动力响应、高压输油管道的动力响应问题等。针对地基的动力响应问题,国内外很多学者采用经典Biot理论进行研究,但是经典的Biot理论仅仅将孔隙率作为影响饱和孔隙介质力学性质的因素而忽略了孔隙尺寸效应对饱和孔隙介质中动力特性的影响。因此,本文基于非局部孔隙介质