论文部分内容阅读
随着时代的发展,互联网已经成为人们生活中必不可少的一部分,在线商城的出现也使得人们的购物方式产生了巨大的变化,其产生的商品评论对消费者选择商品提供了重要的参考价值。然而垃圾评论的存在会使消费者接受到错误的商品信息,进而影响消费者的购买体验,同时也会造成商家信誉度的缺失。因此,垃圾评论识别已经成为当前在线商城发展过程中的重点问题,也是当下文本分类研究的热点问题。为此,本文在对在线商城评论数据进行研究的基础上,提出了一种改进的LDA主题模型,探究依据评论文本的主题信息来识别垃圾评论的研究方法,使得在线商城能够过滤无用或无效的垃圾评论,为消费者鉴别商品质量提供指导,并为在线商城垃圾评论识别问题提供一种解决办法。结合LDA主题模型及垃圾评论识别的相关理论,本文以在线商城评论数据作为研究对象,首先借助网络爬虫技术,设计了针对于在线商城评论数据的采集方案。并在此基础上,利用中文分词、停用词过滤及关键词提取等预处理方法对数据进行整合,进而借助文本表示方法完成了评论数据的降维操作。其次,探讨了将LDA主题模型直接应用于在线商城垃圾评论识别带来的不利影响,基于此提出了改进后的OMCR-LDA主题模型,借助评论标签提升评论主题的生成效果,同时,给出了模型的参数估计及主题数目确立方法,并进一步构建了基于OMCR-LDA主题模型的垃圾评论识别方案。最后,以京东在线商城获取的商品评论作为实验数据,设计实验框架并结合OMCR-LDA主题模型展开实例分析,通过对比实验证明模型的改进效果。结果显示,提出的OMCR-LDA主题模型能够有效提取在线商城评论的主题信息,完成垃圾评论识别的研究目标,从而验证了该改进模型的合理性。综上所述,本文设计的垃圾评论识别方案及提出的OMCR-LDA主题模型是行之有效的,在一定程度上能解决当前垃圾评论充斥在网络环境中的现实问题,为研究在线商城的垃圾评论识别问题提供了一种思路。同时通过对LDA主题模型的拓展与改进,扩展了模型的应用领域,为后续主题模型的深入研究提供了参考依据。