文本挖掘在产品评论中的研究与应用

来源 :江苏科技大学 | 被引量 : 3次 | 上传用户:wzhyskoa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展和Internet大规模的使用,人们的生活方式得到了巨大的改变。越来越多的消费者可以通过网络平台来发表自己对某种产品的看法,这些评论信息直接或间接的表达了其对各种产品的态度和情感。如果能够合理分析并利用这些产品评论信息,就可以给商家、消费者等带来意想不到的好处,最终促进社会经济的发展。通过解析网络平台上获得的评论信息,就可以得到大量半结构化或非结构化的文本。而文本挖掘技术,正是处理这种大量半结构化或非结构化文本最有效的手段。文本挖掘技术在处理网络产品评论中的最终目的是文本情感分类,就评论文本而言即消费者对于某种产品的褒贬。在文本情感分类的处理过程中,最关键的就是选择合适的分类方法。本文选择KNN算法作为分类方法。但是,传统KNN分类方法存在着计算量大,不均匀密度下分类偏差大的问题。因此,本文设计了一种新的CPKNN算法。实验证明,与传统KNN算法相比,该算法的准确率和效率都明显提升。本文主要研究工作如下:(1)分析研究了Apple MacBook Air笔记本页面的DOM树结构,根据URL抓取规则,使用Java爬虫技术,采集8万条评论数据。通过文本分词、去停用词、特征选择与特征加权等步骤,将这些评论数据处理为待训练语料。(2)对KNN算法进行改进,提出了改进的CPKNN算法。CPKNN算法会对不均匀的训练样本进行循环裁剪,最终使得在测试样本领域内的样本是相对均匀的,从而提高算法的准确率;其次结合使用投影寻踪理论,来获得更具代表性的样本,从而提高KNN算法的分类效率,并对k值的选择做了相关实验。(3)结合改进的CPKNN算法,设计出细粒度的文本情感分析模型,并实现了产品评论挖掘系统。该系统可以抓取指定网站网页上的相关评论,显示分词信息,提取相关特征词,将产品评论进行情感分类,并以图形化界面显示出来。系统运行结果表明,文本挖掘技术在产品评论中的应用是有效可行的,可以分析出消费者对产品的情感倾向。
其他文献
为解决传统行为安全管理实践中存在的决策信息匮乏、管理结构固化的问题,寻求行为安全管理的新模式。首先,探讨传统模式中各环节存在的缺陷;其次,引入循证安全管理新方法,确
本文结合某海工基地工程,通过分析海工产品的特点,对其滑道布置、出运工艺及结构设计进行研究,提出海工产品适应性更强,投资相对更省的滑道设计方案,为今后类似工程的设计提
<正>小组合作学习是新课改中课堂的重要组织形式之一,也是构建高质高效课堂充分发挥学生主体作用的一种有效方法。所谓小组合作学习是一种学生在小组中通过明确的责任分工完
会议
2002-10-04韶关发电厂9号机组有一电缆隧道因一根6 kV电缆中间接头运行中发热引起短路爆炸,引燃周围四层电缆架上的所有高低压电缆,虽然火势非常凶猛,但因着火处两端有防火墙
本文介绍对拉船铺设软体排施工技术在舟山市金塘木岙集装箱物流基地陆域形成项目中的成功应用,包括施工工艺和质量控制措施等。该施工技术首次尝试在复杂潮汐深水区域使用对
目的对辽宁省不同人群健康状况的自我评价进行调查,为制定疾病控制措施提供参考。方法采用随机分层抽样,对辽宁省4个大、中、小城市和农村居民及2个特大型国有企业职工进行问
随着码头建设大型化的发展,采用陆上气囊接力和海上半潜驳浮运相结合的方法出运大型码头构件已成为主流的施工工艺。本文结合相关规范,系统分析了大型构件移运全过程中不同参
本文综合考虑了海运成本、铁路运费、目的港和中转港的港口使费和货损对多种运输模式和多个装卸港进行综合物流成本比较。得出东北港口增建(改造)30万t和40万t级泊位对降低东北
随着世界各国加大对可再生能源的开发与利用,太阳能光伏发电(PV)产业发展迅速。基于可再生能源的分布式微型电网(Microgrid)技术能够提高能源利用率,同时保持较高的供电质量,
以东方百合‘索邦’(Liliumoriental‘Sorbonne’)无菌苗鳞茎、鳞片叶及愈伤组织为外植体,通过EHA105和GV3101两种根癌农杆菌(Agrobacterium tumefaciens)菌株介导,将ACO反义基因导