【摘 要】
:
网络购物连续十几年在中国屡创新高,频繁交易生成了海量的在线商品评论,一方面,为商家分析消费者购物偏好提供了庞大的数据库,为用户提供了全面的购物决策信息;另一方面,海量的数据也带来了信息筛选的低效率。全面考虑在线商品评论的信息特征,根据用户的信息采纳偏好对商品评论有效性进行排序,将最精准的在线评论信息推送给用户,有助于在线交易平台和商家提高用户购买满意度、增加用户信任度,形成持续竞争力。目前对于在线
论文部分内容阅读
网络购物连续十几年在中国屡创新高,频繁交易生成了海量的在线商品评论,一方面,为商家分析消费者购物偏好提供了庞大的数据库,为用户提供了全面的购物决策信息;另一方面,海量的数据也带来了信息筛选的低效率。全面考虑在线商品评论的信息特征,根据用户的信息采纳偏好对商品评论有效性进行排序,将最精准的在线评论信息推送给用户,有助于在线交易平台和商家提高用户购买满意度、增加用户信任度,形成持续竞争力。目前对于在线商品评论的研究主要选择单一类型的商品评论,侧重于某些评论指标的有效性分析,对在线评论有效性影响因素的筛选主要采用问卷调查等偏主观的研究方法,并没有选择能高效处理大数据的机器学习算法对海量的在线商品评论有效性影响因素进行系统筛选,本文结合已有领域研究成果,主要工作如下:第一,基于信息质量理论完善在线商品评论指标体系;第二,基于机器学习方法,提取影响在线商品评论有效性的关键指标。本部分设计爬虫程序,获取京东商城体验型商品评论15169条,搜索型商品评论19782条,分别建立多元回归模型、支持向量机递归特征消除模型和随机森林递归特征消除模型,对在线商品评论有效性指标进行提取,以均方根误差和模型拟合度R方为标准,比较三个模型的结果,得出随机森林模型下的特征组合最优,其中体验型商品影响因素5个,搜索型商品影响因素7个;第三,在线商品评论有效性预测。分别以有效在线商品评论的全部影响因素和关键影响因素作为输入变量,选取随机森林模型、支持向量机模型、神经网络模型、逻辑回归模型,将评论分为“有用”、“无用”两类,通过查准率、查全率、F值评价出最优预测模型。结果显示,基于关键影响因素的随机森林模型预测效果最好。为了进一步验证,本文以随机森林模型对评论有效性分类的准确率作为辅助排序,并邀请用户对原有排序和现排序打分,结果表明推荐排序得到了82.5%用户的认可。
其他文献
在今之所存众多《盐铁论》版本中,历代藏家和学者鲜有对沈延銓本的研究。山西省图书馆所藏沈延蚀刻《盐铁论》中独有的版本和批校内容,蕴涵着版本学和校勘学方面的价值;日本
<正>第一部分:开题报告一选题背景与意义(一)选题背景随着中国特色社会主义步入新时代,掌握信息技术素养对当代社会的人来说,已经成为了必要的生存条件。要发展,要进步,要实
雅安市国家税务局综合办公大楼位于雅安市新开发区.该办公楼为一高层综合大楼,总建筑面积为13583m2.建筑总高度44.4m,地上12层,地下1层.建设用地平整,条件良好,水电气等基础
Pawlak粗糙集模型主要关注的是论域上一个等价关系导出的集合的近似,是单粒度的.通过用论域上的2个等价关系定义集合的近似,把单粒度的Pawlak粗糙集模型扩展到双粒度粗糙集模
想要保证小学数学教学的高质量开展,就需要将以学定教思想进行运用。所以在本文中,就对以学定教思想在小学数 学教学中的运用策略做出研讨。即实行层次化教学、为学生提供展
已经成立十个年头的东台市商经学会,1991年学会活动坚持四个“结合”效果显著。这四个结合是: 第一,在学会活动上,坚持大小结合。全年由学会牵头办了四次较大的活动:组织出版
针对成都地区某大断面隧道临近既有立交桥桩基的设计和施工方案,运用有限差分法,建立三维模型模拟施工过程。以临近隧道的地面、隔离桩、主桥桩、匝道桩为研究对象,分析了地
从1992年元月中旬开始,疯狂的名酒市场终于止住了上冲势头,颓势渐露,特别是茅台、五粮液等回落甚大。那么,名酒的又一次回落与1989年的第一次下降关系如何,今后名酒市场的趋
采用蚕豆根尖微核技术与常规的物理化学相结合方法来检测水质,对昆明呈贡大学城部分水域污染情况进行了研究.利用蚕豆微核技术对各水样进行监测统计蚕豆根尖细胞对微核千分率(MC
近来,文档图像的计算机自动理解已取得很多进展.但是,对于具有倾斜的图像的理解仍然存在许多困难.这种困难在中文名片图像自动识别与理解系统中尤为突出.必须在系统的输入端