论文部分内容阅读
当今时代,是互联网的时代,是数据的时代。互联网已经成为了人们生活中不可或缺的一部分。根据中国互联网信息中心CNNIC发布的第34次调查报告显示,截至2014年6月,我国网民规模达6.32亿。根据中国IT研究中心发布的《2014年Q2中国移动网络市场调研报告》显示,2014年中国网购用户数量已经超过3.32亿人,在2015年有望突破5.2亿人。而另一方面,中国质量投诉部2014年发布的报告的表明,相比于2013年全国消费者在网购上13206例的投诉数量,2014年这一数值增加到了46882例。因此,电子商务的信用评估近年来成为了人们重点研究的一个课题。
本文在普通的信用评估的基础上,结合了社交网络用户进行研究。网络购物平台选取了淘宝网。淘宝网是我国用户规模最大的购物网站,而网络购物的投诉一半以上也来自于腾讯和淘宝。而社交平台则选取了新浪微博。微博淘宝版的诞生,为本文研究淘宝卖家的信用度提供了一个新的视野。
文章研究的核心是活跃信用值。即活跃值/信用值。根据活跃信用值来判断一个微博淘宝卖家是否值得信赖。
论文的数据则来自于新浪微博中的淘宝卖家,文章通过分析新浪微博的登录过程进行模拟登录,通过广度优先搜索策略抓取微博淘宝用户的数据。在微博淘宝用户搜索完毕之后,提取用户微博主页的数据,再从抓取的微博数据中访抓取用户在淘宝个人主页的数据。文章提取的数据主要有微博账号,微博昵称,关注数,粉丝数,微博数,微博等级,淘宝昵称,卖家信用,好评率等等。然后对抓取的数据进行预处理,除去重复的数据,噪声数据,缺失值数据,将得出后的数据进行相关性研究和回归分析,得出微博用户的活跃度对一个淘宝卖家来说有着很大的正相关性,这是文章选择计算活跃信用值的初衷之一。而单纯的研究淘宝卖家的信用,现在的研究很多,但是都很难做到效果很好。而从社交网络来研究的话,卖家与买家能更多的进行沟通,在全民微博时代能够相互了解,而一个卖家的活跃程度,信用程度,也能在开放的社交平台上得到更好的体现,这也是本文选择计算活跃信用值的初衷之一。
文章基于微博淘宝数据,主要对以下的四个方面进行了深入的研究:
1.环境的研究。对电子商务,新浪微博,信用评估进行了介绍,分析了特点与发展的趋势,也对国内外大型的电子商务网站的信用评价规则有个深入的介绍。
2.因素的研究。运用统计学的方法,对抓取的微博淘宝用户的各项指标进行因素分析,总结了各项因素对用户信用值的关联性与显著性。
3.多层次多方法的结合。文章运用了AHP层次分析法对处理后的数据进行权值的计算,然后用模糊综合评判法,建立适合于数据特性的隶属函数,通过模糊综合评判法对每一个微博淘宝用户进行一个初始信用分数的计算。利用包含信用分数的数据,建立分类模型,在利用Logistic直接多分类精确度不高的对比下,利用Logistic回归二分类的优越性,对算法进行改进,用两层分类的方法,将用户分为三个类别。并且通过扩大模型数据间的差异,极大的提高了模型分类的准确度,在信用值层面对用户进行了划分。
4.活跃度与信用值的结合。文章60%的数据用于构建模型,30%的数据用于验证模型,10%的数据用于仿真模拟。通过与信用值的相关性分析,选取数据的粉丝数和活跃天数,通过等量变换来计算活跃值。信用值根据Logistic分类出的三个类别赋予三个固定信用值。最终计算的活跃信用值,既能很好的体现用户的信用度,也能在活跃度上与信用度结合,呈现出了在活跃度基础上的信用值。
文章最后得到的模型分类准确,并且最终的活跃信用值能很好的反映出一个微博淘宝用户的信用水平,值得信赖。而在仿真数据的模拟时准确度也很高,完全可以用于生活中的应用。文章的亮点在于从用户数量极大的新浪微博作为切入点,抓取了微博淘宝版用户的真实数据,以信用值为基础,从活跃度进行计算,有效的分析了微博淘宝用户的活跃信用值,并且构建了符合文章数据结构的隶属函数,提高了信用值的计算,在算法改进上提升了最终活跃信用值的可靠性,更为信用评估的研究提出了自己的观点。希望本文的研究与思路,能够为当今炙手可热的电子商务行业有促进作用,提升买家的购物体验度,也希望能衍生出更多更好的方法来进行信用评估。
本文在普通的信用评估的基础上,结合了社交网络用户进行研究。网络购物平台选取了淘宝网。淘宝网是我国用户规模最大的购物网站,而网络购物的投诉一半以上也来自于腾讯和淘宝。而社交平台则选取了新浪微博。微博淘宝版的诞生,为本文研究淘宝卖家的信用度提供了一个新的视野。
文章研究的核心是活跃信用值。即活跃值/信用值。根据活跃信用值来判断一个微博淘宝卖家是否值得信赖。
论文的数据则来自于新浪微博中的淘宝卖家,文章通过分析新浪微博的登录过程进行模拟登录,通过广度优先搜索策略抓取微博淘宝用户的数据。在微博淘宝用户搜索完毕之后,提取用户微博主页的数据,再从抓取的微博数据中访抓取用户在淘宝个人主页的数据。文章提取的数据主要有微博账号,微博昵称,关注数,粉丝数,微博数,微博等级,淘宝昵称,卖家信用,好评率等等。然后对抓取的数据进行预处理,除去重复的数据,噪声数据,缺失值数据,将得出后的数据进行相关性研究和回归分析,得出微博用户的活跃度对一个淘宝卖家来说有着很大的正相关性,这是文章选择计算活跃信用值的初衷之一。而单纯的研究淘宝卖家的信用,现在的研究很多,但是都很难做到效果很好。而从社交网络来研究的话,卖家与买家能更多的进行沟通,在全民微博时代能够相互了解,而一个卖家的活跃程度,信用程度,也能在开放的社交平台上得到更好的体现,这也是本文选择计算活跃信用值的初衷之一。
文章基于微博淘宝数据,主要对以下的四个方面进行了深入的研究:
1.环境的研究。对电子商务,新浪微博,信用评估进行了介绍,分析了特点与发展的趋势,也对国内外大型的电子商务网站的信用评价规则有个深入的介绍。
2.因素的研究。运用统计学的方法,对抓取的微博淘宝用户的各项指标进行因素分析,总结了各项因素对用户信用值的关联性与显著性。
3.多层次多方法的结合。文章运用了AHP层次分析法对处理后的数据进行权值的计算,然后用模糊综合评判法,建立适合于数据特性的隶属函数,通过模糊综合评判法对每一个微博淘宝用户进行一个初始信用分数的计算。利用包含信用分数的数据,建立分类模型,在利用Logistic直接多分类精确度不高的对比下,利用Logistic回归二分类的优越性,对算法进行改进,用两层分类的方法,将用户分为三个类别。并且通过扩大模型数据间的差异,极大的提高了模型分类的准确度,在信用值层面对用户进行了划分。
4.活跃度与信用值的结合。文章60%的数据用于构建模型,30%的数据用于验证模型,10%的数据用于仿真模拟。通过与信用值的相关性分析,选取数据的粉丝数和活跃天数,通过等量变换来计算活跃值。信用值根据Logistic分类出的三个类别赋予三个固定信用值。最终计算的活跃信用值,既能很好的体现用户的信用度,也能在活跃度上与信用度结合,呈现出了在活跃度基础上的信用值。
文章最后得到的模型分类准确,并且最终的活跃信用值能很好的反映出一个微博淘宝用户的信用水平,值得信赖。而在仿真数据的模拟时准确度也很高,完全可以用于生活中的应用。文章的亮点在于从用户数量极大的新浪微博作为切入点,抓取了微博淘宝版用户的真实数据,以信用值为基础,从活跃度进行计算,有效的分析了微博淘宝用户的活跃信用值,并且构建了符合文章数据结构的隶属函数,提高了信用值的计算,在算法改进上提升了最终活跃信用值的可靠性,更为信用评估的研究提出了自己的观点。希望本文的研究与思路,能够为当今炙手可热的电子商务行业有促进作用,提升买家的购物体验度,也希望能衍生出更多更好的方法来进行信用评估。