基于Logistic分类的社交网络的活跃信用值的研究与仿真

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:cq3535251214
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今时代,是互联网的时代,是数据的时代。互联网已经成为了人们生活中不可或缺的一部分。根据中国互联网信息中心CNNIC发布的第34次调查报告显示,截至2014年6月,我国网民规模达6.32亿。根据中国IT研究中心发布的《2014年Q2中国移动网络市场调研报告》显示,2014年中国网购用户数量已经超过3.32亿人,在2015年有望突破5.2亿人。而另一方面,中国质量投诉部2014年发布的报告的表明,相比于2013年全国消费者在网购上13206例的投诉数量,2014年这一数值增加到了46882例。因此,电子商务的信用评估近年来成为了人们重点研究的一个课题。
  本文在普通的信用评估的基础上,结合了社交网络用户进行研究。网络购物平台选取了淘宝网。淘宝网是我国用户规模最大的购物网站,而网络购物的投诉一半以上也来自于腾讯和淘宝。而社交平台则选取了新浪微博。微博淘宝版的诞生,为本文研究淘宝卖家的信用度提供了一个新的视野。
  文章研究的核心是活跃信用值。即活跃值/信用值。根据活跃信用值来判断一个微博淘宝卖家是否值得信赖。
  论文的数据则来自于新浪微博中的淘宝卖家,文章通过分析新浪微博的登录过程进行模拟登录,通过广度优先搜索策略抓取微博淘宝用户的数据。在微博淘宝用户搜索完毕之后,提取用户微博主页的数据,再从抓取的微博数据中访抓取用户在淘宝个人主页的数据。文章提取的数据主要有微博账号,微博昵称,关注数,粉丝数,微博数,微博等级,淘宝昵称,卖家信用,好评率等等。然后对抓取的数据进行预处理,除去重复的数据,噪声数据,缺失值数据,将得出后的数据进行相关性研究和回归分析,得出微博用户的活跃度对一个淘宝卖家来说有着很大的正相关性,这是文章选择计算活跃信用值的初衷之一。而单纯的研究淘宝卖家的信用,现在的研究很多,但是都很难做到效果很好。而从社交网络来研究的话,卖家与买家能更多的进行沟通,在全民微博时代能够相互了解,而一个卖家的活跃程度,信用程度,也能在开放的社交平台上得到更好的体现,这也是本文选择计算活跃信用值的初衷之一。
  文章基于微博淘宝数据,主要对以下的四个方面进行了深入的研究:
  1.环境的研究。对电子商务,新浪微博,信用评估进行了介绍,分析了特点与发展的趋势,也对国内外大型的电子商务网站的信用评价规则有个深入的介绍。
  2.因素的研究。运用统计学的方法,对抓取的微博淘宝用户的各项指标进行因素分析,总结了各项因素对用户信用值的关联性与显著性。
  3.多层次多方法的结合。文章运用了AHP层次分析法对处理后的数据进行权值的计算,然后用模糊综合评判法,建立适合于数据特性的隶属函数,通过模糊综合评判法对每一个微博淘宝用户进行一个初始信用分数的计算。利用包含信用分数的数据,建立分类模型,在利用Logistic直接多分类精确度不高的对比下,利用Logistic回归二分类的优越性,对算法进行改进,用两层分类的方法,将用户分为三个类别。并且通过扩大模型数据间的差异,极大的提高了模型分类的准确度,在信用值层面对用户进行了划分。
  4.活跃度与信用值的结合。文章60%的数据用于构建模型,30%的数据用于验证模型,10%的数据用于仿真模拟。通过与信用值的相关性分析,选取数据的粉丝数和活跃天数,通过等量变换来计算活跃值。信用值根据Logistic分类出的三个类别赋予三个固定信用值。最终计算的活跃信用值,既能很好的体现用户的信用度,也能在活跃度上与信用度结合,呈现出了在活跃度基础上的信用值。
  文章最后得到的模型分类准确,并且最终的活跃信用值能很好的反映出一个微博淘宝用户的信用水平,值得信赖。而在仿真数据的模拟时准确度也很高,完全可以用于生活中的应用。文章的亮点在于从用户数量极大的新浪微博作为切入点,抓取了微博淘宝版用户的真实数据,以信用值为基础,从活跃度进行计算,有效的分析了微博淘宝用户的活跃信用值,并且构建了符合文章数据结构的隶属函数,提高了信用值的计算,在算法改进上提升了最终活跃信用值的可靠性,更为信用评估的研究提出了自己的观点。希望本文的研究与思路,能够为当今炙手可热的电子商务行业有促进作用,提升买家的购物体验度,也希望能衍生出更多更好的方法来进行信用评估。
其他文献
会议
期刊
期刊
随着Web2.0技术的深入应用以及电子商务的越发繁荣,人们越来越倾向于在网上购买自己需要的产品,并在体验一段时间后在商家提供的产品评论平台上表达自己对产品的观点和使用感受。同时,对于消费者来讲,商品评论信息是他们在进行商品选择时一定会借鉴和参考的非常有价值的信息。对产品评论进行意见挖掘,不仅能为用户在选择商品的时候提供购买决策支持,还可以帮助销售商和生产商根据消费者对产品的体验而反馈的信息来指导产
学位
期刊
随着互联网技术的高速发展,人们在享受互联网方便快捷的同时也对信息安全的要求越来越高,信息安全领域面临着前所未有的挑战。传统的身份识别方法仅仅依赖账号密码的匹配,但却无法识别当前输入者是否为用户本人,显然这种单一的认证模式已不能适应现代人对网络安全的需求,因此身份识别问题越来越受到人们的关注。  生物特征识别技术的出现为解决身份识别问题带来了希望并渐渐走入我们的生活,它的本质就是利用了人体与生俱来或
学位
期刊
我国的证券市场已经走过了24年的历程,1990年12月19日,上海证券交易所开业,而后,深圳证券交易所相继于1991年7月3日正式开业。据中国证监会数据显示,截至2014年10月底,我国境内沪深两市上市公司(包括A、B股)数量为2584家,根据最新的统计结果显示,我国在2014年的国内生产总值达到了63.65万亿元,A股股票市值为37.11万亿元,由此可得我国的证券化率为58.3%。证券市场的稳定
学位
学位
在经济学领域,关于股票市场的研究一直都是一个热点问题,其中主要的研究途径包括公司基本分析、基于政策的分析、从技术面进行的分析和通过资金流向的分析,通过上述的种种途径对股价的走势进行预测一直是股票市场研究中面临的核心问题,不管是经济学还是其他领域的学者对其做了大量研究。  自从三十年代Keynes提出“animal spirit”理论开始,该理论主要说人类的行为是基于直觉、倾向性和情感等因素,通过这
学位