论文部分内容阅读
对于信息种子用户的识别在通讯发达的今天具有较为重要的意义,在某些关键的时刻这些种子用户可以发挥很大的作用.将大数据的处理思维应用到种子用户的识别中,与传统方法相比能更快更好地得到结果.本文开篇介绍了电信业务以及短信种子用户的相关背景,大数据的定义,大数据的各种特征以及应用价值.接着介绍了关于密度聚类方式和关于递归搜寻方式的树形网络结构用来识别种子用户,然后做了实证分析.由于关于密度聚类算法和关于递归搜索算法的树形网络处理时间太长并且在数据量达到大数据的标准时已经无法处理,所以在第四章是在对如何构建树状模型进行的改进和提升,先分析了影响用户成为种子用户的两大因素:时间优先和属性特征,以及种子信息传播的两大特征:传播时差和方向性.因此,本文针对上述两点提出了一种可以迅速创建树形网络结构,并快速地寻找出种子用户的方法.首先,应对数据进行清洗和数据处理,大数据的处理和清洗的典型方法有,基于函数依赖及蕰含依赖的方法,基于用户自定义约束条件的方法,基于统计学习的方法和基于因果关系的方法.针对种子用户本文选择了较为灵活的基于用户自定义约束条件的方法来对数据进行即先将用户按属性特征,也就是按照行业属性将其分到不同的组中,通过分析计算所有组之间的短信流通关系和传播时差来整理出信息流动的方向,即方向性.从而逐步缩小了搜索范围,也就是只看处于源头位置的组,再通过阀值筛出选备选的种子用户,然后验证备选种子用户,设计合理的种子用户的评价体系,即树状评价模型,将备选种子用户代入评价模型算出的最后得分确定出种子用户.最后,通过两个模型的对比,可以得到改进后的基于信息流模型优于树形网络模型.