面向新浪微博的数据采集和社区发现算法研究

被引量 : 0次 | 上传用户:cxycsnf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网和移动通信技术的飞速发展,越来越多的人们正通过在线网络进行各种社会活动。社会网络的组构、以及其上的信息传递正在突破时空和管理边界,影响到各国网民和各个角落。社交网络(或称在线社会网络)已经成为现实社会的重要组成部分之一。对在线社交网络研究也随之倍受关注,成为了现下科学研究领域的一个热点问题。社交网络具有规模庞大,结构复杂以及海量信息实时传播的特征,因此,如何对海量数据进行采集、存储和分析成为亟需研究的问题。面对如此庞大的数据,数据采集平台使用了一种基于分布式的数据采集平台,其全局设计采用C/S架构,分布式的数据采集策略;为了减小索引服务器的性能瓶颈,在索引服务器上采用了数据切分、二级缓存队列等技术;而在爬虫机的设计中,为了提高爬虫机的数据采集效率,同样利用了二级缓存技术来减小线程的耦合度,并采用线程池、账户轮换等技术来提高爬虫机的并行性和突破新浪微博的访问限制。数据存储平台则采用Hadoop分布式文件系统进行存储,并根据数据采集平台采集的数据得到的统计结果,对数据结构进行了改进。对于社交网络的分析研究主要是提出了一个重叠社区发现算法。传统的社区发现算法大多基于这样一个前提,即每个节点只属于一个社区,而现实中恰恰相反,一个节点可以同时属于不止一个社区。针对在线社交网络中的用户并不仅仅属于一个社区,存在多重性,提出了一个允许社区重叠的社区发现算法,针对在线社交网络的庞大数据量设计基于Hadoop平台的Mapreduce框架的并行化技术,以使对于社区发现算法可以应用于海量数据。海量数据采集和存储系统已经正式投入使用,可以稳定的运行,高效地从新浪微博获取用户数据。重叠社区发现算法在对经典社交网络Karate俱乐部网络和美国大学足球联赛网络进行实验得到了比较满意的结果。
其他文献
农产品加工业在国际上被认为是永不衰落的朝阳产业。农产品加工业关联农业、工业和流通业,是推进农业产业化经营和发展农村工业化的有机结合点,对调整农业结构、增加农民收入
目前,我国有大量的农村剩余劳动力存在,如何解决这部分劳动力的就业问题,成为我们不得不面对的难题。本文对我国农村劳动力向国外输出进行了研究,意在探索转移农村劳动力的新途径
<正>设备维护包括设备润滑与保养,设备状态的监测与评估,设备故障的诊断与维修,备配件供应与管理,设备改造等多个业务流程。设备润滑系统是设备的血脉系统,润滑油流经设备各
目的:观察康复性技能训练对残留型精神分裂症住院患者的疗效。方法:选取住院5年以上的残留型精神分裂症患者共160例,分为研究组和对照组,每组各80例。研究组患者定期参加康复性
综述了国内外生物脱氮领域最近开发出的短程硝化反硝化、同步硝化反硝化和厌氧氨氧化等新技术,指出了这些新技术的特点以及存在的不足。重点论述了目前实现短程硝化反硝化生
从2012年起实施新的《防波堤设计与施工规范》。为了更好地理解新规范,指导设计工作,将斜坡式防波堤新旧规范进行对比,列出新规范的主要改动,除了探讨其改动的原因外,重点分析改动
新农村建设的核心问题是农民收入问题。近几年来,农业收入在我国农民总收入中所占的比重不断下降,非农业收入所占的比重不断上升。而农民非农业收入与农民外出务工相关,这说明农
<正> 江铜集团城门山铜矿有1台NG24型和1台NG30型周边辊轮传动式浓密机,分别用于铜精矿和硫精矿的脱水作业。经过几年的应用,发现此种结构的浓密机存在着运行不稳定、维修的
<正>本刊讯今年第23号强台风"菲特"于10月7日在浙闽交界处登陆,登陆时适逢天文大潮,加上风力大(沿海海面出现15—17级风速,苍南石砰实测风速为76.1米/秒),给浙江省渔港造成严
阅读是人们日常生活、学习与工作的一项重要的认知活动,同时阅读也是一种复杂的视觉活动。近几年关于弱视阅读的研究表明弱视患者存在阅读困难,Kanonidou E.等人(2010)首次采用眼