论文部分内容阅读
信息技术的进步,加快了互联网的普及。随着网民数量的增加,各类web站点的大量上线,web页面的大量增加或更新,互联网之中已经逐渐诞生了类似于现实社会的社会网络(social network)。社会网络分析(social network analysis)将web社会看作一个网络或图,图结点则是社会中的对象,结点之间的边则是社会中对象之间的社会关系。因为社会对象本身的属性比较复杂,对应的社会对象之间的关系也多种多样,因此该图往往很复杂。社区挖掘(community mining)是社会网络分析研究领域中的一个研究方向。在网络中挖掘自发而成的、有用的、相对稳定的社区,对网络信息的获取与挖掘、信息推荐以及网络演化的预测具有重要的研究价值。不仅如此,社区挖掘技术还极具商业价值,社区挖掘技术能发现隐藏在网页之下的信息,实现客户市场的细分,商业公司可以据此实行目标性更强的营销策略。目前大多数已有的社区挖掘方案都是将社会网络建模为同质(homogeneous)网络,然而真实的社会网络中却存在着大量异质(heterogeneous)的web对象,web对象之间的关系也多种多样,因此,基于同质网络的社区挖掘方案难免会无法准确地区分各类web对象以及对象之间的关系。针对目前web社区挖掘基于同质网络的现状,通过考察论坛社区结构,本文提出了一种基于异质网络的社区挖掘方案,可以更准确更全面地表示社区结构,并对本文的研究内容——意见领袖社区进行了定义。借鉴经典的web结构挖掘算法HITS算法的页面权威度概念与PageRank算法的投票机制,提出一种针对异质网络结构的web论坛意见领袖社区挖掘算法FOLCM(Forum Opinion Leaders Community Mining),用以量化论坛用户的社区影响力。并在此基础上设计实现了一个完整可用的社区挖掘系统,用以挖掘论坛社区中具有较高舆论导向能力的意见领袖群体。使用大量真实的web论坛数据进行了实验,实验证明,本文提出的社区挖掘方案能够较准确地挖掘互联网论坛中的意见领袖社区。