论文部分内容阅读
微博平台等网络新兴媒体已经慢慢取代传统新闻媒介,成为现代人信息获取、信息分享和信息交流的主要渠道。现有的研究工作大多侧重用户的影响力,而没有着重考虑用户作为信息源,提供领域相关信息的价值。面向领域的高质量微博用户发现以微博用户为研究对象,关注微博用户提供领域相关信息的价值,从大量微博用户中找到那些领域相关的高质量用户。这些用户能持续提供有价值的领域信息。本文将此任务根据其流程拆解成两个子问题(高质量微博用户的识别和领域相关用户的检索)分别进行研究。 本文工作和取得的成果如下: 高质量微博用户的识别是指:给定某领域内的用户集合,对这些用户排序得到高质量的微博用户。本文把这部分工作刻画成为一个用户排序问题。质量的定义依赖于场景,在本文的研究中,用户的质量取决于该用户所发微博的整体质量。大部分相关工作中只考虑微博内容的质量,没有着重考虑微博的数量因素。并且往往利用到了用户的全量微博,考虑到微博的大量和多样性,这样的做法有可能引入大量噪音,应用也有着很大的计算量。针对这两个问题,本文提出基于带URL微博的高质量用户识别方案。通过观察发现,微博用户所发带URL的微博是反应用户质量的一个非常好的因素。基于这个发现,本文只利用带URL微博这一子集(经统计发现,基本占全量微博的20%),构建了用户-用户转发图以及用户-URL转发和发布图,并以此作为本文算法的输入。然后本文提出了一个基于图的迭代排序算法UBRank,并以此来描述用户和对应带URL微博之间的增强反馈关系。本文基于新浪微博语料上的实验验证了本文方法的高效性和优越性:(1)减少了近80%微博的计算量;(2)提出的方法得到的排序与人工评判的标注序之间有着高度一致性,实验结果在准确率,NDCG和Kendallsτ方面优于多个对比实验。 领域相关用户的检索是指:给定特定领域,从海量微博用户中找到那些与该领域相关的用户。该部分任务得到的领域相关用户集合,是下一步高质量微博用户发现的基础。该部分任务是一个典型的检索问题。针对此任务,本文尝试把原始领域词与微博用户的匹配,转化为领域词和标签的匹配,并通过词语间的语义相似度解决。提出了基于维基百科的显式向量表示法的语义相似度计算方案。本文方法得到的向量表示是显式的,直观符合人类正常理解,相比word2vec或者LSA等对应的隐语义,对最后得到的结果有着良好的可解释性。实验结果表明,上述方法针对领域相关用户的检索,有着良好的效果;并且通过新旧两份维基百科资源的对比,发现该方法有着良好的扩展性,随着外部资源的更新和增加,实验的效果会得到进一步的提升。