面向领域的高质量微博用户发现研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:spredsheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博平台等网络新兴媒体已经慢慢取代传统新闻媒介,成为现代人信息获取、信息分享和信息交流的主要渠道。现有的研究工作大多侧重用户的影响力,而没有着重考虑用户作为信息源,提供领域相关信息的价值。面向领域的高质量微博用户发现以微博用户为研究对象,关注微博用户提供领域相关信息的价值,从大量微博用户中找到那些领域相关的高质量用户。这些用户能持续提供有价值的领域信息。本文将此任务根据其流程拆解成两个子问题(高质量微博用户的识别和领域相关用户的检索)分别进行研究。  本文工作和取得的成果如下:  高质量微博用户的识别是指:给定某领域内的用户集合,对这些用户排序得到高质量的微博用户。本文把这部分工作刻画成为一个用户排序问题。质量的定义依赖于场景,在本文的研究中,用户的质量取决于该用户所发微博的整体质量。大部分相关工作中只考虑微博内容的质量,没有着重考虑微博的数量因素。并且往往利用到了用户的全量微博,考虑到微博的大量和多样性,这样的做法有可能引入大量噪音,应用也有着很大的计算量。针对这两个问题,本文提出基于带URL微博的高质量用户识别方案。通过观察发现,微博用户所发带URL的微博是反应用户质量的一个非常好的因素。基于这个发现,本文只利用带URL微博这一子集(经统计发现,基本占全量微博的20%),构建了用户-用户转发图以及用户-URL转发和发布图,并以此作为本文算法的输入。然后本文提出了一个基于图的迭代排序算法UBRank,并以此来描述用户和对应带URL微博之间的增强反馈关系。本文基于新浪微博语料上的实验验证了本文方法的高效性和优越性:(1)减少了近80%微博的计算量;(2)提出的方法得到的排序与人工评判的标注序之间有着高度一致性,实验结果在准确率,NDCG和Kendallsτ方面优于多个对比实验。  领域相关用户的检索是指:给定特定领域,从海量微博用户中找到那些与该领域相关的用户。该部分任务得到的领域相关用户集合,是下一步高质量微博用户发现的基础。该部分任务是一个典型的检索问题。针对此任务,本文尝试把原始领域词与微博用户的匹配,转化为领域词和标签的匹配,并通过词语间的语义相似度解决。提出了基于维基百科的显式向量表示法的语义相似度计算方案。本文方法得到的向量表示是显式的,直观符合人类正常理解,相比word2vec或者LSA等对应的隐语义,对最后得到的结果有着良好的可解释性。实验结果表明,上述方法针对领域相关用户的检索,有着良好的效果;并且通过新旧两份维基百科资源的对比,发现该方法有着良好的扩展性,随着外部资源的更新和增加,实验的效果会得到进一步的提升。
其他文献
本文首先研究了定题搜索Robot中的一些关键技术,包括Robot爬行的原理,Robot的基本组成,机器人排斥协议,以及经典定题搜索算法与网页相关度评价,并提出了定题搜索算法的改进方案。
在军事指控领域中,伴随着硬件规模和复杂度的不断加大,以及苛刻的实时性能需求和各个平台之间实时要求的巨大差异,对于硬件平台之上的实时操作系统要求越来越高.但是当前的实
在本文中对已有两种算法进行研究和分析的基础上,提出了一些新的建议。本文的工作大致可以归纳如下:① 在系统算法中给出一种新的启发策略,并实现了修改后的算法。同时,用部分实
本文完成了一个基于Clark&Wilson模型的信息管理安全子系统(SSBCWM)的设计和实现.这一模型通过密切结合密码保护,触发器结构和改进的物理存储机制增强了数据库管理的安全性能
本课题旨在用π-演算对openMosix的一些基本特征进行解释,选取了进程迁移作为切入点,重点研究在进程迁移的情况下,进程间的互操作关系,用π-演算给予了形式化的描述。本文的主要
本文介绍了构造Java企业级系统的最新平台——J2EE,详细阐述了它的组成、基于J2EE构建企业系统常用的主要技术,包括Servlet、JSP、企业JavaBean和一组常用API;研究了J2EE的在企
随着互联网的快速发展,推荐系统在帮助商家提升销量方面扮演着越来越重要的角色。现有工作通常仅仅挖掘了数据中的用户个人喜好或时间信息,而忽略了大众情感对用户购买决策的影
语义网以XML为基础,用RDF统一资源描述格式,并以Ontology作为词汇共享与语义交换的媒介。本文首先对语义网作了简要的介绍,内容包括语义网的基本概念、层次结构及应用。对URI、X
近年来,随着金融危机、劳动力和原材料成本上涨、人民币升值等多种因素的持续影响,全球经济增幅放缓,服装企业作为传统的制造型行业也受到影响。现代服装业具有产品生命周期短、
本文所构建的协作学习系统,是OGSA在远程教育中的实际应用。本系统是一种开放的、可扩展的、适应网络教学需求的协同教学系统,通过各个专门功能的Web Service,建立相关工具集来