面向领域的高质量微博用户发现研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：spredsheng

【摘要】

：

微博平台等网络新兴媒体已经慢慢取代传统新闻媒介，成为现代人信息获取、信息分享和信息交流的主要渠道。现有的研究工作大多侧重用户的影响力，而没有着重考虑用户作为信息源，提

【作者】

：

叶永君

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

网络平台用户识别统一资源定位符语义相似度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

微博平台等网络新兴媒体已经慢慢取代传统新闻媒介，成为现代人信息获取、信息分享和信息交流的主要渠道。现有的研究工作大多侧重用户的影响力，而没有着重考虑用户作为信息源，提供领域相关信息的价值。面向领域的高质量微博用户发现以微博用户为研究对象，关注微博用户提供领域相关信息的价值，从大量微博用户中找到那些领域相关的高质量用户。这些用户能持续提供有价值的领域信息。本文将此任务根据其流程拆解成两个子问题（高质量微博用户的识别和领域相关用户的检索）分别进行研究。　　本文工作和取得的成果如下:　　高质量微博用户的识别是指:给定某领域内的用户集合，对这些用户排序得到高质量的微博用户。本文把这部分工作刻画成为一个用户排序问题。质量的定义依赖于场景，在本文的研究中，用户的质量取决于该用户所发微博的整体质量。大部分相关工作中只考虑微博内容的质量，没有着重考虑微博的数量因素。并且往往利用到了用户的全量微博，考虑到微博的大量和多样性，这样的做法有可能引入大量噪音，应用也有着很大的计算量。针对这两个问题，本文提出基于带URL微博的高质量用户识别方案。通过观察发现，微博用户所发带URL的微博是反应用户质量的一个非常好的因素。基于这个发现，本文只利用带URL微博这一子集（经统计发现，基本占全量微博的20％），构建了用户-用户转发图以及用户-URL转发和发布图，并以此作为本文算法的输入。然后本文提出了一个基于图的迭代排序算法UBRank，并以此来描述用户和对应带URL微博之间的增强反馈关系。本文基于新浪微博语料上的实验验证了本文方法的高效性和优越性:(1)减少了近80％微博的计算量;(2)提出的方法得到的排序与人工评判的标注序之间有着高度一致性，实验结果在准确率，NDCG和Kendallsτ方面优于多个对比实验。　　领域相关用户的检索是指:给定特定领域，从海量微博用户中找到那些与该领域相关的用户。该部分任务得到的领域相关用户集合，是下一步高质量微博用户发现的基础。该部分任务是一个典型的检索问题。针对此任务，本文尝试把原始领域词与微博用户的匹配，转化为领域词和标签的匹配，并通过词语间的语义相似度解决。提出了基于维基百科的显式向量表示法的语义相似度计算方案。本文方法得到的向量表示是显式的，直观符合人类正常理解，相比word2vec或者LSA等对应的隐语义，对最后得到的结果有着良好的可解释性。实验结果表明，上述方法针对领域相关用户的检索，有着良好的效果;并且通过新旧两份维基百科资源的对比，发现该方法有着良好的扩展性，随着外部资源的更新和增加，实验的效果会得到进一步的提升。

其他文献

定题搜索引擎Robot中若干关键技术的研究

本文首先研究了定题搜索Robot中的一些关键技术，包括Robot爬行的原理，Robot的基本组成，机器人排斥协议，以及经典定题搜索算法与网页相关度评价，并提出了定题搜索算法的改进方案。

学位

搜索引擎Robot元搜索引擎分布式系统定题搜索算法

面向军事指控领域的新型实时操作系统内存分配器的研究与设计

在军事指控领域中,伴随着硬件规模和复杂度的不断加大,以及苛刻的实时性能需求和各个平台之间实时要求的巨大差异,对于硬件平台之上的实时操作系统要求越来越高.但是当前的实

学位

实时操作系统资源核内存数据库军事实时操作系统

非布尔可满足性问题求解算法的研究

在本文中对已有两种算法进行研究和分析的基础上，提出了一些新的建议。本文的工作大致可以归纳如下：① 在系统算法中给出一种新的启发策略，并实现了修改后的算法。同时，用部分实

学位

可满足性问题非布尔问题系统求解随机搜索启发策略噪声参数

A Security Subsystem Based on Clark&Wilson Model (Ssbcwm) Implemented on Payroll Management Syst

本文完成了一个基于Clark&Wilson模型的信息管理安全子系统(SSBCWM)的设计和实现.这一模型通过密切结合密码保护,触发器结构和改进的物理存储机制增强了数据库管理的安全性能

学位

安全子系统Clark&Wilson模型三层结构触发器安全套接层协议(SSL)

Linux下集群系统openMosix的π-演算模型

本课题旨在用π-演算对openMosix的一些基本特征进行解释，选取了进程迁移作为切入点，重点研究在进程迁移的情况下，进程间的互操作关系，用π-演算给予了形式化的描述。本文的主要

学位

集群系统进程迁移π演算Linux操作系统openMosix

J2EE及其在信贷风险管理系统中的应用研究

本文介绍了构造Java企业级系统的最新平台——J2EE，详细阐述了它的组成、基于J2EE构建企业系统常用的主要技术，包括Servlet、JSP、企业JavaBean和一组常用API；研究了J2EE的在企

学位

J2EE组件层Web信贷风险管理系统

基于上下文背景感知的个性化推荐系统

随着互联网的快速发展，推荐系统在帮助商家提升销量方面扮演着越来越重要的角色。现有工作通常仅仅挖掘了数据中的用户个人喜好或时间信息，而忽略了大众情感对用户购买决策的影

学位

推荐系统用户行为模型参数估计情感感知

语义网及其在电子商务中的应用研究

语义网以XML为基础，用RDF统一资源描述格式，并以Ontology作为词汇共享与语义交换的媒介。本文首先对语义网作了简要的介绍，内容包括语义网的基本概念、层次结构及应用。对URI、X

学位

语义网逻辑推理电子商务

服装行业面向店铺的商品企划系统

近年来，随着金融危机、劳动力和原材料成本上涨、人民币升值等多种因素的持续影响，全球经济增幅放缓，服装企业作为传统的制造型行业也受到影响。现代服装业具有产品生命周期短、

学位

服装企业商品企划管理体制销售业绩

面向网格的协作学习系统的研究与实现

本文所构建的协作学习系统，是OGSA在远程教育中的实际应用。本系统是一种开放的、可扩展的、适应网络教学需求的协同教学系统，通过各个专门功能的Web Service，建立相关工具集来

学位

远程教育协作学习系统Web服务网格计算机网络

面向领域的高质量微博用户发现研究

其他学术论文