分布式环境中话题过滤与排序研究

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：liuyansua

【摘要】

：

互联网的开放性、互动性和共享性深得广大网民的喜爱，网络成为网民表达思想、获取信息、与其他网民互动互通以及建立社交圈子的主要平台。用户的相互交流、话题和资源的发布、

【作者】

：

罗维

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2011年期

【关键词】

：

垃圾话题检测全局话题排序互联网可扩展性用户体验分布式环境

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网的开放性、互动性和共享性深得广大网民的喜爱，网络成为网民表达思想、获取信息、与其他网民互动互通以及建立社交圈子的主要平台。用户的相互交流、话题和资源的发布、相互的咨询和帮助、问题的讨论形成了丰富的知识网络，基于网络的讨论有助于提高组织中的协作、知识创新和知识传播。但是如何对互联网中的资源进行分类、整理、排序，将优质、有效的资源推荐给用户，以有效地提高互联网资源的分享和利用，具有重要的意义。话题检测即是提高网络资源利用效率的关键技术之一。　　互联网内容爆炸式增长对人类知识的积累和传播起到了一个非常大的作用。但是与此同时信息的爆炸给话题检测技术带来了极大的挑战。传统的话题检测技术由于采用文本聚类方法，其时间开销随着文档规模的增大而呈指数级递增，而话题检测系统往往有一定的实时性要求，因此在大规模数据集上进行话题检测成为一个难点。本文分析了当前话题检测系统在处理规模和可扩展性方面的不足，将分布式计算框架和话题检测技术结合起来设计并实现了一个分布式话题检测系统。此分布式话题检测系统将话题检测分为局部话题检测子系统、全局话题排序子系统，通过将话题检测中计算密集的部分分布到多个计算节点同时计算，从而提高了话题检测系统处理的规模。同时本分布式话题检测系统不依赖于数据库系统，数据通讯层采用文件的形式，使得系统具备良好的可扩展性。　　其次本文对话题检测系统中的垃圾话题进行了分析，将垃圾话题分为结构性垃圾话题、内容性重复性垃圾话题。在总结了垃圾话题的特征后对这些特征进行了定量化计算，提出了基于分类的垃圾话题检测方法，并将此方法应用到分布式话题检测系统中，通过在局部节点上检测并过滤垃圾话题，避免了垃圾话题在全局合并和话题全局排序时损害话题检测系统的效果，从而提高了分布式话题检测系统的整体效果。　　在大规模话题检测系统中，产生的话题数量非常多，而用户不可能浏览每一个话题，如何对话题进行有效排序，将最有价值的话题优先提供给用户，是一个非常值得关注的问题。本文分析了影响话题排序效果的话题特征，并将各个特征融合构建了一个综合的话题排序方法，从而提升了分布式话题检测系统的效果和用户体验。

其他文献

智能交通中基于视频的交通流量检测算法研究

智能交通是解决当今由于经济发展所带来的交通问题的根本办法。交通信息的获取是智能交通中的一个基本问题。传统上，这些数据是通过地感线圈给出的，但是由于其测量范围的限制，已

学位

视频监控智能交通系统车辆排队检测摄像机标定交通流量检测三帧差法

基于请求追踪的精确功耗控制技术的研究

进入21世纪以来，以门户网站、搜索引擎、网络社区和电子商务为代表的多层网络服务成为人类日常生活中不可或缺的部分。随着网络用户量和数据量的剧增，越来越多的互联网服务提供

学位

多层网络服务系统能耗效率诊断反馈循环控制算法请求追踪精确功耗控制数据中心CPU动态调频

Web辅助翻译系统的设计与实现

近年来，统计机器翻译技术取得了快速的发展，翻译质量得到了较大的提高。然而，对于很多需要精确翻译的应用场景，自动翻译结果还不能满足实际需求，还需要借助人工翻译或辅助翻译进一

学位

辅助翻译人机交互AC自动机卡尔曼滤波候选译文排序

描述Web服务的一阶动态逻辑

在网络飞速发展的今天，Web服务已成为一种非常重要的技术．Web服务的形式化表示是面向服务的计算的基础，形式化Web服务不仅可以更好地理解Web服务的本质，而且可以更深入地分析Web

学位

一阶动态逻辑Web服务动态性质形式化描述

BitTorent系统激励机制研究

BitTorrent系统是一种基于P2P(Peer-to-Peer，P2P)技术的文件共享应用系统，其突破了传统C/S网络应用模式的局限，能够快速、高效实现大文件的共享。系统中的节点共享文件资源，每个

学位

BitTorrent系统搭便车行为剥削行为激励机制文件共享应用系统对等网络区分服务机制

网格环境中推荐信任与访问控制研究

网格规模大、开放、动态的特点使得网格安全研究尤为重要。在网格安全研究中,访问控制是从网格计算的整体角度上建立的安全机制,是网格安全研究的重点和难点。传统的访问控制

学位

网格环境推荐信任访问控制RBAC模型

基于数学形态学的指纹识别系统研究

身份识别技术,是鉴定人员身份的一种技术,是人们日常生活中不可缺少的重要安全防范技术之一。生物识别技术是身份识别技术的一种,具有区别与其它传统识别技术的特殊优越性。

学位

数学形态学指纹识别系统点模式匹配图像处理

基于人脸特征和面部运动单元的卡通生成系统

随着数字媒体和动漫产业的不断发展，在某些情况下人们已经不再满足于使用真实照片，而是追求真实照片的卡通化。如何利用计算机将已有的真实人脸图片转变为具有卡通效果的人脸图

学位

人脸特征卡通人脸面部运动单元Delaunay三角纹理映射

Iteration-free CPDL的符号判定算法及应用研究

命题动态逻辑(PDL)是一种应用模态逻辑,用于程序行为的推理。Iteration-free CPDL是一种无迭代算子而含有逆算子的命题动态逻辑。包括Iteration-free CPDL在内的各种命题动态

学位

命题动态逻辑符号判定算法语义Web服务组合有序二叉决策图

超大规模信息网络社区结构研究

信息网络是信息安全等应用领域重要的研究对象，其中一个重要的研究内容是寻找社区结构。网络的社区结构是指整个网络可以分成多个节点集合(社区)，每个集合内的节点之间联系紧密

学位

超大规模网络信息网络预处理社区结构信息安全凝聚聚类图划分

分布式环境中话题过滤与排序研究

其他学术论文