分布式环境中话题过滤与排序研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:liuyansua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的开放性、互动性和共享性深得广大网民的喜爱,网络成为网民表达思想、获取信息、与其他网民互动互通以及建立社交圈子的主要平台。用户的相互交流、话题和资源的发布、相互的咨询和帮助、问题的讨论形成了丰富的知识网络,基于网络的讨论有助于提高组织中的协作、知识创新和知识传播。但是如何对互联网中的资源进行分类、整理、排序,将优质、有效的资源推荐给用户,以有效地提高互联网资源的分享和利用,具有重要的意义。话题检测即是提高网络资源利用效率的关键技术之一。   互联网内容爆炸式增长对人类知识的积累和传播起到了一个非常大的作用。但是与此同时信息的爆炸给话题检测技术带来了极大的挑战。传统的话题检测技术由于采用文本聚类方法,其时间开销随着文档规模的增大而呈指数级递增,而话题检测系统往往有一定的实时性要求,因此在大规模数据集上进行话题检测成为一个难点。本文分析了当前话题检测系统在处理规模和可扩展性方面的不足,将分布式计算框架和话题检测技术结合起来设计并实现了一个分布式话题检测系统。此分布式话题检测系统将话题检测分为局部话题检测子系统、全局话题排序子系统,通过将话题检测中计算密集的部分分布到多个计算节点同时计算,从而提高了话题检测系统处理的规模。同时本分布式话题检测系统不依赖于数据库系统,数据通讯层采用文件的形式,使得系统具备良好的可扩展性。   其次本文对话题检测系统中的垃圾话题进行了分析,将垃圾话题分为结构性垃圾话题、内容性重复性垃圾话题。在总结了垃圾话题的特征后对这些特征进行了定量化计算,提出了基于分类的垃圾话题检测方法,并将此方法应用到分布式话题检测系统中,通过在局部节点上检测并过滤垃圾话题,避免了垃圾话题在全局合并和话题全局排序时损害话题检测系统的效果,从而提高了分布式话题检测系统的整体效果。   在大规模话题检测系统中,产生的话题数量非常多,而用户不可能浏览每一个话题,如何对话题进行有效排序,将最有价值的话题优先提供给用户,是一个非常值得关注的问题。本文分析了影响话题排序效果的话题特征,并将各个特征融合构建了一个综合的话题排序方法,从而提升了分布式话题检测系统的效果和用户体验。
其他文献
智能交通是解决当今由于经济发展所带来的交通问题的根本办法。交通信息的获取是智能交通中的一个基本问题。传统上,这些数据是通过地感线圈给出的,但是由于其测量范围的限制,已
进入21世纪以来,以门户网站、搜索引擎、网络社区和电子商务为代表的多层网络服务成为人类日常生活中不可或缺的部分。随着网络用户量和数据量的剧增,越来越多的互联网服务提供
近年来,统计机器翻译技术取得了快速的发展,翻译质量得到了较大的提高。然而,对于很多需要精确翻译的应用场景,自动翻译结果还不能满足实际需求,还需要借助人工翻译或辅助翻译进一
在网络飞速发展的今天,Web服务已成为一种非常重要的技术.Web服务的形式化表示是面向服务的计算的基础,形式化Web服务不仅可以更好地理解Web服务的本质,而且可以更深入地分析Web
BitTorrent系统是一种基于P2P(Peer-to-Peer,P2P)技术的文件共享应用系统,其突破了传统C/S网络应用模式的局限,能够快速、高效实现大文件的共享。系统中的节点共享文件资源,每个
网格规模大、开放、动态的特点使得网格安全研究尤为重要。在网格安全研究中,访问控制是从网格计算的整体角度上建立的安全机制,是网格安全研究的重点和难点。传统的访问控制
身份识别技术,是鉴定人员身份的一种技术,是人们日常生活中不可缺少的重要安全防范技术之一。生物识别技术是身份识别技术的一种,具有区别与其它传统识别技术的特殊优越性。
随着数字媒体和动漫产业的不断发展,在某些情况下人们已经不再满足于使用真实照片,而是追求真实照片的卡通化。如何利用计算机将已有的真实人脸图片转变为具有卡通效果的人脸图
命题动态逻辑(PDL)是一种应用模态逻辑,用于程序行为的推理。Iteration-free CPDL是一种无迭代算子而含有逆算子的命题动态逻辑。包括Iteration-free CPDL在内的各种命题动态
信息网络是信息安全等应用领域重要的研究对象,其中一个重要的研究内容是寻找社区结构。网络的社区结构是指整个网络可以分成多个节点集合(社区),每个集合内的节点之间联系紧密