论文部分内容阅读
互联网的开放性、互动性和共享性深得广大网民的喜爱,网络成为网民表达思想、获取信息、与其他网民互动互通以及建立社交圈子的主要平台。用户的相互交流、话题和资源的发布、相互的咨询和帮助、问题的讨论形成了丰富的知识网络,基于网络的讨论有助于提高组织中的协作、知识创新和知识传播。但是如何对互联网中的资源进行分类、整理、排序,将优质、有效的资源推荐给用户,以有效地提高互联网资源的分享和利用,具有重要的意义。话题检测即是提高网络资源利用效率的关键技术之一。
互联网内容爆炸式增长对人类知识的积累和传播起到了一个非常大的作用。但是与此同时信息的爆炸给话题检测技术带来了极大的挑战。传统的话题检测技术由于采用文本聚类方法,其时间开销随着文档规模的增大而呈指数级递增,而话题检测系统往往有一定的实时性要求,因此在大规模数据集上进行话题检测成为一个难点。本文分析了当前话题检测系统在处理规模和可扩展性方面的不足,将分布式计算框架和话题检测技术结合起来设计并实现了一个分布式话题检测系统。此分布式话题检测系统将话题检测分为局部话题检测子系统、全局话题排序子系统,通过将话题检测中计算密集的部分分布到多个计算节点同时计算,从而提高了话题检测系统处理的规模。同时本分布式话题检测系统不依赖于数据库系统,数据通讯层采用文件的形式,使得系统具备良好的可扩展性。
其次本文对话题检测系统中的垃圾话题进行了分析,将垃圾话题分为结构性垃圾话题、内容性重复性垃圾话题。在总结了垃圾话题的特征后对这些特征进行了定量化计算,提出了基于分类的垃圾话题检测方法,并将此方法应用到分布式话题检测系统中,通过在局部节点上检测并过滤垃圾话题,避免了垃圾话题在全局合并和话题全局排序时损害话题检测系统的效果,从而提高了分布式话题检测系统的整体效果。
在大规模话题检测系统中,产生的话题数量非常多,而用户不可能浏览每一个话题,如何对话题进行有效排序,将最有价值的话题优先提供给用户,是一个非常值得关注的问题。本文分析了影响话题排序效果的话题特征,并将各个特征融合构建了一个综合的话题排序方法,从而提升了分布式话题检测系统的效果和用户体验。