BBS在线话题检测技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:zy205806
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,越来越多的人开始在网络上互相交流。BBS作为一种受到广泛欢迎的互联网应用,极大的方便了人们的网络交互。可是,随着BBS中包含信息量的不断增长,人们也越来越难以在其中找到并参与自己关心的话题。话题检测与跟踪技术是一种基于事件的信息组织技术,可以从连续的信息流中检测新产生的话题,以及对已有话题的相关后续内容进行跟踪。   本文针对BBS环境,使用话题检测与跟踪技术对其话题信息进行挖掘,将BBS中的帖子按照所对应的话题进行归类,有效地管理和组织了BBS的信息。用户可以借助话题检测技术,更加容易地寻找到自己关心的话题,并获知话题所衍生出的新内容。   首先,本文对话题检测领域目前的研究成果进行了总结,并对BBS环境下在线话题检测所面临的独特问题进行了分析。   然后,本文提出了一种针对BBS环境的在线话题检测算法,主要包含如下两方面内容:(1)BBS文本具有话题发散、易偏移的特点,本文向传统在线话题检测算法框架中添加了代表post选取步骤。在该步骤中,本文使用Markov模型对thread进行结构分析,然后对。thread中的各个post进行重要度排序,从而对重要度较低的噪声post进行过滤;(2)聚类算法被广泛应用于在线话题检测中,本文在经典的单路径聚类基础上,通过引入基于AgingTheory的聚类候选集生成策略,对算法的运行效率进行了改进。   最后,本文对算法的实验平台进行了设计,编程实现了包括Web抓取、文本抽取、话题聚类算法等程序,并围绕算法进行了一系列相关实验。   总之,本文对BBS环境下的在线话题检测技术研究做出了一定贡献,并对其他互联网交互式应用的话题检测研究具有借鉴意义。
其他文献
自然场景的动态模拟一直是虚拟现实和计算机图形学中一个重要的研究领域,它在计算机动画、影视制作、虚拟现实、三维数字展示和战场模拟方面都有非常广泛的应用。风作为自然
传统搜索引擎技术是基于关键词字符匹配的全文检索技术,主要借助目录、索引和关键词等方法来实现。由于提交的查询语句存在歧义性和不明确性,因此返回给用户的搜索集合中往往存
现实世界中的场景丰富多彩、绚丽多姿,这些场景有着非常高的动态范围和对比度。场景的动态范围被定义为场景中最亮部分的亮度值与最暗部分的亮度值之比。传统的显示设备如CRT
多媒体会议作为多媒体应用的一个重要组成部分,为社会性的信息交流发挥了巨大的作用。经过多年的发展,主流的多媒体会议系统分为两种,一种是基于H.323协议的,一种是基于SIP协
I/O性能优化是海量数据处理性能优化的核心问题之一。MapReduce计算模型已经广泛应用于海量数据处理,然而该计算模型并没有提供I/O性能优化的框架。运用云计算技术,并结合工作
随着技术的发展,机器人技术将逐步地走入家庭。同时由于全球范围内的人口老龄化和医疗服务成本的上升,家庭服务机器人被看作是一个完美的解决方案。中国科学院管家机器人项目的
虚拟化技术通过对计算资源进行抽象而提供集中和共享资源的IT解决方案,能够帮助用户降低成本、优化利用率,进而打造一个供需动态平衡的基础设施平台。虚拟机是这个平台的最基
作为一种呈现信息的新颖方式,增强现实(AR)使人们能够以直接和直观的方式与物理世界进行交互。通过增强现实应用,用户可以在不需要额外硬件媒介的情况下,进行直观的具体的操控。
为了提高无线胶囊内窥镜拍摄到的图像的质量,降低总体功耗、延长胶囊内窥镜连续工作时间,本文提出了一种新型的无线胶囊内窥镜设计方案。通过采用集成了硬件压缩引擎的图像传感
随着互联网应用的不断创新与发展,网络蠕虫等高性能网络安全事件的性能也日益复杂,造成网络异常事件频频发生。网络安全问题已经不仅仅只涉及到用户个人的利益,有时甚至会对