大规模Web论坛采集技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 11次 | 上传用户:TemplarLee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及和对人们日常生活影响的不断深入,Web论坛富于交互性,即时性,开放性的特点逐渐吸引了大批网络用户,而且还呈不断增长的趋势,其内容涵盖的范围已从早期的少量有限的主题扩展到技术,商业,新闻,娱乐,体育等日常生活的方方面面,在组织形式上也不断细化,具有相同兴趣和关注范围的人们能够方便地在论坛提供的虚拟空间中聚集,以极高的效率实现交流的需要,而获得特定的信息,具有很强的针对性和广泛的网民基础,在信息传递,舆论传播,情感交流,娱乐休闲等诸多领域都具有重大的影响力。这使得Web论坛已经成为我们不能忽略的信息宝库,对Web论坛的信息采集的紧迫性也就越来越强烈。然而,由于现有采集技术的制约,对Web论坛的信息获取受到了很大的阻碍。我们主要的工作包括:1)动态网页URL的分类算法2) Web论坛中的逻辑结构发现3)主题索引页面---主题相关判断算法4)版面中的主题索引页面自动扩展算法5)基于站点的非阻塞socket通用Web采集架构实验和实践证明,我们的方法成功地解决了Web论坛采集中的根本性难题,具有良好的泛化性,扩展性和实用性。
其他文献
随着科技的发展,许多领域对计算资源的需求量越来越大,单台计算机难以满足要求,同时互联网上却存在着大量的分散、异构、自治的资源,需求关系难以平衡,从而造成资源浪费。近
随着多媒体技术的发展和计算机性能的提高,基于图像处理的智能监控系统有很大的需求并得到了越来越广泛的应用,比如交通、公安、医疗、军事、电信、金融等系统、领域的安全监控
随着Internet和多媒体业务的飞速发展,传统IP网络所采用的“尽力而为”的转发机制,已经不能满足用户的要求。没有提供QOS保证则是影响IP网络向综合网络发展的主要因素。 QoS
CNS多彩信息系统全称Color Notes System,是由Motorola公司提出的一种强大的信息转换平台。CNS系统的提出削弱了当前移动彩信业务的局限性,刺激了多媒体彩信业务的发展。交互式
因特网打印协议IPP(InternetPrintingProtocol)是基于HTTP协议的应用层协议。2000年IETF组织发布了IPP版本1.1,它是网上传送和管理打印任务的国际标准。本文主要研究了IPP协议
利用图像处理技术对黄瓜叶部白粉病害进行检测,可以准确认识黄瓜病害,保证我国粮食产量与质量。基于图像处理的黄瓜叶部白粉病害的检测技术的研究在国内刚刚起步。本文总结国
随着互联网经济的快速发展,互联网已然成为带动国民经济发展的新引擎,如何更快、更好的为更多用户提供互联网信息服务成为互联网基础服务提供商面临的关键问题,因此对于研究
本文根据CDMA2000和WCDMA前向链路的数据传输特点,抽象出一个理论模型,并研究一种递阶SIR分配和速率分配算法,用于前向链路的大规模数据传输。其中数据用户的Qos通过时延、误码
无线传感器网络需要面临各种各样的安全威胁,如节点暴露在不安全的环境中时易被俘获;采用无线电信号传播时易被截获等。因此网络安全问题是无线传感器网络中的一个重要研究方
随着计算机和通信技术的发展,基于Internet的应用在过去的十几年中不断增长,随之而来的网络拥塞问题也越来越严重,现有的拥塞控制算法远远无法满足网络的需求。目前应用最为广泛