搜索引擎增量式搜集的实现与评测

来源 :计算机工程 | 被引量 : 0次 | 上传用户:mackolxsbou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的周期性集中式搜索(Crawler)的弱点和增量式Crawler的难点,提出预测更新策略,给出判别网页更新的MD5算法、URL调度算法和URL缓存算法,描述系统各个模块的分布式构架的实现,建立测试集数据对算法进行评测。该系统在北大天网搜索引擎上运行半年多,更新周期缩短了20天,变化预测命中率达到79.4%,提高了时效性、扩展性和稳定性。
其他文献
城市地下综合管廊作为现代化城市一项新型、综合性的市政公用基础设施工程,具有与传统分散敷设模式的城市管网不可比拟的优势,但由于其投资巨大、拆迁困难、收益甚微等而一度
皮肤隐球菌感染在近年来逐渐受到重视,占隐球菌感染的10%~15%。长期使用糖皮质激素是皮肤隐球菌的主要病因之一[1]。但同时合并鼻疽奴卡菌感染少见。现报道1例新型隐球菌合并
目的能力比对检验(Proficiency testing,PT)是室间质评的重要方案,通过参加美国病理家学会(College of American Pathologist,CAP)能力比对检验,监控实验室检验能力,确保检测结果