Web语料抓取中基于相似度的URL过滤规则生成算法

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:lanhan777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方法.该方法使用正则表达式将URL元素通配化,归并相同元素后划分为子集,再计算子集内URL之间的相似度,并根据相似程度较高的URL构造虚拟目录树,基于虚拟目录树生成语料爬取的URL过滤规则和分类规则.文中详细介绍虚拟目录树的生成算法,并通过实验对比不同相似度阈值对目录树生成结果和URL过滤效果的影响.
其他文献
<正>"纸·非纸——中日纸艺术展(第一回)"于2012年1月13日在中央美术学院美术馆开幕。此次展览是由中央美术学院与东京艺术大学联合主办,旨在推动亚洲当代学院艺术的研究与交
阎三妮作为河北山歌"信天游"的主要代表人物之一,她即兴演唱的民歌具有浓郁的平山地方特色。民歌中富含生活气息的词句记录着平山劳动人民千丝万缕的情感,浸透着平山人民的理
非洲猪瘟对养猪场的威胁很大,给养殖者带来了巨大的经济损失。该文对疫情后的复产措施和注意事项进行详细阐述。
<正>"核心素养"是个热词,从"核心素养体系"到"学科核心素养"已然无可争辩地成为基础教育改革的灵魂。目前,围绕历史学科"核心素养"的主题研讨会已开过几次,相关文章和书籍正
目的:探讨胰腺癌诊断中螺旋CT扫描的价值及临床意义。方法:对我院近两年收治的100例经术后病理诊断却真的额胰腺癌患者临床资料进行研究分析,患者均接受螺旋CT扫描诊断,观察
<正>主题教学法,是一种围绕教师拟定的主题并以学生探究为中心的教学方法。随着十多年课程改革的进展,不少中学历史教师在主题教学法的实践中取得了累累成果,但至今仍存在一
缅甸树萝卜(Agapetes hillii Brandis)隶属杜鹃花科(Ericaceae)树萝卜属(Agapetes D.Don ex G.Don),为附生常绿灌木,在我国主要分布于云南西双版纳和德宏州。缅甸树萝卜集观
液压系统应用广泛,高度完整的Svendborg制动系统的设计可以满足了吊斗铲涉笔大型制动应用和多功能工作制动需求,是非常安全可靠的制动系统。包括制动、液压动力组件及电子SOBO
加强基层党组织建设是落实十九大精神,全面从严治党的基本要求和重要任务,习近平新时代中国特色社会主义思想为高校基层党组织整体功能建设提供了科学的理论指导。高校基层党