Deep Web数据采集查询构造方法研究

来源 :计算机科学与探索 | 被引量 : 0次 | 上传用户:yingzi9252
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到这些数据,影响了获取到的知识资源的覆盖率,如何高效地采集这些数据并加以利用非常具有挑战性。为此对现有的Deep Web数据采集的查询构造方法进行了详细分析,分别介绍了针对不同类型的表单对应的Deep Web数据采集查询构造方法;总结了现有表层化方式的Deep Web数据采集查
其他文献
21世纪围绕亚太地区的区域经贸法治建设,出现了美国主导的"规则治理"与中国主导的"政策治理"两种模式。前者以《跨太平洋伙伴关系协定》为代表,采纳"完全契约"的缔约模式,对
网络购物平台的兴起和发展,改变了人们传统购物方式,“足不出户”的便利以及省去中间费用的低价诱惑让无数消费者沦为“剁手党”。当然,看好网购的不只有“卖家”和“买家”,还有
以往关于高校教师的心理健康状况的研究常使用SCL-90作为研究工具,但各研究的结果却有很大的差异。为了解高校教师心理健康的真实状况以及相关的影响因素,本研究采用元分析的
绿色建筑设计策略在建筑工程中的应用越来越广泛。文章以绿色建筑设计为切入点,结合当前绿色建筑设计策略在我国建筑工程中的应用现状,做简要分析。
阐述了国内外农业生产智能化发展现状,分析了我国农业生产智能化存在的问题,提出促进我国农业生产智能化发展的对策建议。
目前对于“Patron—Driven Acquisition”,学界出现了多种译法,但是读者主导式采购最为恰当。凑者主导式采购大致可以分为由馆际互借引发的读者主导式采购和非馆际互借引发的读
油菜花角期是植株生长发育最旺盛的时期。这时油菜植株内部养分运转,由开花以前的营养生长为中心到开花结角期逐步转到以生殖生长为中心。因此,这时的田间管理应以促进生殖
针对《红楼梦》中的薛词《临江仙.柳絮》词中“好风凭/频借力,送我上青云”二句,通过考察以往文献中的误译,并对句中的关键性词语“凭/频借力”进行论证,提出更为恰切的注译
<正>双氯芬酸钠栓是一种衍生于苯乙酸类的非甾体解热、消炎镇痛药,其不良反应主要有肛门刺激症状、胃不适、烧灼、反酸、恶心、头痛、眩晕、严重肾不良反应及个别黄疸、皮疹
会议
针对汽车零部件库存管理的两种不同模式,在假设一个供应商、一个第三方物流、一个汽车制造商和同一种市场需求情况下,构建了基于汽车零部件的供应商和制造商的库存管理的Vens