论文部分内容阅读
传统地理信息数据采集通常是通过国家地理信息普查、实地勘察等方式获取数据。然而,随着社会的不断发展,居民区、道路等因素的不断变化,这种数据采集形式中数据成本高、工作量大、效率和时效性低等问题日渐突出。互联网的不断发展,互联网上交织的地理数据与日俱增,这些数据中隐藏着丰富的知识。从互联网中抓取相关的地理数据成为了地理信息来源的一个新渠道。互联网中蕴含着大量的地理信息数据,爬虫技术的诞生在一定程度上解决了Web数据获取的难题,但一般的通用爬虫很难对互联网中存在的地理信息进行有效的爬取。互联网地理信息爬行技术在总结归纳通用爬虫技术的基础上,不追求大的覆盖,将目标定为抓取与互联网地理信息内容相关的网络数据,使抓取工作更具针对性,通过互联网地理信息爬虫技术解决地理信息采集工作中数据成本高、工作量大、效率和时效性低等问题。本文的主要研究如下:(1)分析归纳互联网地理信息承载网站特点。结合浏览器工作原理,通过分析互联网地理信息承载网站的信息交互和展示方式,按照浏览器工作原理,从爬虫信息采集角度将浅层地理信息承载网站主要分为了三种类型:M-Dom类型、M-Render类型、M-Trigger类型;结合具体实验,对深层网络地理信息承载网站分析,重点研究了深网POI地理信息的承载网站的特点。(2)互联网地理信息获取技术研究。针对浅层网络地理信息采集场景,重点研究了单页面和列表页面的抓取方法;针对深网POI地理信息采集场景,总结了采集难点、采集技术,设计了两套内容检索词,研究了相关的抓取策略。(3)技术验证与原型系统开发。在方法、技术、策略的研究的基础上,设计了互联网地理信息采集原型系统,从系统的架构、功能、模块、核心逻辑等方面介绍了设计的细节,实现了原型系统并进行应用验证。