论文部分内容阅读
互联网与物联网技术的发展改变了链接方式,服务化成为各行业的发展趋势,也成为企业业务开放的重要模式,IBM更是提出了API经济的战略,这一战略模式要求把硬件、软件、数据、人力等资源封装成Web服务,以API的方式供第三方使用,从而支撑生态体系的孵化。Web应用是一种重要的软件与数据资源,随着互联网的快速发展和普遍应用,Web应用数据和资源的数量出现了爆发式的增长。面向Web应用资源,研究智能化服务封装方法,实现以服务请求的方式执行Web数据的采集和处理任务,将会简化用户的工作量、促进产业生态的孵化。
针对Web应用封装Web服务时生成效率低、技术要求高的挑战,本文设计了一个面向Web应用的智能化服务封装系统(OKAPI),从而实现可视化、去编程化的Web应用数据采集,有效的服务于数据分析、金融财政、IT等行业用户。
本文结合Web数据提取、Web页面分块等相关研究工作,基于面向服务的架构和Chrome扩展开发技术,对系统中服务提供者、服务请求者和服务注册中心三类用户的Web应用数据采集需求进行了分析,并提出了系统的总体设计架构。
针对Web页面结构清晰,用户提交表单后可得到Web数据的简单数据采集场景,本文研究了Web页面表单检测、Web页面分块和块排序等算法,以实现对Web应用数据采集服务的生成和调用。同时,针对用户自行配置操作规则以进行多样化Web数据采集的复杂数据采集场景,本文研究了同类型元素匹配、服务流程定义和执行等算法,从而满足对Web页面进行自定义的数据采集的需求。
对简单数据采集和复杂数据采集分系统中生成的定制化的Web应用数据采集服务的测试结果表明,由智能化服务封装系统生成的Web应用数据采集服务的生成成功率和可达性均在99%以上,服务响应时间均低于500ms,相比于XWRAP等Web数据提取系统,该系统生成W曲数据采集任务的效率提升了10倍以上;同时,Web页面分块算法的执行准确率在96%以上,数据采集速率超过600条/分钟,系统执行大规模数据采集任务的稳定性超过95%,验证了系统中各服务运行的鲁棒性及服务执行的准确性、高效性。
最后,系统在高分服务网格平台国家重大工程上封装的128个高分相关服务的总调用次数已超过1万次,总检索次数超过1000次,体现了系统对国家级重大专项的支撑作用,验证了系统的实用性。
针对Web应用封装Web服务时生成效率低、技术要求高的挑战,本文设计了一个面向Web应用的智能化服务封装系统(OKAPI),从而实现可视化、去编程化的Web应用数据采集,有效的服务于数据分析、金融财政、IT等行业用户。
本文结合Web数据提取、Web页面分块等相关研究工作,基于面向服务的架构和Chrome扩展开发技术,对系统中服务提供者、服务请求者和服务注册中心三类用户的Web应用数据采集需求进行了分析,并提出了系统的总体设计架构。
针对Web页面结构清晰,用户提交表单后可得到Web数据的简单数据采集场景,本文研究了Web页面表单检测、Web页面分块和块排序等算法,以实现对Web应用数据采集服务的生成和调用。同时,针对用户自行配置操作规则以进行多样化Web数据采集的复杂数据采集场景,本文研究了同类型元素匹配、服务流程定义和执行等算法,从而满足对Web页面进行自定义的数据采集的需求。
对简单数据采集和复杂数据采集分系统中生成的定制化的Web应用数据采集服务的测试结果表明,由智能化服务封装系统生成的Web应用数据采集服务的生成成功率和可达性均在99%以上,服务响应时间均低于500ms,相比于XWRAP等Web数据提取系统,该系统生成W曲数据采集任务的效率提升了10倍以上;同时,Web页面分块算法的执行准确率在96%以上,数据采集速率超过600条/分钟,系统执行大规模数据采集任务的稳定性超过95%,验证了系统中各服务运行的鲁棒性及服务执行的准确性、高效性。
最后,系统在高分服务网格平台国家重大工程上封装的128个高分相关服务的总调用次数已超过1万次,总检索次数超过1000次,体现了系统对国家级重大专项的支撑作用,验证了系统的实用性。