论文部分内容阅读
随着互联网的普及,大数据概念应运而生,与此同时各种数据采集方式也相继出现。除去平时常见的网页爬虫、网卡过滤等数据采集方法之外,打印机数据采集的需求也越来越多。毫无疑问,数据采集是大数据分析的基础工作。最早的数据采集出现在工业时代的自动控制和环境监测领域,后来发展到电子证据领域,而如今数据采集作为大数据分析的基础性工作,在互联网领域中的地位举足轻重。互联网中的数据有多种来源,包括客户机使用记录、系统日志、网络流量监控、邮件信息、硬盘文件、浏览器缓存数据、聊天记录等。打印机数据采集的需求出现较晚,它是随着互联网支付的出现而出现的,特别是在020概念普及之后,很多实体店都开始尝试使用线上支付的经营策略。尤其是对于那些先消费后支付的商店而言,获取客户的已消费信息就非常重要。如果要对目前存在的客户管理系统增加支付功能就只能从账单打印这一环节入手,因为各种管理系统的实现千差万别,消费信息获取太过复杂,所以要获取客户消费信息只能从分析待打印的客户账单(打印缓冲文件)中得到,原因在于相比于各种管理系统的种类数量而言,打印机的种类数量要少的多。因此从软件通用的角度来讲,消费信息的采集可以从打印机入手,而对各种打印指令翻译也就变得越来越迫切。本文从Windows操作系统的打印机制入手,分别以Windows标准假脱机文件(EMF)和与打印机相关的假脱机文件(以Postscript打印指令为例)为研究对象,在现有指令解析相关研究的基础上,提出了基于DRAW16的EMF文件解析算法,以及将标准文本或者图片转换为PostScript打印指令的转换算法。本文针对EMF矢量文字识别中遇到的各种问题均提出具体的解决方案,包括训练集和测试集的选取、矢量特征提取、多文字记录识别方式等。在标准文本或图片转换成打印指令的过程中也涉及到了多个方面的问题,比如PostScript坐标转换、分辨率设定、字库创建等。本文的研究成果对有效解决这类打印机指令翻译以及追加有积极的推进作用。