论文部分内容阅读
网络高度发达的信息化时代,机密文件的安全保护与监控是一项非常值得重视的任务,尤其对政府、军队和其他重要单位。数字信息高速发展的今天,绝大部分文件都以电子文档的形式存在,但目前关于电子文档的安全监控系统大部分是针对计算机可以直接识别的计算机文字而设计,而对图像形式的电子文档的监控暂时还没有很好的系统对其处理,因此开发一个能对图形电子文档进行监控的系统以防止信息以图形化形式泄露,具有重要意义。通过阅读大量相关文献和参考其他相关系统的基础上,重点针对图形文档的安全监控,利用开源的OCR(Optical Character Recognition)技术,提出基于OCR技术的文件监控系统的设计与实现。大数据时代如何在大量的数据中发现价值,是目前研究的热点与重点。在大量的文件中查找机密文件也是一种价值的发现,目前对大数据处理最常用办法即采用机器学习的办法。机器学习是当前实现人工智能的最有效方法之一,为了使系统具有监控全面性、准确性、先进性、高效性甚至智能性,本项目将OCR应用技术与机器学习相结合来共同完成对机密文档的监控。项目的实现按软件工程的步骤逐步进行,首先进行需求分析,其次根据需求分析中的功能模块进行详细设计,到最后的编码实现与测试。通过测试证明基于OCR技术的涉密文档监控系统具有一定的先进性和适用性。该系统的应用能弥补对局域网中图形化形式存储的机密文档监控不到位的问题,能较全面的对文件系统进行监控,提高文档的安全性,降低信息泄露的风险。