基于内容的网页敏感信息识别与过滤方法

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:baihuiguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着近几年来互联网的飞速发展,全世界的人们都从这种全球性的信息共享和传播中获益匪浅。与此同时,WWW时代的到来对人们来说也是一把双刃剑,这点表现为互联网在传播各种各样信息的过程中也广泛传播了一些有害信息,这些信息包含有反动,色情,暴力等危害社会安定的因素。如何净化网络环境,有效识别并过滤有害信息成了当前迫切需要解决的问题。针对这类问题,在国内外已开始有专家学者开展了过滤这些包含有敏感信息网页的工作。而本文也在前人的经验积累的基础上结合自身的摸索尝试提出了一些敏感信息过滤的新方法。   由于敏感信息过滤必须建立在对其高效识别基础上,因此本文将从三个方面入手来解决该问题:一是基于Bayes理论的互联网离散型敏感文本识别;二是利用决策树算法对web网页进行类别划分,在此基础上融合文本和图像对互联网敏感网页进行识别;三是研究基于多实例学习算法的网页集合快速识别方法。具体主要的贡献和工作有:   (1)提出了一个基于Bayes理论的敏感文本识别算法。经过大量的统计与观察,导向型网页中词汇之间的语义联系通常很弱,可以视为相对独立的,我们定义其为离散文本。基于这个结论,我们构造了Bayes分类器来处理网页中的此类离散文本。首先定义敏感类的关键词,然后将这些词的词频视为基本的语义统计信息并且作为分类器的输入数据,经过分类器处理后,输出一个概率,此概率值表示目标网页包含敏感信息的可能性。   (2)提出了一个综合分治法和文本与图像信息融合的敏感网页处理系统框架。该框架针对不同类型的网页,应用不同的文本和图像分类器进行针对性的处理。首先在网页预处理阶段实现文本和图像的信息分流,然后用C4.5决策树算法将目标网页分为文本型,图像型和混合型三类,对每类网页用相应的分类器分而治之。最后利用信息融合技术结合各分类器的输出结果对目标网页是否包含敏感信息得到一个总体评价。该方法克服了目前所存在的方法基本上只能过滤某种特定类型形式网页的局限性。   (3)提出了一个利用多实例学习思想对网页集合的快速识别的算法。通常我们需要处理的对象是一个网站而不是单个网页,所以应用多实例学习算法以网站为单位进行敏感信息识别可以有效的提高识别效率。多实例学习算法是近年来应用比较多也相对成熟的集合识别算法。   (4)设计并实现了一个网页敏感信息过滤系统。   (5)利用多实例算法改进了原敏感信息主动搜索系统。提升了识别效率。  
其他文献
本文对多四腿机器人系统队形控制进行了研究。主要内容包括: 1.引入了机器人在复杂环境中结合经验值的自主定位方法,和多机器人在无限通信方式下基于动态参照物的协作定位方
当前电力系统正朝着大容量、远距离、超高压方向发展,其特点是强非线性、高维数、分层分布、子系统之间相互耦合。由于系统中存在很多不确定性因素(如系统参数未知或系统中出
随着我国铁路交通事业的快速发展,列车速度不断提高,列车车轴的加工精度需要进一步提高,以保证列车高速运行时更高的安全可靠性。在车轴加工过程中,车轴中心孔起着定位基准的
染整配色是纺织印染行业的一道关键工序,但对于中国众多印染厂家来说目前仍然采用效率低可靠性也不高的人工配料,采用计算机技术的高精度配料设备已经成为该行业的发展趋势。本
本文综合利用两种特征提取方法提取了基于波形形态和基于波形特征点的10维的特征矢量,分析了基于MACS-BP算法的神经网络分类器和基于统计模式识别的线性判别式分类器的分类性
在软测量建模的方法中,一个最常见的非机理建模方式就是利用神经网络进行建模。而近年来兴起的粒子群算法(ParticleSwarmOptimization,PSO)目前已应用于神经网络的训练。本文对
制造过程调度是先进制造和自动化领域中前沿性研究方向。本文在国家973计划项目及国家自然科学基金项目等支持下,面向实际制造过程,研究适合求解复杂Jobshop调度问题的遗传算法
双目立体视觉主要研究运用两个摄像机对同一景物从不同位置拍摄成像并根据几何原理如何实现三维场景的恢复。随着计算机技术的快速发展,双目立体视觉成为了计算机视觉领域的一
广义预测控制是80年代产生的一种新型计算机控制方法,是预测控制中最具代表性的算法之一。它一出现就受到了国内外控制理论界和工业界的重视,成为研究领域中最为活跃的一种预测
本文以非结构环境下机器人的抓取作业为研究背景,开展了机器人在非结构环境下抓取操作的相关技术研究。为了在复杂背景下推测目标物的抓取位置和姿态,进行了基于“人机系统”理