论文部分内容阅读
互联网是当今最大的信息资源库之一,其信息发布的及时性与全球互联性使得其对整个社会的发展起着巨大的影响。由于互联网相关技术飞速发展,它已经影响到了日常生活的方方面面,对整个社会起着革命性的影响。网络在为人们提供各种前所未有的便利的同时,也为有害信息的广泛传播提供了便捷。这些信息特别是敏感信息对社会尤其是未成年人的影响日益引起人们的极大关注。如何净化网络环境,有效识别并过滤有害信息成了当前迫切需要解决的问题。
由于敏感信息过滤必须建立在敏感信息的高效识别基础上,因此本文将从三个方面入手来解决该问题:一是互联网敏感文本的理解识别;二是融合文本和图像进互联网敏感网页进行识别;三是实际过滤系统的设计与构造。主要的贡献和工作有:
(1)提出了一个基于语义与统计的敏感文本识别算法。通过对关键词的语义分析,把关键词集合分为三个类别。对这三类关键词给出了描述性的定义,并借鉴细胞神经网络理论来构造一个类细胞神经网络描述三类关键词之间的关系用来提取文本的敏感语义特征。最后利用统计机器学习理论来构造分类器。
(2)提出了一个利用web结构信息进行图像与文本融合的算法。图像信息和文本信息以一种有序的方式位于同一个网页上,这种有序方式体现了丰富的语义信息。基于这些认识,把网页分为三类。经过观察与分析,只有以图像为主的网页才需要进行信息融合,同时利用web挖掘技术对web信息进行初步处理,可以把问题转化为已知类别先验的条件下,如何判断一个集合是否为敏感的决策问题。利用Bayes定理我们可以推导出一个决策公式出来。这个公式充分体现了网页的特性,实际也取得了很好的效果。
(3)提出了一个合理的web信息过滤框架。基于对网页三个类别划分,设计了一个合理的框架,可以对三种形式的网页能够很好的过滤。克服了目前所存在的方法基本上只能过滤某种特定类型形式网页的局限性。
(4)设计并实现了一个敏感信息过滤插件。
(5)设计并实现了一个敏感信息主动搜索系统。