文本图像过滤关键技术研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:lllllllllllllvvvvvvv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于网络信息发布缺少有效的监督机制,越来越多的不良信息出现在网络上。为了构建和谐健康的网络环境,自动的信息过滤技术具有重要研究价值。为了逃避现有的过滤系统,当前不良信息发布者越来越多地以图像的形式发布不良文本信息,这给不良信息过滤研究提出了新的挑战。本文针对网络上的文本图像信息进行不良信息过滤研究,其包括文本图像的字符识别和识别后文本过滤两个方面的研究内容。   为了提高过滤的准确性,本文对文本图像过滤的一些关键技术提出了建设性的方法。通过文本定位和文本抽取研究提高复杂背景文本图像中的字符识别性能,同时通过文本主题识别和文本倾向性分析相结合的方法来提高文本过滤的准确率。本论文的主要贡献如下:   ①本文提出了基于连通分量的文本定位方法。该方法利用了字符几何形状特征和文本区域内字符整体特征,并将两类特征有效地融合到分类过程中。同时,本方法使用了级联弱分类器和支持向量机相结合的分类方法来确认字符。实验结果显示该方法具有较高的定位准确率。   ②针对复杂背景图像的文本抽取问题,本文提出了一种基于HSL颜色空间的抽取方法,用于消除字符颜色不一致和复杂背景的影响。该方法将文本区域分为三种不同的颜色类型,对不同类型的文本区域,采用HSL颜色空间中相适应的颜色分量进行分割。该方法充分利用HSL各个分量的优势。实验结果表明了该方法的有效性。   ③在文本过滤方面,本文采用主题来表示过滤模板,通过识别文本主题来确认是否需要过滤。本文提出了基于概念知识树的主题识别方法。该方法利用了概念知识树的层次关系和节点属性信息来确认文本主题的核心概念,并利用概念的语义关系构建一个复合概念来表示文本的主题。实验表明该主题识别方法具有较高的性能,并能有效地运用于文本过滤系统中。   ④为能够准确识别具有相同主题的正面和反面文本,文本情感倾向性特性被用于文本过滤。本文提出了基于主题词上下文词汇的文本倾向性分析方法。该方法认为文本的倾向性与文本的主题相关,而且可以通过主题词的上下文词汇对主题词的相互作用来表示。基于主题词的倾向性分析能够有效的消除文本内容变化带来的困难。实验结果显示了该方法的有效性。
其他文献
随着IT全球化的快速发展和信息技术的日新月异,RFID和物联网技术已逐渐深入我们生活的方方面面,相关技术及标准的研究和制定也正在进行之中。本文对现有的RFID技术和应用进行
无线传感器网络是一种集成了传感器、嵌入式计算、分布式信息处理和无线通信等技术的新型网络,它在军事领域和民用领域有着巨大的科研价值和应用潜力。在无线传感器网络中因
复杂攻击由一系列有逻辑关系的攻击行为构成,隐蔽性强、破坏性大、威胁范围广,已经成为网络攻击的主要形式之一。如何发现复杂攻击的内在联系,识别其攻击意图和预测下一步攻击行
随着无线网络通信技术和定位技术的发展,移动对象已被广泛地应用到许多领域,例如交通监控、位置信息服务等等。作为数据挖掘领域当中的重要技术,异常点检测技术可以发现数据集当
随着Internet技术的发展,XML作为信息表示和数据交换的标准受到越来越多的关注,如何有效地存储和查询XML数据已经成为当前研究的热点。Twig模式查询是XML查询处理的核心操作,
5G移动通信系统是面向2020年移动通信需求提出的新一代移动通信系统。与现有的移动通信系统相比,5G移动通信系统在无线覆盖能力、传输时延、系统安全和用户体验方面将得到显著
随着Internet的迅速发展,信息共享和数据交换的范围也在不断扩大,XML在跨平台、异构数据集成方面有着相当广泛的应用,但缺乏完善的存储和管理机制。当前,传统的关系数据库依
在网络信息安全问题中,用户的身份认证问题是最基本的。在各种对身份的认证技术中,基于口令的认证方式由于其高效、低廉、便捷等优点,因此使用得最普遍。在基于口令认证的密
机群结构的超级计算机性能已经跨越百万亿次向千万亿次发展,可扩展性一直是超级计算机面临的最大挑战之一。超级计算机在软件层次的可扩展性研究远远滞后于它在系统结构(硬件)
随着网络的进一步发展,人们生活中的计算设备不断增多并产生了大量的数据,为满足日益复杂的各种信息的存储需求,基于P2P的海量存储系统以其独有的高可扩展性,负载平衡等特点,