论文部分内容阅读
随着Internet的迅猛发展,在互联网中存在有大量无用甚至是非法的信息,这些信息会影响人们的正常生活,并对社会造成不良的影响,因此需要对这些信息进行过滤。一个好的过滤系统应当拥有较快的处理速率同时尽量减少垃圾内容的数量,这也是信息过滤的关键因素。由于绝大多数信息一般以文本的方式存在,因此信息过滤主要是对文本进行过滤。
目前信息过滤一般通过如下四种方式进行:URL(IP)过滤、关键词过滤、人工分级标志过滤和基于内容理解的过滤。前三种方法过滤精度不高,而基于内容理解的过滤(主要有基于文本分类的方法)有运行速度慢的缺点,这也是目前研究的热点。本文旨在改进文本分类方法的效率,为该方法的实际应用提供一个思路。本文所做的主要工作如下:
(1)针对传统方法的不足,本文研究并提出了一种软、硬件结合的文本分类高效实现方法。该方法利用FPGA上的硬件资源构造了一个基于CAM的特征查找表,以硬件高速查找来代替软件查找方法,并利用该硬件查找表的特点设计了一种将待分类文本特征抽取和去重两个步骤合并处理的高效算法。该方法能有效解决纯软件文本分类系统运行速度慢的问题。实验结果表明用硬件逻辑实现查找操作能有19.9倍的提高,对整个实验系统有48%的提高。
(2)系统的研究了网络信息过滤模型,分析了使用纯软件方式实现朴素贝叶斯分类器的主要步骤与影响处理速度的关键因素,据此设计并实现了基于FPGA的文本分类高效实现系统。整个系统由PC机和FPGA板构成,在PC机端完成对文本的分词、特征抽取、训练并生成用户模板(概率特征表),在FPGA板端对待分类文本进行分类与过滤。