基于FPGA的文本分类高效实现方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户：zx2353

【摘要】

：

随着Internet的迅猛发展，在互联网中存在有大量无用甚至是非法的信息，这些信息会影响人们的正常生活，并对社会造成不良的影响，因此需要对这些信息进行过滤。一个好的过滤系统应当

【作者】

：

刘影

【机构】

：

重庆邮电大学

【出处】

：

重庆邮电大学

【发表日期】

：

2012年期

【关键词】

：

软硬件结合信息过滤现场可编程逻辑门阵列文本分类特征抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的迅猛发展，在互联网中存在有大量无用甚至是非法的信息，这些信息会影响人们的正常生活，并对社会造成不良的影响，因此需要对这些信息进行过滤。一个好的过滤系统应当拥有较快的处理速率同时尽量减少垃圾内容的数量，这也是信息过滤的关键因素。由于绝大多数信息一般以文本的方式存在，因此信息过滤主要是对文本进行过滤。　　目前信息过滤一般通过如下四种方式进行:URL(IP)过滤、关键词过滤、人工分级标志过滤和基于内容理解的过滤。前三种方法过滤精度不高，而基于内容理解的过滤（主要有基于文本分类的方法）有运行速度慢的缺点，这也是目前研究的热点。本文旨在改进文本分类方法的效率，为该方法的实际应用提供一个思路。本文所做的主要工作如下:　　 (1)针对传统方法的不足，本文研究并提出了一种软、硬件结合的文本分类高效实现方法。该方法利用FPGA上的硬件资源构造了一个基于CAM的特征查找表，以硬件高速查找来代替软件查找方法，并利用该硬件查找表的特点设计了一种将待分类文本特征抽取和去重两个步骤合并处理的高效算法。该方法能有效解决纯软件文本分类系统运行速度慢的问题。实验结果表明用硬件逻辑实现查找操作能有19.9倍的提高，对整个实验系统有48％的提高。　　 (2)系统的研究了网络信息过滤模型，分析了使用纯软件方式实现朴素贝叶斯分类器的主要步骤与影响处理速度的关键因素，据此设计并实现了基于FPGA的文本分类高效实现系统。整个系统由PC机和FPGA板构成，在PC机端完成对文本的分词、特征抽取、训练并生成用户模板（概率特征表），在FPGA板端对待分类文本进行分类与过滤。

其他文献

面向虚拟企业基于多Agent的政策管控系统研究

虚拟企业以提高制造业的竞争优势为目标。因其优化和整合资源的独特优势以及快速的市场响应能力，虚拟企业将成为21世纪最重要的商业形式之一。鉴于Agent的自治性、主动性、反

学位

多Agent系统虚拟企业层次化政策管理方法政策冲突

移动互联网审计平台数据处理方案的改进与实现

随着第四代移动通讯技术的崛起和智能终端的迅速发展,移动设备的网络连入量占据互联网的份额也越来越大,在移动互联网时代,数据业务渐变成了用户的核心需求,数据价值也将会成

学位

移动互联网安全审计PF_RINGNAPIDPI缓存命中多进程

胶囊内窥镜图像小肠病变自动诊断算法研究

具备微型摄像机和视频信号发射机功能的无线胶囊内窥镜(Wireless Capsule Endoscopy)是一种新型的胃肠道疾病内镜诊断系统。自从2000年前后投入临床使用以来,它可获取病人整

学位

胶囊内窥镜特征提取颜色特征纹理特征机器学习多示例学习

带QoS约束的多播路由算法研究

随着Internet的持续快速发展，音频/视频会议、视频点播、远程教学等实时多媒体应用日益广泛。这些实时多媒体应用要求将信息从源节点同时传送给多个目的节点，促使了多播技术的

学位

多播路由算法多播树服务质量时延约束最优Steiner树

基于无线局域网的室内定位技术研究与实现

随着移动通信、移动终端和无线网络技术的不断扩大和发展，基于位置的服务快速发展，定位技术是基于位置服务的基础与关键技术。目前室外定位技术得到了广泛的发展，而室内定位技术

学位

无线局域网室内定位技术指纹定位算法接收信号强度AP筛选机制

云模型在学评教定性评价中的应用研究

定性评价是从大量的统计数据中抽取出能反映事物本质的定性概念，是对评价对象做出定性结论的主要手段。当前随着我国高等教育规模的不断扩大，高校的教学管理任务日趋繁重，而学评

学位

学评教定性评价云模型云发生器算法高等学校

基于DNA自组装模型的最大团问题研究

DNA计算是一种基于分子和相关酶之间某些生化反应过程的一种新的计算模式。不仅克服了电子计算机存储量小与运算速度慢这两个严重不足，而且表现出了高度并行性、海量存储能力

学位

DNA计算自组装模型NP完全最大团问题算法优化

人脸年龄估计的算法研究与实现

近年来,随着模式识别和计算机视觉的发展,根据人脸图像自动进行年龄估计在人机交互、安全监控和娱乐等领域已经成为一个非常热门的话题。人脸图像的自动年龄估计问题是指采用

学位

年龄估计有序性信息相关性排序多标签结构化稀疏性

基于决策熵的不完备信息系统知识约简方法研究

粗糙集理论是1982年由波兰科学家Z.Pawlak年提出的一种分析不精确、模糊、不确定和不完备信息的数学工具。因为它不需要任何先验知识或者其他额外的信息，就能高效地分析和处理

学位

不完备信息系统粗糙集属性约简决策熵置信度

BJX_SIM:一种基于动态聚集通信的通用仿真系统

在计算机发展的历史中，仿真技术一直是一个重要的研究热点，随着现代计算机仿真技术的发展，仿真技术已广泛应用于芯片设计、系统开发、网络安全等领域。由于芯片技术的快速发展，MC

学位

BJX_SIM通用仿真模式匹配聚集因子树形化

基于FPGA的文本分类高效实现方法研究

其他学术论文