基于FPGA的文本分类高效实现方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:zx2353
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,在互联网中存在有大量无用甚至是非法的信息,这些信息会影响人们的正常生活,并对社会造成不良的影响,因此需要对这些信息进行过滤。一个好的过滤系统应当拥有较快的处理速率同时尽量减少垃圾内容的数量,这也是信息过滤的关键因素。由于绝大多数信息一般以文本的方式存在,因此信息过滤主要是对文本进行过滤。   目前信息过滤一般通过如下四种方式进行:URL(IP)过滤、关键词过滤、人工分级标志过滤和基于内容理解的过滤。前三种方法过滤精度不高,而基于内容理解的过滤(主要有基于文本分类的方法)有运行速度慢的缺点,这也是目前研究的热点。本文旨在改进文本分类方法的效率,为该方法的实际应用提供一个思路。本文所做的主要工作如下:   (1)针对传统方法的不足,本文研究并提出了一种软、硬件结合的文本分类高效实现方法。该方法利用FPGA上的硬件资源构造了一个基于CAM的特征查找表,以硬件高速查找来代替软件查找方法,并利用该硬件查找表的特点设计了一种将待分类文本特征抽取和去重两个步骤合并处理的高效算法。该方法能有效解决纯软件文本分类系统运行速度慢的问题。实验结果表明用硬件逻辑实现查找操作能有19.9倍的提高,对整个实验系统有48%的提高。   (2)系统的研究了网络信息过滤模型,分析了使用纯软件方式实现朴素贝叶斯分类器的主要步骤与影响处理速度的关键因素,据此设计并实现了基于FPGA的文本分类高效实现系统。整个系统由PC机和FPGA板构成,在PC机端完成对文本的分词、特征抽取、训练并生成用户模板(概率特征表),在FPGA板端对待分类文本进行分类与过滤。
其他文献
虚拟企业以提高制造业的竞争优势为目标。因其优化和整合资源的独特优势以及快速的市场响应能力,虚拟企业将成为21世纪最重要的商业形式之一。鉴于Agent的自治性、主动性、反
随着第四代移动通讯技术的崛起和智能终端的迅速发展,移动设备的网络连入量占据互联网的份额也越来越大,在移动互联网时代,数据业务渐变成了用户的核心需求,数据价值也将会成
具备微型摄像机和视频信号发射机功能的无线胶囊内窥镜(Wireless Capsule Endoscopy)是一种新型的胃肠道疾病内镜诊断系统。自从2000年前后投入临床使用以来,它可获取病人整
随着Internet的持续快速发展,音频/视频会议、视频点播、远程教学等实时多媒体应用日益广泛。这些实时多媒体应用要求将信息从源节点同时传送给多个目的节点,促使了多播技术的
随着移动通信、移动终端和无线网络技术的不断扩大和发展,基于位置的服务快速发展,定位技术是基于位置服务的基础与关键技术。目前室外定位技术得到了广泛的发展,而室内定位技术
定性评价是从大量的统计数据中抽取出能反映事物本质的定性概念,是对评价对象做出定性结论的主要手段。当前随着我国高等教育规模的不断扩大,高校的教学管理任务日趋繁重,而学评
DNA计算是一种基于分子和相关酶之间某些生化反应过程的一种新的计算模式。不仅克服了电子计算机存储量小与运算速度慢这两个严重不足,而且表现出了高度并行性、海量存储能力
近年来,随着模式识别和计算机视觉的发展,根据人脸图像自动进行年龄估计在人机交互、安全监控和娱乐等领域已经成为一个非常热门的话题。人脸图像的自动年龄估计问题是指采用
粗糙集理论是1982年由波兰科学家Z.Pawlak年提出的一种分析不精确、模糊、不确定和不完备信息的数学工具。因为它不需要任何先验知识或者其他额外的信息,就能高效地分析和处理
在计算机发展的历史中,仿真技术一直是一个重要的研究热点,随着现代计算机仿真技术的发展,仿真技术已广泛应用于芯片设计、系统开发、网络安全等领域。由于芯片技术的快速发展,MC