基于支持向量机的中文网页分类的研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:qq269828183
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,网络上的信息资源呈爆炸式增长,万维网己经成为拥有几十亿个web 页面的分布式信息空间。在这海量的数字资源中,信息大都以半结构化或非结构化的数据形式存在,存储组织杂乱无章,从中迅速有效地获得所需信息非常困难。网页分类作为处理和组织大量web数据的关键技术,可以在较大程度上解决信息杂乱问题,方便用户准确地定位所需的信息和分流信息,具有广泛的应用前景。 本文研究了中文网页自动分类问题,运用支持向量机算法进行分类,有效地提高了网页分类的准确性。首先,对网页源代码进行深入研究,建立了一种网页噪音自动过滤的方法。根据web页面的特征,提出网页去噪的三个层次:标签过滤、提取内容、再标签过滤,去除网页中的Tag标签、广告、版权信息,有效剔除与网页主题无关的内容,保留了网页正文及相关信息。其次,将提取的网页信息分为关键信息部分和正文信息部分,并将两部分分别进行处理,生成文本的向量格式。通过学习支持向量机分类算法,对向量文本进行分类,得到的文本类别信息反映了对应的网页的类别信息。最后,选用北京大学网络与分布式实验室收集的中文网页样本集CCT2002-v1.1进行了实验。对11678个训练网页实例和3630个测试网页实例进行去噪,再对提取后的正文进行分类。实验表明,提取网页正文的准确率达到99%,能有效地去除网页的噪音信息。网页分类的召回率和准确率都有所提高,并在此基础上设计实现了中文网页自动分类系统。
其他文献
喷气织机是利用高速气流对纱线的作用完成引纬的新型无梭织机,具有高速、高效、高入纬率的特点,在我国纺织行业中占有很大的比重,但高能耗的缺点同样显著。本课题依托RFJA10引纬
随着钢铁企业生产管理对象的不断发展变化,新的管理理论和方法不断产生和发展,各国钢铁企业的生产管理系统也不断更新和改进。我国中小型钢铁企业生产情况复杂,很难使用统一
学位
随着控制理论应用研究的深入,实际生产过程中经常会遇到离散决策变量与连续变量共存的情况,混杂系统的研究应运而生。常见的化工间歇生产过程、食品加工过程、计算机辅助制造过
神经元是大脑的基本结构和功能单元,对其特性的研究是脑科学研究的基础,对揭示神经信息的产生、传导和作用规律有着重要的作用。传统的研究方法限于生物试验和数学模型的数值
随着智能控制技术、计算机和网络技术以及仿生学、人工智能等学科的飞速发展,智能移动机器人技术的研究越来越受到国内外学者的重视。移动机器人自主定位是智能导航和环境探
我国海洋资源丰富,其中近海油气资源占有很大比重,对这一资源的开采需要通过海洋油气管道来进行输送,而铺管船便是铺设海洋管道的主要设备,它在海洋工程建设中占有至关重要的
最近快速发展的物联网技术,在家居、交通、农业等领域发挥了重要的作用,得到了广泛的应用,可是在医疗领域的应用起步较慢,没有惠及到个人利益上。因此,如何设计一套实用性高,
三维激光扫描及相关数据建模技术近十几年来发展迅速,并已在很多领域体现出广泛的应用前景。然而现阶段三维重建软件算法的研究多数集中在如何根据大规模无组织的点云数据进
本文主要研究了基于金属-陶瓷压电复合换能器——Cymbal换能器的新型振动加速度传感器。针对钹式换能器的结构特点,改进了传感器的机械结构,以达到缩小体积、增强稳定性、充分
球磨机是矿物加工过程进行物料粉碎的关键设备。球磨机负荷(包括钢球量、矿石量以及水量)是磨矿过程的重要参数,直接关系到磨矿的效率和能耗。现有技术手段无法对磨机内部负