基于SVM的web分类方案设计与研究

被引量 : 4次 | 上传用户:hardstar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,web己经迅速发展成为了全球数据量最大的公共信息源,如何从浩瀚的信息中方便快捷的定位和筛选用户需要的信息,已经成为迫切需要解决的难题,其核心问题是web的自动分类。Web的文本分类来源于web分类,是文本挖掘的主要组成部分。按主题对web进行分类,建立分类结果数据库,生成分类信息资源,一方面可以为定制分类信息目录,实现网页分级管理和用户上网信息推荐,有效提高用户的搜索效率,快速、准确的定位到目标网页;另一方面还可以根据不同用户的类别兴趣特征,实现个性化定制,过滤不良网页和无关网页,按照用户的意愿实现web访问控制。目前主流技术都是web文本分类,主要通过设计合理的网页表示方式和文本分类算法实现web自动分类。web文本自动分类的算法有很多,但是支持向量机(SVM)分类算法是当今最流行,分类效果最好的算法之一。本论文设计了一套完整的基于SVM的web分类方案,并基于该分类方案设计与实现了一个自动网页分类系统,结合样本数据进行实验,利用分类结果对系统进行测试评估,验证了该分类方案的可行性,同时也得到了一个高效的自动网页分类系统。本论文主要目标是提出一套完整的基于SVM的web分类方案,并基于该方案设计实现一个自动网页分类系统,该系统是基于B/S架构,利用LAMP (linux+apache+mysql+php) web平台开发,选择SVM分类器分类的一个自动分类系统。本论文主要完成了以下几个方面的工作:首先,对网页分类技术的课题背景、课题任务、论文结构进行了分析和总结。其次,系统地分析和研究了网页自动分类过程中的关键技术和相关理论,包括数据获取、数据预处理、SVM分类器等。其中数据预处理又包括网页去噪、文本分词、特征选择、特征量化等文本分类的预处理技术,分类算法主要分析和研究了KNN和SVM,通过比较KNN和SVM的性能,最终选择SVM算法作为本系统的分类算法。再次,详细介绍基于SVM算法的网页分类方案的设计与研究,包括架构设计和详细设计。架构设计是以web分类流程为基础进行的设计,包括需求分析、实现目标、开发环境和总体设计;详细设计是基于模块划分的思想,将系统划分为数据库模块、用户交互模块和分类模块,各个模块再进行详细具体的设计。然后,给出了一个基于SVM的web文本分类系统的实验并对实验结果进行分析,提出系统性能的优化。接着,提出了本文的创新点。在文本预处理阶段,为了提高色情、暴力、赌博、毒品等优先级比较高的类别的准确性,本文在分词之前对文本进行了预处理。首先抽取类别是色情、暴力、毒品等类熟语料,即知道相应类别的URL,经过页面解析,抽取标题内容,进行分词,计算词频,按降序排列,选择靠前出现的关键词组成一个预置关键词表。然后再对训练样本和预测样本进行页面解析,提取标题关键字,和事先设置好的关键词表进行对比匹配,匹配成功就给出相应分类号,匹配不成功就继续进行页面内容分词,提取特征,svm分类,最后得出分类结果。最后,对作者在硕士研究生期间的主要成果和本文的主要工作进行总结和展望。
其他文献
中美共享经济蓬勃发展,对其进行比较研究具有现实和理论双重意义。选取Airbnb和途家进行案例研究后,发现三个共同点:公司主业都是在线短租,商业模式都在走向混业经营,服务对
随着全球气候变暖、世界自然环境日益变坏,人们开始逐渐意识到节能减排对于改善环境气候的重要性,低碳理念作为全新的理念逐步走入人们的视野确。在健身方面,全民健身活动的
校本课程是依据国家的教育目的和满足地方教育要求的基础上,由各学校的教师对当地社区和本校的资源、环境因素以及学生的实际需求进行分析,针对本校学生进行编制,成为可实施
本文梳理了国际上有关环境经济核算的探索与实践,对我国自然资源资产负债表的性质、研究进展进行较为全面的梳理与评价,总结了我国自然资源资产负债表与生态文明建设的相关制度
“异化翻译”的概念是美籍意大利学者劳伦斯.韦努蒂于1995年在其著作《译者的隐身—翻译史论》中提出来的。异化翻译的提出是基于对传统的归化的翻译观的批评之上,目的是抵抗
当前各类研究机构都在不断增加力度研究开发自身的机构知识库,力求整合自身内部的研究资源和成果,为机构内部和外部的研究人员提供更加便捷的途径来获取科研资料。机构知识库
本文以47家在中小板上市的苏南民营上市企业为研究对象,选取样本2010-2013年共188组有效观测值,本文将以公司治理为出发点,围绕委托代理理论,通过实证研究分析了苏南民营上市企业
国家“第十二个五年计划”,明确指出要加快建设多层次资本市场体系,提高直接融资比重。目前我国多层次资本市场体系是由主板(上交所主板、深交所主板和深交所中小板)、创业板(深交
在互联网技术高速发展的今天,大量的数据伴随着人们的生活不断产生,其中短文本数据随着BBS、微博等媒体的兴起占有着越来越重要的位置。如何对这些短小的文本进行有效地聚类
跳频通信因为本身的强抗干扰能力而广泛应用与军用民用的各个领域。跳频通信的硬件软件实现已经比较成熟。未来的研究方向主要集中在自适应跳频与组网方案两方面。在组网方案