论文部分内容阅读
随着互联网技术和信息技术的快速发展,不同形式的数字信息充斥着互联网的每个角落,其中文本信息占据了举足轻重的地位。如何高效的管理文本成为了研究的一个热点课题,自动文本分类技术应运而生。但是自动文本分类的性能还比较低,有非常大的改进空间。文本分类是一个有监督的学习过程,涉及到机器学习、数据挖掘等领域的许多关键技术。影响文本分类性能的因素很多,主要有文本预处理、特征抽取、维度约减、文本表示、分类器设计、评价标准等。由于传统文本表示模型的高维性和高稀疏度等特点,设计高效的文本表示模型和降低文本表示维度是文本分类领域关注的热点。课题研究在深入分析自动网页文本分类技术的基础上,结合美食行业的特点,设计了一种基于支持向量机和HR-VSM模型的Web主题分类算法。首先,本文对当前文本分类技术在国内外的发展现状进行了综述,对文本分类的定义、流程及文本表示模型进行了概述,对经典的机器学习算法进行了简要的介绍。然后研究了网页文本的特征提取方法。考虑到网页数据是一种半结构化的数据,充分考虑了网页中不同位置的文本对网页主题的权重不同,在研究了文本特征提取算法的基础上,根据网页特征的特殊性,对网页文本特征提取和加权算法进行了改进。基于网页链接所指向同级网页的内容与原网页文本内容的主题相似性,本文提出了一种新颖的网页文本向量计算模型——HR-VSM模型。接下来基于改进模型并结合支持向量机算法,设计了一种基于机器学习的主题Web分类算法,详细讲述了该算法的理论基础和基于该算法的分类流程。最后,论文通过从仿真实验对改进的模型及算法和原型模型的性能进行验证,通过爬虫从网络采集的美食相关的网页,共3994篇中文文档,其中2794篇用于训练,1200篇用于测试。分类结果表明,采用该模型可有效的提升分类的效率,同时,该算法对其他行业有着良好的借鉴价值。