一种基于机器学习的主题Web分类算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:yhmlivefor49
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术和信息技术的快速发展,不同形式的数字信息充斥着互联网的每个角落,其中文本信息占据了举足轻重的地位。如何高效的管理文本成为了研究的一个热点课题,自动文本分类技术应运而生。但是自动文本分类的性能还比较低,有非常大的改进空间。文本分类是一个有监督的学习过程,涉及到机器学习、数据挖掘等领域的许多关键技术。影响文本分类性能的因素很多,主要有文本预处理、特征抽取、维度约减、文本表示、分类器设计、评价标准等。由于传统文本表示模型的高维性和高稀疏度等特点,设计高效的文本表示模型和降低文本表示维度是文本分类领域关注的热点。课题研究在深入分析自动网页文本分类技术的基础上,结合美食行业的特点,设计了一种基于支持向量机和HR-VSM模型的Web主题分类算法。首先,本文对当前文本分类技术在国内外的发展现状进行了综述,对文本分类的定义、流程及文本表示模型进行了概述,对经典的机器学习算法进行了简要的介绍。然后研究了网页文本的特征提取方法。考虑到网页数据是一种半结构化的数据,充分考虑了网页中不同位置的文本对网页主题的权重不同,在研究了文本特征提取算法的基础上,根据网页特征的特殊性,对网页文本特征提取和加权算法进行了改进。基于网页链接所指向同级网页的内容与原网页文本内容的主题相似性,本文提出了一种新颖的网页文本向量计算模型——HR-VSM模型。接下来基于改进模型并结合支持向量机算法,设计了一种基于机器学习的主题Web分类算法,详细讲述了该算法的理论基础和基于该算法的分类流程。最后,论文通过从仿真实验对改进的模型及算法和原型模型的性能进行验证,通过爬虫从网络采集的美食相关的网页,共3994篇中文文档,其中2794篇用于训练,1200篇用于测试。分类结果表明,采用该模型可有效的提升分类的效率,同时,该算法对其他行业有着良好的借鉴价值。
其他文献
以超滤膜法分析了生物预处理+人工湿地工艺系统对不同分子量有机物的去除效果。结果表明,系统进水中有机物分子量分布呈现“两头大,中间小”且以大分子量有机物为主的特点,该工艺
目的了解男男性接触者(MSM)使用互联网的行为特征和对互联网行为干预的接受意向。方法于2009年12月至2010年1月通过某一同性恋网站招募MSM进行在线问卷调查。调查内容包括基
棕榈油(Palm Oil)是国际重要林化产品,营养价值较高,目前已在全球100多个国家广泛使用。马来西亚和印度尼西亚是世界上最大的两个棕榈油生产及出口国,多年来两国棕榈油产量及出口
产品在人们的生活中所占据的地位愈加显著,同时,产品被寄予了更多的希望,它不应仅仅作为一种使用工具,而是应能实现与人之间更深层次的情感交流并能体现人的精神寄托。
这里从业主的角度提出了招投标阶段合同管理存在的问题和解决措施,希望能达到抛砖引玉的效果,给同行一定的参考价值。
作为高校思想政治工作的主渠道,思想政治理论课如何有效发挥作用,充分利用其公共必修课的特点和优势,积极融入应用型人才培养的全过程,使各类课程与思想政治理论课同向同行,形成协
考试焦虑的研究近几年开始在国内受到重视。由于这方面的研究在我国开展较晚,无论在理论建设还是应用研究方面,我们与国外的差距都还较大。本文拟就考试焦虑的定义问题、考试
利用PSR模型构建了西安生态安全评价指标体系,借助AHP法确定权重;采用1988年陆地卫星TM和2000年ETM+影像确定模型中的自然组分数据,结合社会经济统计数据,利用ARCGIS9.0建立
目的:通过全基因组测序及全外显子测序对宫颈腺癌发生相关的体细胞突变、拷贝数改变及结构改变等基因组变异进行鉴定,绘制特异性宫颈腺癌的基因突变图谱,鉴定关键性突变基因
1研究背景湖北省素称"千湖之省",随着历史的变迁和人类活动的加剧,河湖自然连通的形式已不复存在,由于历年泥沙淤积、人工围湖垦殖等因素,湖泊数量和面积已大大缩小。大东湖水