基于支持向量机的Web文本挖掘研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:hnnydbw2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,网上的信息资源空前的丰富。人们迫切需要拥有能够从中快速、有效地发现资源和知识的工具,提高在Web上检索信息、利用信息的效率。将传统的数据挖掘与Web结合进行Web挖掘,已成为数据挖掘的一个重要和繁荣的子领域。 支持向量机是由Vapnik及其领导的AT&T实验室研究小组提出的一种新的非常有发展前途的机器学习算法。因为SVM具有较强的理论依据和较好的泛化性能,使得它成为继神经网络研究之后新的研究热点,并将推动机器学习理论和技术有重大的发展。 本文首先对Web挖掘的有关理论进行了论述,详细描述了Web文本挖掘系统的设计,包括Web文本挖掘系统的系统结构、模块功能等。接着对统计学习理论进行了介绍,深入探讨了建立在该理论基础上的SVM算法。最后将SVM算法应用到Web文本挖掘中,对Web文本进行分类。研究了一种用SVM进行主动学习的方法,该方法与普通的SVM方法相比,在保证分类性能的前提下,可有效的提高效率。同时表明了SVM算法在Web文本挖掘方面具有很好的应用前景。
其他文献
基于事例推理(Case-Based Reasoning,CBR)作为基于知识的专家系统(Expert System)的一个分支,它是目前人工智能(Artificial Intelligence)研究中一种正在迅速发展的推理方法.
信息技术的发展,不仅改变着人们的工作和生活方式,也在改变着教育、学习和教育管理的方式.数字化校园建设的目标就是最终实现教育过程的全面信息化,它是以网络为基础,利用先
计算机辅助设计中的反向工程 是根据实物模型和样件测量数据 建立数学模型 然后将这些模型和表征用于产品分析 制造和加工的先进方法 它是快速原形制造 快速模具制造的重要组
随着计算机应用日益普及和深化,现代软件的规模越来越庞大.以前用手工作坊式方法开发出来的许多大型软件,由于没有进行软件质量管理,因此几乎无法维护,致使项目报废,造成大量
网络攻击的趋势是攻击技术越来越复杂,攻击行为越来越频繁,这些攻击严重威胁着网络使用者的利益。第一代安全系统依靠密码学、可信的计算基础、认证、防火墙、访问控制和其他
当今世界,信息技术飞速发展,有力地推动着人类的社会发展和文明进步,信息化水平已成为衡量一个国家现代化和综合国力的重要标志。对于目前的应用来看,实现信息资源的整合是十
随着人们对个性化计算机产品需求的增加,后PC时代已经到来。在后PC时代中,嵌入式系统扮演着极其重要的角色。近年来随着微电子技术的发展,嵌入式系统的发展不论从硬件还是软件方
本文详细介绍了一个基于RISC+DSP技术的,嵌入式流媒体处理系统的设计与实现,说明了什么是流媒体,流媒体数据的处理过程,流媒体处理对系统的要求,RISC+DSP技术为什么可以满足在嵌
IT应用领域的不断扩展产生了越来越多的数据,从而导致了对大容量存储系统的迫切需求。如果存储资源以一种无序的方式连接到不同类型的服务器上,不但浪费了大量空闲空间,而且难于
在信息科技高速发展的今天,软件已成为现代高新领域中不可缺少的一部分,被广泛地应用于通信网络,尖端武器以及日常办公处理中.但是,由于软件以人为本,是一个主观创造过程,因