基于SVM的Web文档分类方法和应用研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:sondenaclaire3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的不断发展,WorldWideWeb已经成为人们获取信息的重要来源之一。然而Internet所固有的开放性、动态性与异构性,又使得用户很难准确快速地获取需要的信息。帮助用户快速、准确地查找和分类网上的有用信息,可以在较大程度上解决网上信息异构、杂乱的现象,因此对Web文档进行自动分类成为信息检索过程中的关键技术。本文主要研究基于支持向量机的Web文档分类方法及其在信息检索中的应用,目的是利用数据挖掘技术提高Web文档检索与分类的准确性。 本文的主要工作和特色如下:(1)在文档分类的特征选择和提取步骤中,提出了一种利用演化算法,在提取的Web文档的词频、结构等众多候选特征中找出最佳特征用于基于支持向量机的文档分类方法,并分析在不同的文档分类任务下应选用的不同特征。使用标准数据集WebKB、BankSearch和Yahoo的SocietyandCulture以及Science文档集进行实验,取得了较好的分类效果。 (2)提出了一种基于类别层次结构的支持向量机多分类策略,在二值分类的基础上结合类别的层次关系,将简单的投票策略加以优化。当待分类文档中包含内容涉及两个或两个以上类别时,可以有效地提高分类的准确率。 (3)将基于支持向量机的Web文档分类应用到个性化搜索领域。引入本体层次结构,提出了一利实现用户兴趣剖像(UserProfile)全自动抽取的方法,并利用用户兴趣剖像实现个性化搜索。使用Yahoo类别目录文档集作为实验数据集,LibSVM作为SVM工具,实现了一个基于支持向量机的用户兴趣剖像自动构建并用于个性化搜索的原型系统。
其他文献
电子海图显示与信息系统(Electronic Chart Display and Information System,ECDIS)是一个综合性的系统,是在符合国际海道测量组织S-57标准的ENC(Electronic Nautical Chart,
作为Web技术的提升和发展,语义Web(Semantic Web)代表了下一代Web的发展趋势。语义Web是对当前Web的扩展,其所具有的定义良好的语义,使计算机和人之间能更好地进行协同工作。要
随着现代检测技术的迅速发展,三坐标测量机正逐渐成为制造业中实现质量控制的主要设备。现代检测工序具有大批量、流水线化、高速高度自动化的特点,这就要求三坐标测量机必须能
自由立体显示技术,是指观看者在不需要任何辅助设备的条件下观看就能产生立体感的一种技术。现今大多数自由立体显示系统要求在显示端具备多个视点的信息,如果采用多个相机拍摄
信息时代虽然带给我们无限商机与方便,但也充斥着隐患与危险。由于网络容易受到攻击,导致机密信息的泄密、数据被篡改,轻则引发企业、部门工作陷入瘫痪、个人利益受损,重则危
伴随着科技的进步,人们已不再满足于传统的话音通信,迫切希望可视化的视频通信。视频电话作为其中的一项视频业务越来越多地得到广泛应用并将逐渐引领现代通信的潮流。视频电
电子选举正在逐步取代了传统的投票选举活动,然而,电子选举系统还有许多问题有待研究和解决,其中最关键的问题就是如何设计出一个安全的电子选举协议。 目前,有许多专家和
随着移动设备的广泛采用和移动计算需求的日益增长,各种移动技术不断涌现并得到应用,作为在网络层实现移动性的重点技术,移动IPv6使得移动节点能够在不同管理域之间无缝漫游,
下一代互联网协议IPv6彻底解决了IP地址资源危机,但在大规模的应用前,必需经过长时间的实验验证,从IPv4到IPv6的过渡必定是一个漫长的过程。在这期间,网络地址翻译NAT(Networ
随着网络技术的发展与成熟,分布式系统由于其相对于传统的集中式系统在性能、可靠性、可扩展性等各方面所表现出来的巨大优势,已在越来越多的领域得到了广泛的应用。由于分布