粗糙集在Web挖掘中的应用研究

被引量 : 0次 | 上传用户:beauty85123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web挖掘广义定义为从Internet上发现和分析有用信息。Web挖掘可以协助Web搜索引擎找出高质量的网页和分析Web语义结构、点击信息等,使Web服务更加智能化。目前Web挖掘技术中,特别是Web文本的分类、聚类,采用的核心算法是基于词频统计的矢量空间模型算法。该算法中文档的特征词的选取和相似度测量是关键。对特征词的选取和权重计算有很多研究,取得了积极效果。但是,特征词之间的关系研究很少。如何准确描述和恰当利用特征词之间的联系,是改进目前Web挖掘算法的一个途径。粗糙集理论是一种强有力的处理不确定性关系的数学工具,粗糙集扩展更能满足实际应用的需要。从知识分类的观点剖析了粗糙集理论的内涵,指出了粗糙集扩展的必要性。以Web信息检索为研究对象,以扩展粗糙集理论为工具,以知识获取为目的,提出了基于模糊粗糙集的网页个人兴趣分级算法,较系统深入地研究了基于容错粗糙集的Web查询词的扩展、分类、聚类理论与应用。在经典粗糙集合的基础上,针对数据的过拟合而使其对新对象的预测能力降低;对原始数据本身的模糊性缺乏相应的处理方法;针对粗糙集边界区域的刻画比较简单,而没有一定程度的属于或包含等,探讨了几种典型的扩展模型,如变精度粗糙集模型、模糊粗糙集模型和容错粗糙集模型。分析了这几种模型的相关性质,指出了它们实质上可以统一到广义粗糙集的模型上,只是针对的关系基础和定义的隶属函数不同。从而能更加直观地理解粗糙集理论,启发应用粗糙集理论开发更好的数据挖掘算法。分析了Web检索中查询准确率不高的一个重要原因是用户对查询语句的不能精确表示,提出了基于容错粗糙集的查询词自动扩展方法,用特征词容错类描述查询语句与返回结果之间的不确定关系,用查询语句上近似集合构造新的查询语句,自动增加了带权重的相关查询词,并在标准数据集上进行了实验,结果表明该方法,能有效地进行查询词扩展,提高了检索性能。为解决网页分级HITS和PageRank算法中共同的缺陷主题“漂移”问题,结合用户的历史查询词,采用模糊粗糙集的理论来描述个人兴趣与文档之间的不确定关系,在比较个人兴趣和网页相似度中,采用了上近似集相似与下近似相似结合的方法,实现了一种基于模糊粗糙集的个人兴趣网页分级算法。实验结果说明基于兴趣的PageRank方法是可行的。分析总结了粗糙集理论的Web分类一般方法,指出大多数方法都是把预先定义的类别看成是互斥的概念,很少考虑类与类之间有相联系的概念。利用Web文档特征词同时出现的价值,用容错粗糙集描述这种联系,给出了基于容错粗糙集的Web文档分类方法,该方法抓住了类与类之间有一定交叉概念这个关键,用特征词近似相似来精确判断文档类别,提高了Web分类效果。探讨了几种聚类策略,阐述了聚类的本质就是类内样本点“抱团”,给出了基于容错粗糙集的Web搜索结果的聚类方法,实现了聚类标记算法,对比实验表明,该方法优越于普通K均值算法。
其他文献
由于具有优异的力学性能,纸基蜂窝芯材料广泛地应用于航天航空工业中。但实践证明,我国传统的固持方法在高速铣削成型过程中,无法达到可靠固持纸基蜂窝芯材料的目的,从而制约了这
交通建设工程施工期间会应用大量的机械设备与物资材料,这些机械与物资材料的使用需要进行全面的管理,集约化管理是目前较为新型的物资管理理念与方式,能够综合调配机械与物
近年来,石油化工火灾事故呈井喷式爆发,造成了巨大的经济损失和严重的社会影响,威胁着我国的产业和能源安全。石油化工火灾事故所具有的易燃易爆性、连锁性和毒害性,是其难以
国际金融服务贸易自由化是世界经济发展的必然结果,它使金融服务贸易构成一个国家出口和对外投资的重要组成部分,并有力地促进了国际贸易的发展,使金融服务贸易日益成为国际贸易
随着高等教育大众化时代的到来,本科生连续扩招,研究生也逐年开始扩招。大学生就业中的许多问题也在这时凸现出来,择业的盲目性、从众性和被动性导致相当一部分大学生的职业
新一代资源管理系统(NGRMS)是电信运营商后端运营支撑的基础IT系统,是电信运营商突破传统资源管理模式、迎接企业战略转型和网络技术变革的重要保障。在向下一代网络演进的过
继电保护整定计算与定值管理是电力调度中心继电保护部门的基础性工作。然而,长期以来继电保护整定计算和定值管理工作基本上是手工完成的。虽然上世纪90年代以来,出现了一些
随着视频信息的不断增加以及视频应用的不断深入,基于对象的视频应用已成为当前多媒体应用的主要方向,因此,基于对象的视频分割与表达己成为世界性的研究课题和相关产品开发
本文根据近年的最新资料,对新疆主要断裂构造的地质特征进行了综合性归纳,划分出8条起岩石圈断裂,22条岩石圈断裂和18条壳断裂.这些断裂构造平面展布具有显著对称性,剖面上表现为
目的探讨在肱骨近端骨折治疗中保持正常肱骨颈干角的临床意义。方法对23例肱骨近端骨折的患者进行内固定手术治疗,术中通过必要手术技巧尽量保持正常肱骨颈干角,术后进行规范