【摘 要】
:
近年来许多传统数据挖掘研究者,已逐步从传统数据挖掘领域过渡到Web数据挖掘领域。随着Web上XML数据量爆炸式的增长,XML已成为Internet上数据交换和数据表示的事实标准,并且
论文部分内容阅读
近年来许多传统数据挖掘研究者,已逐步从传统数据挖掘领域过渡到Web数据挖掘领域。随着Web上XML数据量爆炸式的增长,XML已成为Internet上数据交换和数据表示的事实标准,并且在将来XML将代替HTML而成为Web上驻留数据的主要格式,于是,基于XML的数据挖掘方法已经成为Web数据挖掘领域和XML技术领域的一个研究热点。面向Web的数据挖掘技术与面向传统数据库的挖掘技术不同,基于XML的Web数据挖掘过程中,一般要将HTML数据格式转换成XML格式,再对XML数据进行相关挖掘操作。目前,多数基于XML数据的挖掘算法是用半结构化数据模型来描述XML数据的,并在此基础上进行频繁模式发现,而用半结构化数据模型描述XML数据时具有一定的缺陷,因此影响了挖掘算法的性能。针对上述问题,论文做了如下工作:1.描述了一个基于XML的Web数据频繁模式挖掘框架结构,它在原有半结构化数据模式挖掘算法的基础上,根据XML数据的模型特点,对频繁模式挖掘算法进行了归类;依照半结构化数据的产生方式、组织形式、存储结构,抽象和总结了原有的XML数据挖掘算法。2.分析了半结构化数据模型描述XML数据时存在的一些缺陷,针对这些缺陷,研究了一种面向XML的扩展标记树模型ETM,作为XML数据挖掘任务使用的数据模型。3.使用ETM有序树作为数据模型,给出了XMLFPTMiner算法来挖掘XML中的频繁模式树,并研究了一种修剪策略对XMLFPTMiner算法进行改进。根据修剪策略,可以直接从某些已知频繁子树中产生某些未知频繁子树,因此减少了算法在候选子树的产生和支持度计算上的开销,从而提高了算法的效率。
其他文献
目的:研究HIF-1α与VEGF在正常子宫内膜、子宫内膜不典型增生和子宫内膜癌组织中的表达情况及在肿瘤血管生成中的作用。方法:应用免疫组织化学SP法分别检测各类子宫内膜组织
<正>如今人们对居家环境越来越重视,仿真花卉日渐受宠。为吸引更多顾客的眼球,许多仿真花卉店在销售上煞费苦心。那么开仿真花艺店有何讲究呢?根据笔者的调查了解和亲身体会,
本文从体验性学习的内涵、特点,阐述了体验性学习过程中教师的角色定位以及在语文教学中如何引导学生进行体验性学习,提高中学语文的教学效果。
<正>1.治疗头痛方:姜黄15克,黄柏、川黄连各9克,生川乌、生草乌各6克,生姜和葱头适量。共捣烂,贴太阳穴。本方寒热互用,可治一般头痛。2.治疗癫痫方:癫痫民间称为羊羔疯、羊
本课题来源于某多管火炮武器系统的半实物仿真研究。半实物仿真就是利用计算机仿真技术与实物实验相结合,以计算机仿真为主的实验研究方法。针对我国目前车载火炮操瞄自动化
煤炭资源是自然资源的重要组成部分,是人类社会发展的重要物质基础。随着我国经济的持续高速发展,煤炭资源在国民经济中的作用和地位越来越重要。然而,由于煤炭资源涉及到海
多属性决策(又称有限方案多目标决策)是现代决策科学的重要分支,其理论与方法在经济、管理、工程和军事等诸多领域都有着广泛的应用。由于决策者经常要面临复杂的事物、不确
<正>近日,中央组织部、编办、教育部、财政部、人力资源和社会保障部、国家公务员局联合下发了《关于进一步加强大学生村官工作的意见》(以下简称《意见》)。中央组织部负责
中国钢都——鞍山鞍山市位于辽宁中部,以沈阳为中心的城市群的南侧,全市面积9251平方km2,总人口333.9万,共有32个民族,汉族人口占全市人口的97.6%。鞍
China Steel Capital
中美贸易失衡的问题历来是双边贸易争端的核心,现今美国更是将贸易失衡责难于人民币汇率。本文通过对人民币汇率、美国信用卡贷款利率等变量与中美贸易差额之间建立相关模型,