分类关联规则归纳算法及应用研究

被引量 : 0次 | 上传用户:chanck5800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化程度的提高,数据量呈指数增长。从大量数据中挖掘有价值的知识在当今信息时代具有重要意义。关联规则挖掘是数据挖掘领域中的重要课题之一。特别是分类关联规则既能用于概念描述又能用于分类预测与决策,在数据挖掘中发挥重要作用。目前分类关联规则挖掘技术在学术界与产业界受到广泛关注。自1998 年出现第一个基于关联的分类算法(CBA)以来,关联分类算法的设计及应用研究一直非常活跃。目前,在关联分类问题上存在的共识是:关联分类的准确度总体上显著地高于传统的决策树分类,但关联分类存在的主要问题是产生太多的关联规则,导致计算速度慢、内存开销大、分类模型难以理解。本文研究分析了现有的分类关联规则归纳算法,给出了关联分类的有关定义及形式化描述,提出基于数据挖掘标准的分类规则质量评价新函数,首次提出挖掘知识要点的新思想, 创立了基于原子关联规则的分类新技术CAAR(Classification based on Atomic Association Rules),从根本上解决了关联分类执行效率低、内存开销大、分类模型较复杂的问题。将CAAR 分类新技术应用于有监督的图像内容分类学习和大规模数据机器学习取得了很好的效果。本文的创新点主要表现在以下五个方面: 1)首次提出置信度主导的、基于置信度和支持度加权和的分类规则质量评价函数。目前,在机器学习领域内,广泛采用的分类规则质量评价函数是基于混淆矩阵计算的灵敏度(Se)和选择性(Sp)的乘积。这种传统方法被称为评价分类规则质量的“黄金标准”。然而,从数据挖掘的角度分析灵敏度和选择性后,我们发现传统的方法不及我们提出的基于规则置信度和支持度加权和的新方法。为了在较大的分类关联规则搜索空间上验证我们提出的新函数,采用遗传算法进行了实验。结果表明基于数据挖掘的新函数显著地优于传统的分类规则质量评价函数。2)首次提出挖掘知识要点的新思想。采用原子型分类关联规则导向的知识要点挖掘技术能快速地发现不完全的、非精确的描述性分类知识。知识要点包括通过一次扫描数据集得到的精确原子型分类关联规则和通过组合计算得到的不完全的、非精确的复合型分类关联规则。算法能计算复合型分类关联规则的支持度和置信度的边界值。对于一个复合型分类关联规则,如果规则的支持度和置信度的下界都分别超过支持度阈值和置信度阈值,则称该规则的存在性是确定的;如果规则的支持度和置信度各自的上界与下界之差小于一个给定的常量,则认为规则的度量参数是确定的。因此复合型分类关联规则可分为三种类型:(1)确定型:
其他文献
本文根据公共财政学的有关理论,借鉴国内外有关国家或地区财政支持农业发展的经验,采用实证分析法和比较分析法,就近年来山西省财政对农业投入的总量、投入的结构、投入的管
消防服务的核心是防范和治理火灾。改革开放以来,在我国社会经济迅猛发展的同时,火灾对国家财产和人民生命安全的威胁也逐渐扩大,如何解决消防服务的有效供给问题成了当务之
法律责任是法定义务违反的不利后果,而不同的角色地位决定了主体负有不同的法定义务,也就可能因此而承担不同的法律责任,所以期货交易所与其他期货交易主体的关系定位是认定
全球变化研究和大陆水循环研究是当前地学研究领域的热点问题。地下水是全球水循环的重要组成部分,具有地质环境变化最直接的信息内涵。本项研究以华北平原地下水作为古地质
我国《预算法》明文规定,地方政府不能自行举债。但近年来,因各种原因,地方政府背负了各种形式的债务,且数额巨大,已经形成了严重的债务风险。因此防范和化解债务风险已经到
按照中央“八项规定”的要求,中共中央、国务院印发的《党政机关厉行节约反对浪费条例》对国内差旅和会议活动经费管理做出了明确规定。为适应这一新形势的要求,本文以甘肃省
在机械加工行业,金属加工润滑剂的使用大大改善了工艺条件,使年产数百万个零部件的自动化加工中心的生产成为可能,但同时也产生了组成复杂的有害油雾:使用中的润滑剂产生的油
作为现代社会交通建设的重要组成部分,高速公路建设显得尤为重要。相对于整个工程而言,高速公路隧道施工建设相对难度较大。由于我国土地面积广阔、土地情况复杂,在高速公路
贵州黔东南苗族牯藏节文化有着悠久的历史,蕴藏着丰富的文化人类学资源。牯藏节的研究在国内已经取得了丰硕的成果,我对斗牛、杀牛、“吃牯藏”的原因非常感兴趣,两次深入当地参
作者站在风险投资机构的角度,研究风险投资过程中对创业者及创业企业的资信风险控制问题。根据对风险投资机构实践的调查研究以及国内外的文献资料的阅读,设计了风险投资机构