【摘 要】
:
关联分析是数据挖掘算法中的一种,主要用于发现数据集中变量或项之间的关联关系,被各个行业广泛应用。其中,离散变量尤其是二元变量的关联分析算法体系较为成熟,在长久的研究
论文部分内容阅读
关联分析是数据挖掘算法中的一种,主要用于发现数据集中变量或项之间的关联关系,被各个行业广泛应用。其中,离散变量尤其是二元变量的关联分析算法体系较为成熟,在长久的研究中,算法效率、概念扩展等方面都取得了巨大进展。相较而言,连续属性变量的关联分析算法研究较少,而连续属性往往蕴含了大量信息。本文首先探索了基于maxR2和传统Apriori方法的非离散化处理连续型变量的关联分析算法,其基本思想是引入多元线性回归中的复样本决定系数,设计基于该指标的maxR2代替支持度。由于maxR2具有单调性性质,不同于支持度反单调性的性质,因此设计了“反向剪枝”过程。算法旨在挖掘大量连续变量中具有关联的部分变量。之后本文引入遗传算法对上述基于maxR2的maxRs-Apriori算法作了进一步改进,弥补原算法只能挖掘变量全局关联性的缺陷。改进的算法旨在挖掘变量之间的“局部相关性”,即各变量在某一区间范围内的关联度。模拟数据集上的结果表明两种算法均能够有效挖掘大量变量中具有关联关系的一篮子变量。最后,本文在UCI机器学习公开数据库鸢尾花iris数据集上对两个算法和传统算法进行比较。实验表明,本文提出的两种算法相较传统方法挖掘的变量具有更高的关联度,变量之间更易于相互解释和预测,方法在测试集上不会产生明显的退化。
其他文献
在选秀节目红极一时之后,歌唱类真人秀重新回归高品质,和其他类型的综艺比较,歌唱类真人秀的数量相对不占多数,但精品还是更容易脱颖而出的。以下就是近年歌唱类真人秀节目中
20世纪90年代以来,协商民主作为中国特色社会主义民主的有机组成部分,由人民政协向人大工作、政府决策、基层治理等多个领域不断推进.本文分析当前我国政府决策中协民主在协
教学设计与课堂教学是教学环节的重要组成部分,科学的设计与教学将更有利于促进学生探究能力的发展。
Instructional design and classroom teaching are important parts o
“中国造纸协会关于造纸工业‘十五’计划的意见”已于2001年4月12日在中国造纸协会第二届第二次常务理事会上通过。该“意见”包括前言、造纸工业现状和存在问题、国内外市
如果说美术教育是培养学生美术方面的能力和品质,那么则是让学生以物之美,开启心灵的钥匙.美术欣赏就是要培养学生的审美情趣,用可视的艺术现实或艺术形象感染和陶冶学生,让
1月23日上午,省政府召开全省安全生产电视电话会议,贯彻落实党的十八大、全国安全生产电视电话会议精神.省委副书记、省长徐守盛出席会议并发表重要讲话,要求实现“四个确保
院校研究起源于美国,是对所在高校的运行状况及其影响因素进行分析和评估的自我研究.作为对高校自身个体的一项重要研究工作,受到越来越广泛的关注.然而目前对院校研究的机构
(一)行业调整与发展重点 造纸工业今后调整与发展的重点是:立足改革,突出三个重点(重点产品、重点企业、重点地区),抓好六个调整(原料、产品、企业、技术、区域、投资),强化
请下载后查看,本文暂不支持在线获取查看简介。
Please download to view, this article does not support online access to view profile.
语言技能的形成离不开词汇的积累与运用.在高中英语教学中,词汇教学是英语教学的基础环节;对学生来说,正确掌握和运用词汇,是进一步学习语言的基础和提高听说读写能力的前提