基于遗传算法的数据挖掘方法研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:yyp0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生产、生活节奏的加快和信息技术的进步,数据信息量以指数形式增长。数据挖掘技术具有强大的数据分析处理能力,能为决策者提供重要的、极有价值的信息或知识,从而产生不可估量的效益。因此数据挖掘方法的研究具有很重要的理论和现实意义。聚类分析是数据挖掘的主要任务之一,k均值算法是最常用的聚类方法。k均值算法的局部搜索能力强、收敛速度快,且聚类结果不受样本数据输入顺序的影响。但该算法对初始聚类中心的选取非常敏感,极易陷入局部极小值。遗传算法具有强大的全局寻优能力,运算过程不依赖于梯度信息或其它辅助知识,只需确定目标函数和适应度函数,被广泛用于解决各类优化问题。因此,将遗传算法与k均值算法相结合,既能发挥遗传算法强大的全局寻优能力,又能兼顾k均值算法较强的局部搜索特点。如何将遗传算法与k均值算法更好的结合,优势互补,提高聚类算法效率,是本文研究的主要内容。针对聚类问题,本文对标准遗传算法进行改进。首先,遗传算法采用浮点数编码方法,在保持交叉、变异后的搜索空间不变的基础上,缩短了染色体编码长度;其次,采用基于最短距离基因匹配的算术交叉算子和均匀变异算子,保证产生有意义的新染色体;再次,用父代种群参与竞争的策略代替经常使用的最优保存策略,提高算法的收敛速度;最后,用两种停止准则结合使用的方法,控制遗传算法的运算过程,有效缩短了算法的运行时间。这两种停止准则分别是:种群的进化代数达到指定的终止代数T ,遗传算法停止;连续多次迭代的种群个体的平均适应度值之间差异小于某一极小阈值,遗传算法停止。若两种准则满足其一,遗传算法停止。本文提出了一种改进的遗传k均值聚类算法(IGK),就是将改进的遗传算法与k均值算法相结合,先用改进的遗传算法对初始聚类中心进行优化,再执行k均值算法。测试结果证明,IGK算法可以避免聚类算法陷入局部极小值,算法的稳定性高,收敛速度快。
其他文献
泛函方程稳定性问题首先是由数学家S.Ulam在1940年提出的.它主要研究一个函数近似的满足一个给定方程时,是否与原方程的解很接近.多重赋范空间是由H.G.Dales和M.E.Polyakou引
Hopf*-代数结构是在Hopf代数的基础上给出的.Kassel[1]曾经给出了GLq(2)和SLq(2)上的Hopf*-代数结构,且对量子包络代数Uq(sι(2))进行了非常详细的描述。正是因为Hopf代数与
随着流程日志数据的爆炸式增长,业务流程的分析和研究变得越来越普遍,从简单的合成的事件日志到复杂的大型真实事件日志,面向其数据挖掘的算法也越来越复杂。针对此类问题,过程挖掘技术可以将事件数据和过程模型紧密联系,更好地改善和促进业务流程的发展。而过程挖掘作为业务流程分析的主要内容,大多为研究发现频繁行为,很少的工作涉及低频行为,但是低频行为对流程管理也很重要。一般来说,流程挖掘旨在通过发现充分反映事件
学位
与标量水听器作对比,矢量水听器具有体积小、一致性好等优点,其制作流程和相关技术日渐成熟,因此关于矢量水听器的研究是未来研究趋势之一;而人工神经网络作为机器学习的代表,是一种自学习、自适应和并行分布的信息处理网络结构。所以,运用人工神经网络来解决矢量水听器的波达方向角估计问题不失为一种良好的选择。本文系统地研究了矢量水听器的信号处理,通过模型假设、特征提取、网络构建和仿真实验,有效地验证了本文所提方
微分形式是当代数学和应用科学的一个重要工具,在偏微分方程、微分几何、代数拓扑、位势理论、弹性理论和物理学等领域中得到广泛应用。A-调和方程是一类非线性椭圆偏微分方
泛函方程的稳定性问题是在1940年由数学家S.Ulam提出的,即,设G是群,G(·,ρ)是度量群,对Vε>0,存在δ>0,使得对Vx,y∈G,满足不等式ρ(f(x·y),f(x)·f(y))<δ的映射f:G→G,是否