论文部分内容阅读
进化计算是当前人工智能、知识工程,数据挖掘中的研究热点。遗传算法和遗传编程,是众多进化计算模型中的两个最典型的模型。遗传算法采用线性编码、求解普通的优化问题。遗传编程则采用树形编码,试图求出解决问题的程序。F.Candida于2001年草创了新的进化计算模型基因表达式编程(Gene Expression Programming)。同时具有遗传算法的简单性、也具有遗传编程的功能。在对很多问题的求解效率上,比普通的遗传编程高2-4个数量级。F.Candida在草创的同时,留下了大量的理论空白,技术缺陷和遗憾之处。本文在前人工作的基础上对基因表达式编程的核心技术进行了研究,主要结果和贡献如下: (1)对基因表达式编程的基因编码进行了坪沦分析。给出了K-序列和表达式树之间的关系,指出它们之间的表达能力是一致的。随后在给出的定理中指出,基因表达式编程是可靠且完备的。满足t=h·(λ(F)-1)+1的GEP基因一定能够解码为一棵完整的表达式树。这为基因表达式编程的基因编码给出了理论依据。 (2)提出了更有理论背景的基于复相关系数的适应度函数。并对采用复相关系数作为评价函数的基因表达式编程进行了收敛性分析,指出,基于基因表达式编程的符号回归是依概率收敛到全局最优染色体的,针对符号回归中的常数问题,提出了MC常数方法,并进行了理论分析,结果表明,MC方式是简单但是却非常有效的,为了达到指定的精度,MC方法所付出的代价是对数级的。 (3)对基因表达式编程建立了上下文无关文法模型。指出基因表达式编程和仅含有单个非终结符的上下文无关文法在描述能力上是等价的。 (4)根据基因表达式编程的上下文无关文法模型,指出,基因表达式编程不能处理包含多个非终结符的上下文无关文法。提出了扩展的基因表达式编程方法,解决了基因表达式编程的这一重大不足。在扩展的基因表达式编程中给出四川大学博上学位论文了基因构造方法一等位I丈一表达式,多段基因。证明了扩展的基因表达式编程基因编码的有效性,同时指出,基因表达式编程就是扩展的基因表达式编程的特例。 (5)提出了新的概念谓词关联规则.和基于基因表达式编程的挖掘系统。分析挖掘系统的特性,证明了传统关联规则是谓词关联规则的特例。任何传统关联规则可以表示为·系列简单关联规则的与。提出井实现了谓词关联规则挖掘算法,井目.根据启发性知识,设计了特别的适应度函数。两组实验表明,算法是有效了的,能发现·些用传统关联规则挖掘算法不能发现的规则。基因表达式编程应用于谓词关联规则挖掘是成功的。 (6)提出了两种基于GEP的方法进行时间序列预测。滑动窗口预测法直接发现时间序列中历史数据到未来数据的函数关系,并以此进行预测。微分方程预测法则利用训练数据建立关于时间的高阶常微分方程,并在给定的初值条件下进行顶测。为了减小数据中噪声的影响,提出了微分显微插值方法,有效地过滤了数据中的噪声,并且使得一阶导数更加精确,提高了方法的可靠性。大量的实验,特别是在太阳黑子数据上的实验证明系统是有效的,性能是良好的。关键词:基因表达式编程,进化计算,遗传算法,遗传编程,上下文无关文法,谓词关联规则挖掘,时间序列预测