论文部分内容阅读
基因微阵列技术为生物学研究提供了新的视角,但其维度高、样本少的特点也对生物学家、统计学家及机器学习研究者提出了挑战。如何从微阵列数据中提取出有效的知识一直是研究的重点和难点。目前的研究已经能够从一些基因微阵列疾病数据中提取生物学知识,自动生成分类规则。这些规则被有效地用于疾病分类、治疗等领域,极大地推进了对基因微阵列数据的研究热情。 近年的一些进展表明,在基因微阵列分类问题中,基因之间的动态关系对于分类是有效的。这给分类器设计带来新的启示。本文集中于对基因微阵列中动态分类规则挖掘方法的研究,主要成果是提出了两种新的动态分类规则提取算法,用于自动地从数据中挖掘出有效规则。 第一种算法为GA-ESP。该算法使用TSP方法提取有信息量的基因对,并在基因对上分别使用SVM(支持向量机)构建基分类器。最后,遗传算法被用于选择基分类器的最佳组合。通过二类数据和多类数据中的实验及分析,该算法的有效性得到证明。该算法在较难分类的二类数据及多类数据当中相对k-TSP算法有明显改进。 第二种算法是一种新的基于计算动词规则的分类器。文中提出了一种适用于基因微阵列数据的分类器框架及其学习算法。通过该算法我们可以根据需求设计其参数,用于提取相应的动态规则。文中在理论上分析了该分类器的决策界面,同时在二类数据中评估了该算法的准确率。实验证明该算法能够较好地针对基因微阵列数据进行分类,准确率与一些常用的分类器类似。