论文部分内容阅读
随着现代高维数据的不断积累,以支持向量机为代表的传统统计学习方法不能很好地进行高维变量选择.发展新型的自适应稀疏学习机为进行高维数据挖掘提供了新的思路.为此本文有机结合统计学,系统生物学和信息论方法,发展了两种具有生物可解释性的自适应稀疏学习模型和求解算法,并将其分别应用到高维数据分析中,都获得了较好的分类和基因选择性能.本文的主要创新如下:(1)针对群lasso惩罚类方法处理二分类高维数据面临的提前变量分群,自适应的群内变量选择,生物可解释性等难题,我们致力于开展基于网络分析的变量分群策略和新型自适应惩罚机制研究,据此提出了融合网络分析和信息学理论方法的自适应稀疏群lasso.首先,将网络分析中的网络模块识别与群lasso中的变量分群有机联系起来,利用加权基因共表达网络分析方法辨识出具有良好生物交互关系的模块.其次,利用条件交互信息等信息论方法在每一个被划分的群内构建变量重要性的评价准则,据此构造具有生物可解释性的权重系数并将其添加到惩罚项的合适位置来自适应地进行变量选择.最后,在四种高维癌症生物数据上的结果验证了所提的自适应稀疏学习机能够有效地进行分类和群体基因选择.(2)针对群惩罚多项式回归处理多类分类高维数据中出现的自适应变量选择,生物可解释性等难题,我们提出了融合网络分析方法的稀疏多项式回归.通过结合生物学资源和基因表达谱信息,我们利用GeneRank构建了具有生物学意义的权重并引入到群lasso惩罚中,提出了一种新的自适应稀疏学习机.最终在酵母二次转化数据上的实验结果验证了所提的模型与其它模型相比取得了较好的分类和基因选择性能.