两类自适应稀疏学习机及其在高维数据挖掘中的应用

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:lpdshr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代高维数据的不断积累,以支持向量机为代表的传统统计学习方法不能很好地进行高维变量选择.发展新型的自适应稀疏学习机为进行高维数据挖掘提供了新的思路.为此本文有机结合统计学,系统生物学和信息论方法,发展了两种具有生物可解释性的自适应稀疏学习模型和求解算法,并将其分别应用到高维数据分析中,都获得了较好的分类和基因选择性能.本文的主要创新如下:(1)针对群lasso惩罚类方法处理二分类高维数据面临的提前变量分群,自适应的群内变量选择,生物可解释性等难题,我们致力于开展基于网络分析的变量分群策略和新型自适应惩罚机制研究,据此提出了融合网络分析和信息学理论方法的自适应稀疏群lasso.首先,将网络分析中的网络模块识别与群lasso中的变量分群有机联系起来,利用加权基因共表达网络分析方法辨识出具有良好生物交互关系的模块.其次,利用条件交互信息等信息论方法在每一个被划分的群内构建变量重要性的评价准则,据此构造具有生物可解释性的权重系数并将其添加到惩罚项的合适位置来自适应地进行变量选择.最后,在四种高维癌症生物数据上的结果验证了所提的自适应稀疏学习机能够有效地进行分类和群体基因选择.(2)针对群惩罚多项式回归处理多类分类高维数据中出现的自适应变量选择,生物可解释性等难题,我们提出了融合网络分析方法的稀疏多项式回归.通过结合生物学资源和基因表达谱信息,我们利用GeneRank构建了具有生物学意义的权重并引入到群lasso惩罚中,提出了一种新的自适应稀疏学习机.最终在酵母二次转化数据上的实验结果验证了所提的模型与其它模型相比取得了较好的分类和基因选择性能.
其他文献
本文研究带有对流项a(x).▽u的非线性反应扩散方程初边值问题()解的长时间行为,其中Ω是Rn中的光滑有界区域。   对于这类方程,我们首先用Galerkin方法得到了解的存在性,
随机图论是现代图论的一个重要分支,它主要用概率论和随机过程的方法研究图的结构性质和代数性质,以期通过随机的方法来刻画图的各种参数性质,如度分布的存在性,染色数、连通度的
非凸规划问题作为一类重要的优化问题,能广泛应用于经济金融、信息技术、工业制造等多个重要领域.通常情况下,该类问题往往存在多个非全局最优的局部最优解,因此寻找其全局最优
非平衡数据集分类问题是模式识别、机器学习和数据挖掘领域中的常见问题,也是热点问题,吸引着众多学者的眼球。非平衡数据集是指数据集类别之间存在倾斜,某一类别样本比其它
设s,m为给定的正整数,X为3m元集合.X上边为s的3m阶广义Kirkman方,简记为GKS(s,3m),是一个s×s阵列,其满足以下条件:   (1)每一位置或为空,或包含X中的一个3元子集;   (2)每行每