两类自适应稀疏学习机及其在高维数据挖掘中的应用

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:lpdshr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代高维数据的不断积累,以支持向量机为代表的传统统计学习方法不能很好地进行高维变量选择.发展新型的自适应稀疏学习机为进行高维数据挖掘提供了新的思路.为此本文有机结合统计学,系统生物学和信息论方法,发展了两种具有生物可解释性的自适应稀疏学习模型和求解算法,并将其分别应用到高维数据分析中,都获得了较好的分类和基因选择性能.本文的主要创新如下:(1)针对群lasso惩罚类方法处理二分类高维数据面临的提前变量分群,自适应的群内变量选择,生物可解释性等难题,我们致力于开展基于网络分析的变量分群策略和新型自适应惩罚机制研究,据此提出了融合网络分析和信息学理论方法的自适应稀疏群lasso.首先,将网络分析中的网络模块识别与群lasso中的变量分群有机联系起来,利用加权基因共表达网络分析方法辨识出具有良好生物交互关系的模块.其次,利用条件交互信息等信息论方法在每一个被划分的群内构建变量重要性的评价准则,据此构造具有生物可解释性的权重系数并将其添加到惩罚项的合适位置来自适应地进行变量选择.最后,在四种高维癌症生物数据上的结果验证了所提的自适应稀疏学习机能够有效地进行分类和群体基因选择.(2)针对群惩罚多项式回归处理多类分类高维数据中出现的自适应变量选择,生物可解释性等难题,我们提出了融合网络分析方法的稀疏多项式回归.通过结合生物学资源和基因表达谱信息,我们利用GeneRank构建了具有生物学意义的权重并引入到群lasso惩罚中,提出了一种新的自适应稀疏学习机.最终在酵母二次转化数据上的实验结果验证了所提的模型与其它模型相比取得了较好的分类和基因选择性能.
其他文献
邓小平同志关于党风廉政建设和反腐败斗争的思想,是邓小平理论的重要组成部分。邓小平同志十分重视党风廉政建设。早在“拨乱反正”一开始,在党的工作重点转移到经济建设的同
本文研究带有对流项a(x).▽u的非线性反应扩散方程初边值问题()解的长时间行为,其中Ω是Rn中的光滑有界区域。   对于这类方程,我们首先用Galerkin方法得到了解的存在性,
随着我国石油工业的发展,我国在2000m3斜板罐的安装技术上取得了很大的突破。由于斜板罐在油田水处理过程中发挥着日益重要的作用,因此,在油建企业中有关2000m3斜板罐安装技术方
随机图论是现代图论的一个重要分支,它主要用概率论和随机过程的方法研究图的结构性质和代数性质,以期通过随机的方法来刻画图的各种参数性质,如度分布的存在性,染色数、连通度的
非凸规划问题作为一类重要的优化问题,能广泛应用于经济金融、信息技术、工业制造等多个重要领域.通常情况下,该类问题往往存在多个非全局最优的局部最优解,因此寻找其全局最优
通过在电厂3#锅炉上安装HQ型声波吹灰器,有效解决了锅炉省煤器、过热器积灰严重的问题,锅炉排烟温度高由190℃降低至175℃以下,提高了锅炉热效率,每年可节约能耗运行成本和烟气除
非平衡数据集分类问题是模式识别、机器学习和数据挖掘领域中的常见问题,也是热点问题,吸引着众多学者的眼球。非平衡数据集是指数据集类别之间存在倾斜,某一类别样本比其它
1949年12月11日,国民党第72军军长郭汝瑰率部在四川起义,突如其来的行动,使西南数十万蒋军手忙脚乱。国民党当局不知所措,大骂郭汝瑰是“共谍”,后来检讨“戡乱”失败原因时
近期以来,中石油总经理马富才、北京市密云县县长张文、吉林省吉林市市长刚占标、海宁市市长张仁贵等一些领导干部相继引咎辞职,成为新闻报道和群众关注的热点。人们在对有关
设s,m为给定的正整数,X为3m元集合.X上边为s的3m阶广义Kirkman方,简记为GKS(s,3m),是一个s×s阵列,其满足以下条件:   (1)每一位置或为空,或包含X中的一个3元子集;   (2)每行每