面向大数据的高效特征选择与学习算法研究

来源 :西南交通大学 | 被引量 : 13次 | 上传用户:yaci
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网、物联网、云计算、三网融合等IT与通讯技术的迅猛发展,数据的快速增长成了许多行业共同面对的严峻挑战和宝贵机遇,信息社会已经进入了“大数据”时代。在当前大数据环境下,挖掘其中蕴含的知识以指导实际生产和具体应用,特征选择和学习的重要性更加凸显,不仅可以有效解决“维数灾难”,缓解“信息丰富、知识贫乏”现状,降低复杂度;而且可以更好地认识和理解数据。本文面向大数据,开展了并行大规模特征选择、复杂数据融合与高效学习、基于深度学习的特征表示模型、算法及应用研究。主要研究工作和创新概述分为以下四个部分。第一部分:并行大规模特征选择(第3章)构建了一个统一的并行大规模特征选择框架,进而提出了相应的模型并行方法、数据并行方法和模型-数据并行方法。以启发式特征选择为研究对象,分析其核心是特征重要度的计算,进而给出了统一的特征评价函数表示方法。基于该框架,给出了四种典型特征评价函数的分治方法,并分别设计了基于MapReduce和Spark的并行大规模特征选择算法。进一步引入粒计算理论对特征选择过程进行优化加速,并结合模型-数据并行方法,提出了PLAR-MDP算法。最后用UCI公共数据集、天文大数据集等在大数据计算平台Hadoop和Spark对算法的有效性进行了评测、分析和比较,验证了算法的有效性,同时说明了模型并行、数据并行和粒计算方法的有机结合可以最大限度提高数据处理性能。第二部分:复杂数据融合及高效学习算法(第4章)给出了复合信息系统的定义,进而扩展了粗糙集模型,提出了复合粗糙集模型。该模型可以同时处理多种数据类型,为复杂数据融合提供了一个新的方法。概念近似是基于粗糙集模型的特征选择算法的核心步骤,为有效计算概念近似,通过引入基本向量的概念,提出了复合粗糙集模型中近似集的矩阵表示方法,并设计了基于矩阵的近似集计算的批处理算法以及基于单GPU和GPU集群的并行算法。最后,利用人工数据集和UCI公共数据集进行实验评测,验证了算法的有效性,而且实验结果表明在GPU集群上算法的加速比高,性能得到了大幅度提升。第三部分:基于深度学习的特征表示模型(第5章)提出了基于深度学习的特征表示模型:SUGAR。该模型包括主网络、辅助网络和桥三部分,可以同时从标记数据和无标记数据中学习数据表征。其中主网络和辅助网络分别采用自编码器和哈希学习方法来构建,并应用L1正则惩罚对参数进行约束以获得鲁棒性强的特征,桥的作用是使得主网络和辅助网络参数尽可能接近。设计了基于小批次随机梯度下降的SUGAR模型训练算法。分别结合DAE和CAE模型,给出了"SUGAR with DAE"和"SUGAR with CAE’扩展模型。进而采用堆栈方式将多个SUGAR模型累加,建立了基于SUGAR的深度学习模型:DeepSUGAR。最后在经典的数字分类问题和8个深度学习基准数据集对算法进行评测、分析和比较,验证了算法的有效性,说明了所提出的深度学习模型可以产生更好的、鲁棒性更强的特征表示,有效提高分类精度。第四部分:特征学习模型在天文光谱识别中的应用(第6章)回顾了天文恒星光谱的特点及传统处理方法,进而根据恒星光谱的特点,提出了基于深度学习的特征表示方法LLDL。 LLDL模型包括多个局部线性Maxout网络作为其隐含层,并应用Dropout技术来正则化Maxout网络。进而设计了基于随机梯度下降和Momentum的LLDL模型训练算法,并在多核CPU和GPU上进行算法实现。最后用公共的天文大数据集SDSS和LAMOST对算法进行评测、分析和比较,验证了算法的有效性,相比于其他机器学习模型,包括SVM、逻辑斯特回归、深度ReLU模型等,LLDL的分类性能更优且具有较强的抗噪声能力。
其他文献
为了明确河南烟田危害烟草的镰刀菌种类,以烟叶主产区典型病株为样本,用组织分离法获得纯菌株,并对所得菌株进行形态学鉴定、rDNA-ITS序列分析及致病性测定.形态学观察结果表
基于2004—2016年30个省市的省际面板数据,运用生产函数法测度要素市场扭曲指数,引入地区人力资本、R&D投入、城镇化水平、经济发展水平、基础设施建设以及外商直接投资作为
目的观察黄芪甲苷对磷脂酰肌醇3-激酶(PI3K)/蛋白激酶B(Akt)/哺乳动物雷帕霉素靶蛋白(mTOR)信号通路的调控,研究黄芪甲苷抗动脉粥样硬化的作用机制。方法体外细胞实验中,将小
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的探讨老年脑外伤患者围术期格拉斯哥昏迷(GCS)评分和血液流变学变化对术后继发大面积脑梗死的评估价值。方法选取2012年1月至2013年11月该院收治的老年脑外伤患者148例成
【目的】为有效评估烟草工业企业立体仓库物流效率,对A烟草工业企业立体仓库的物流作业进行分析。【方法】建立烟草工业企业立体仓库物流效率指标评价体系,对各项评价指标进