基于PLS的变量选择及其在高维数据中的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:MHSLOVE
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
变量选择,又称特征选择,是信息与模式识别领域的研究热点之一。随着人工智能和计算机技术的迅速发展及应用,变量选择的研究领域不断拓宽,变量选择的方法研究也取得了较大的进展,基于统计方法或机器学习的理论成果不断涌现,其中一些在实际工程应用中已经显示出了巨大的潜力。本文主要研究多元统计回归分析中的偏最小二乘方法用于变量选择。针对过程分析领域与生物信息领域中数据表现出来的高维特点,以基于PLS的变量选择方法和机器学习中的回归算法为基本工具,在对具体应用领域中数据的处理问题和方法加以阐述的基础上,确定了最优分析模型,并对所选择的重要变量做了初步解释,有助于认识研究对象本质或了解生产过程机理,应用结果表明了算法的有效性和实际意义。对于在线过程分析中得到的近红外光谱数据,考虑数据特点,提出基于偏最小二乘的变量加权方法,结合非线性回归分析能力强的高斯过程机器学习算法,解决了在变量数远远高于样本数的情况下,出现的“信息饱和”问题。对于生物信息学中的必需基因识别问题,利用Z曲线分析的方法提取DNA序列特征,在反映基因信息的特征数众多,且存在多重相关性时,提出基于无信息变量消除的迭代特征选择方法,结合偏最小二乘分类器,进行必需基因的识别,并寻找对基因必需性影响重要的特征。
其他文献
<正>耕森先生大鉴:忻闻黄山书院拟以"大道和生说"为题,召开黄山文化书院成立二十五周年年会,不能躬逢盛况,谨先致贺忱。史伯之千古名言:"和实生物,同则不继。以他平他谓之和,
通过调查和分析,对中学生参与课外体育活动的情况有个全面的调查了解,加强对中学课外体育活动的管理,积极推进中学生课外体育活动事业改革发展。结论:1)参加课外体育活动的学
焊接工装夹具作为一门专业非主干课,具有课程难度大、知识点较抽象、实践性和应用性很强的特点,但在课程设计及工程中得到综合运用,因此,探索有效的教学方法,提高教学质量显
针对传感器输入输出存在的非线性特性,本文利用BP神经网络、粒子群算法优化的BP神经网络和遗传算法优化的BP神经网络三种方法来对传感器进行非线性标定,并通过电容式加速度传
目的:以BCSⅡ类(Biopharmaceutics Classification System,BCS)难溶性药物为模型药物,设计纳米乳给药系统((self)namoemulsion drug delivery system,(S)NEDDS),采用体外细胞模型,脂解
<正>近几年来,随着人们生活水平的不断提高,人们对鸡肉的品质提出了更高的要求,普通肉鸡已经不能满足市场需求,人们更青睐于肉质好、肉味鲜美的土种肉鸡。据调查,南方经济较
期刊
目的:探讨运动想象疗法结合头针疗法对脑卒中患者平衡功能障碍的治疗效果。方法将70例脑卒中偏瘫患者随机分为治疗组和对照组各35例,两组患者均进行常规康复训练。对照组同时采
骨性关节炎(osteoarthritis,OA)又称退行性关节病、骨关节病或肥大性关节炎,是一种常见的风湿性疾病。其病理特点为关节软骨损伤,关节边缘和软骨下骨反应性增生,主要临床表现为
伴随着我国城市化步伐的加快,建筑工程也得到了很大的发展,但是,目前建筑工程的需求量和建筑规模逐渐增大,它的安全和质量也逐渐成为人们重点关注的方面。在整个建筑工程的施