高维共线性统计模型的参数估计与变量选择

来源 :大连理工大学 | 被引量 : 2次 | 上传用户:xinhongwei678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
变量选择在统计研究特别是高维数据研究中占有极其重要的地位.实际问题中对模型影响程度较大的预测变量往往是比较少的,而研究者通常会在预测模型时给出许多可能的预测变量以尽量提高预测的准确程度,那么如何将这些重要的变量选择出来,以得到精确的预测模型是我们非常关心的问题,这就是变量选择的过程.加入惩罚函数的观点在变量选择的研究中是相当有用和有效的,这种方法能够将模型中显著变量的系数进行很小的压缩或者不压缩的保留于原模型中,而对于较小的系数会将其压缩为零,这样便实现了同时对模型变量的选择和对模型参数的估计的效果,进而显著提高了计算的效率.大部分问题在构造模型时还有可能存在另一种情况,即所提出的解释变量之间多数是具有很高的相关性的,特别是在具有很多变量参与即高维的情形下.这里我们更为关注对共线性问题的探讨.本文给出了我们关于高维数据中相关度过高(即共线性)的数据下的参数估计和变量选择问题的研究所取得的一些成果.本文的内容结构如下:文章第二部分讨论了组合惩罚下联合均值与方差模型的变量选择问题.该模型的提出是由于在回归模型中,对均值参数估计的有效性依赖于对方差参数的估计,因此对方差的讨论能更好地解释数据变化的原因和规律.这里我们对所提出的估计的相合性和渐近正态性做出了论证.同时将该模型与组合惩罚相结合,用于处理相关度较高的数据的变量选择.文章第三部分给出了参数发散的情况下广义线性模型的变量选择和参数估计的问题.在给出的组合惩罚之下得到了这种估计的渐近结果.提出的相应算法得到的模拟和实际数据分析结果说明了该组合惩罚对于处理相关性较高的模型具有重要的意义.文章第四部分讨论了超高维情况下广义线性模型的变量选择.应用SCAD-Ridge组合的惩罚,在一定的假设条件之下,证明了该模型的估计所具有的理论性质.当调整参数满足适当的条件时,该方法能够一致地选出真实模型,模拟结果也表明了这一方法是很有实际应用价值的.文章第五部分提出了一种新的很有实际意义的模型-混合总体广义线性模型.这一模型可以用来讨论混合总体中个体的特征情况,我们利用M-估计的方法对这个模型的参数进行了估计,同时证明了该估计具有相合性和渐近正态性.为了验证这一估计的优良程度我们给出了相应的模拟结果.
其他文献
随着香菇的食药价值、科研价值以及经济价值得到认可,香菇育种、栽培等技术发展,以及惠农政策的鼓励,香菇年产量逐年增高,2015年已达700多万吨。而菇柄作为香菇最大的附属产
针对当下一些知名诗人积极写作“里程碑式”长诗文本的现象,本文以柏桦《水绘仙侣一六四二-一六五二:冒辟疆与董小宛》、欧阳江河的《凤凰》、萧开愚《内地研究》、西川《万
目的:探究65岁以上老年人健康体检结果分析及社区干预。方法:选取社区进行免费检查的300例65岁以上老年人作为研究对象,将之分为65-70年龄组和70岁以上年龄组,分析体检结果报
温州作为改革开放的先锋,在经济发展上取得了举世瞩目的成绩。伴随着经济与社会发展城市形态也随之由一个典型的江南小城向沿海都市演化。研究演化的过程以及演化中存在的问
诱发地震的研究是近年来地震学研究当中的一个热门方向,但是对诱发地震的物理机制以及与人类操作之间的关系的研究一直是一个很具有挑战性的工作。在本论文中,我们围绕诱发地
我国自1998年住房分配体制改革以来,房地产行业迎来了高速发展的黄金期,与之对应,以住宅商品房为主的房地产价格也迅猛攀升。1998—2012年的15年间,全国商品房平均住宅价格增
近年来,为了解决中低收入群体的住房问题,我国加大了公租房的投资建设力度。我国大量公租房建面临的首要问题是资金来源问题,当前公租房建设资金的主要来源是政府财政支出、住房
由于历史原因造成的土地细碎化分割以及小农经济下的传统耕地经营方式使得土地的使用率低下,加之越来越多的农民加入务工大军,造成许多耕地资源的撂荒,浪费了本来就稀缺的土
在现代物流中,分送式配送是由一个供应点对多个客户共同送货,而现实生活中客户越来越注重物流配送时间要求。通过对含时间窗的分送式配送运输路径优化算法的研究,我们可以降低配
目的探讨银杏内酯注射液联合巴曲酶治疗急性脑梗死的临床疗效。方法选取2015年2月—2019年2月在河南医学高等专科学校附属医院治疗的急性脑梗死患者78例,根据用药的不同分为