论文部分内容阅读
近年来,随着高维问题研究的深入,模型选择的重要性更加凸显,但是因为模型选择存在不确定性,所以根据所选择的“最优模型”进行预测带来的风险就变的不容忽视,因此降低模型选择的不确定性和提高预测精度就成为统计学界的研究热点.模型平均是解决模型选择不确定性和降低预测误差的经典方法,但是在应用模型平均时存在以下问题:第一,选择哪些单项模型进行组合;第二,如何有效地利用历史数据建立模型平均估计;第三,如何解释模型平均估计.本文针对以上问题开展了以下研究:首先,针对模型平均中的单项模型选择问题,在正态线性回归模型的假设下,提出了ECS-LBM单项模型选择方法.我们首先引入了基于F检验的精确的置信集合和下边界模型集合两个概念,建立了ECS-LBM单项模型选择技术,在此基础上建立了ECS-LBM-ARM自适应模型平均估计方法,并证明了ECS-LBM所选择单项模型个数的有限性和ECS-LBM-ARM自适应模型平均估计预测风险的有界性.对于给定的显著水平aECS-LBM方法选择的单项模型集合以概率1一α包含了真实模型,经过ECS-LBM单项模型选择之后,理论结果证明ECS-LBM自适应模型平均估计趋于最优估计的速度比原来快.特别地.当ECS-LBM选择的真实模型为最优模型时,ECS-LBM-ARM预测风险得到了很好的改善.因此,在ECS-LBM方法上建立的模型平均估计不仅提高了预测精度,同时节约了计算时间,通过大量的模拟和实例分析,我们把自适应模型平均方法与当前比较流行的模型选择方法如LASSO, SCAD,MCP等做了比较,结果印证了模型平均的预测能力比模型选择方法好这一事实.其次,本文研究了自适应的变权重模型平均方法在时间序列中的应用和预测风险的有界性.为了解决时间序列中模型平均的单项模型选择问题,我们提出了序贯选择和扰动选择两种方法,并证明了经过单项模型选择之后建立的模型平均估计具有预测风险有界性.研究结果表明,经过模型选择之后,稳健的变权重自适应模型平均估计的预测风险惩罚项由降至也就意味着模型平均估计趋近于最优模型的速度在增加.对如何有效地利用历史数据建立模型平均估计问题,我们提出了预测误差平均比来度量滚动的模型平均与贪婪的模型平均预测的差异,并依此来选择最优窗宽.结合序贯选择和扰动选择两种单项模型选择方法,提出了滚动的变权重模型平均估计的思路,模拟结果和实证分析均表明了滚动的变权重模型平均预测优于贪婪的模型平均法.再次,在线性回归模型的框架下,本文从理论上证明了当被组合单项模型为线性估计时,模型平均估计仍然是线性估计,与常见的模型估计最大的区别在于模型平均估计是对被组合单项模型的加权平均,而不是来自于某种给定的估计方法.我们以自适应模型平均法为例,证明了基于模型平均的回归估计仍然满足自适应模型平均估计的预测风险性质,因此基于模型平均法不仅建立了可靠的回归估计,同时降低了模型选择的不确定性在预测时带来的风险.本文通过大量的模拟分析证明了基于模型平均所得回归估计的有效性,结果如下:第一,随着因子相关性或者误差的增加,最小二乘估计的标准偏离增加的速度远远大于平均估计;第二,稳健的模型平均估计能有效地解决误差为非正态分布的预测问题.第三,无论单项模型集合是否包含真实模型,模型平均的标准偏离都比AIC,BIC等模型选择方法小最后,针对高维回归的模型选择问题,本文通过实例分析和模拟分析说明了高维回归中的模型选择存在严重的不确定性,研究结果证明基于模型平均法的估计比LASSO,SCAD等方法更有效,但是不考虑降维过程中变量选择的偏(bias),模型平均估计仍然不能彻底解决高维回归的估计和预测问题.另外,我们讨论了模型平均与最优模型的关系,从回归的角度讨论了单项模型选择在模型平均中的意义,从时间序列季节与趋势分离的角度提出了放松的混合模型平均法,并结合中国各地区电力需求的数据分析说明了这一方法的有效性.