一种基于AICc的新信息准则-bAICc

来源 :吉林大学 | 被引量 : 0次 | 上传用户:fuming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据分析时经常需要建立一个统计学模型,此时首先需要考虑的是究竟哪几个变量对响应变量产生影响,需要使用哪几个变量建立模型,因此变量的选择是建立统计模型时至关重要的一步.很多统计学的方法都可以用来进行变量的选择,从而用选择出来的变量构建一个“最好”的模型,然而究竟什么是“最好”的模型?“最好”可以是指在数据拟合方面,也可以是指在未来数据预测方面.有很多可以用于变量选择的方法,其中信息准则是经常使用的一类工具.在众多用于变量选择的信息准则中,AIC是应用十分广泛的一个信息准则,甚至可以说AIC是第一个得到广泛认可的信息准则.每一个备选的模型都对应一个AIC值,其值越小,则所对应的模型越好.随后大量的学者对于AIC在不同的框架下都进行了相应的修正,众所周知,传统的AIC在选择备选模型的时候存在过度拟合的问题,也就是被选中的最佳模型,往往会在包含了所有真实变量的前提下又额外包含了若干个假的变量,甚至会选中全模型做为最佳模型,而在小样本的情况下,这一点表现的尤为明显.在众多AIC类信息准则中,AICc是AIC的一个有效的修正,也是应用最为广泛的AIC类信息准则,AICc对于AIC的优势主要体现在使用小样本进行变量的选择上,此时AICc的表现要明显优于AIC.然而,随着样本容量的增大,AICc会失去相较于AIC的优势.为了克服AICc这一缺陷,充分的利用AICc的优势,本文在线性模型以及广义线性模型的框架下,提出了一个基于AICc的新的变量选择准则,在本文中称为分块AICc,简记为bAICc.该方法为了应用AICc在小样本上的优良性质,因此提出了一种分块的思想,并且与AICc相结合.本文在多种模型假设下探究了随着分块样本容量的变化bAICc的表现情况.在此基础上,考虑到相合性是信息准则的一个优良性质,如果一个信息准则是具有相合性的,那么当样本容量足够大的时候,这个信息准则可以选出正确的模型.本文在线性模型框架以及一定的假设下,给出了 AICc与 bAICc关于相合性的三个定理.证明了 AICc在拟合不足的备选模型集合中选取最佳模型是具有相合性的,并且证明了真实模型的AICc值小于任意一过度拟合模型的AICc值的概率大于二分之一,基于此证明了新提出的信息准则bAICc是具有相合性的.假设M0表示真实模型,考虑备选模型Mk,其中k = 1,...,K,则所有备选模型的集合A={M k|k=1,...,K}过度拟合的模型集合A1={Mk∈A |M0(?)Mk } 拟合不足的模型集合A2 = {Mk ∈ A|M0(?)Mk或Mk = M0},此时有A1 UA2 = A.对于定理1,在线性模型框架下,假设真实模型M0的回归系数向量是βE,备选模型Mk的回归系数向量是β,βE与β的维数均是p× 1,分别含有p0与P个非零元素,其余元素为0,表示真实模型与备选模型的维数是P0与p(p0,p≤p),且l(βE;y)与l(β;y)分别是真实模型与备选模型所对应的对数似然函数,假设:(C1)l(βE;y)-l(β;y)收敛到一个正数或者是趋近于正无穷;(C2)βE是βE的相合估计;(C3)β不是βE的相合估计.其中 ∧表示极大似然估计.在如上的三个假设的基础上,有定理1.定理1当从备选模型集合A2中选取最佳模型时,AICc是具有相合性的,即AICc(M0)<AICc(Mk)恒成立,其中 Mk ∈ A2 且 Mk ≠ M0,AICc(M0)与 AICc(Mk)分别是真实模型与备选模型的AICc值.对于过度拟合模型模型集合A1,有如下定理2.定理2当从备选模型集合A1中选取最佳模型时,AICc是不具有相合性的,AICc会有一定的概率选中过度拟合的模型,但是真实模型M0的AICc值小于任一过度拟合模型Mk的AICc值的概率大于1/2,也就是P{AICc(M0)<AICc(Mk)}>1/2,其中 Mk ∈ A1 且 Mk ≠M0.从以上的定理可以看出,当样本容量足够大的时候AICc是可以排除拟合不足的模型的,因此AICc之所以不具有相合性,是由于AICc有一定的概率选中过度拟合的模型,这也验证了在实际数据分析中AICc容易选中过度拟合模型的现象.不失一般性,假设备选模型集合A中存在一个过度拟合的模型,根据定理1与定理2,证明有如下关于 bAICc 相合性的定理3.定理3当分块数B → +∞时,bAICc是具有相合性的信息准则,P(bAICc(M0)>bAICc(Mk))→ 1,其中Mk ∈ A 且 Mk≠ M0,bAICc(M0)与bAICc(Mk)分别表示真实模型与备选模型的bAICc值.提出新的信息准则bAICc后,在线性回归模型,二项回归模型,泊松回归模型以及伽玛回归模型的假设下,进一步进行了模拟实验,并且将该新提出的信息准则与其他常见的6个信息准则进行了对比,也表明了该信息准则在多种模型框架下的良好表现.bAICc在样本容量足够大的时候表现明显优于其余非相合性的信息准则,这也意味着实际上bAICc在广义线性模型框架下,也是应该具有相合性的.同时在实际数据分析中使用应用广泛的二项回归模型与泊松回归模型分析了三个真实的数据集,一个是某地区孩子出生率的数据集,一个是蜗牛在一定的生态环境下存活数量的数据集,一个是鱼类眼部寄生虫数量的数据集.大量的数值模拟实验以及实际数据集的分析,都验证了该新方法在变量选择上是一个较好的信息准则.
其他文献
茶籽粉是一种从天然植物茶籽中提取的天然表面活性剂,这种生物源表面活性剂应用广泛,可用于金属电镀、化工、杀虫剂和建筑材料等行业。茶籽粉主要用于金属零件电镀前的清洁步
在我国,培养广大学生群体的政治认同,是使社会成员团结凝聚、更坚定新时代中国特色社会主义思想的本质需要。文章从新课改关注的学科核心素养出发,研究政治认同素养在高中思
基层治理现代化是国家治理体系和治理能力现代化的基础,扫黑除恶是推动国家治理体系和治理能力现代化的攻坚战。从基层治理现代化的角度出发,如何在法治框架下推动扫黑除恶直