论文部分内容阅读
【目的】在实际的科研中,经常会碰到数据分布不满足参数模型假设的前提条件,或对数据所来自的总体的分布信息不明确的场合,在这种情况下,通常参数模型拟合出的回归方程的效果会不尽人意。本文通过比较单自变量非参数回归模型与参数回归模型的拟合效果的优劣,并针对可直线化的单自变量曲线类型,发现和推荐最优的曲线拟合方法,探讨非参数回归在满足和不满足严格参数假定条件下的应用,扩展非参数回归的应用场合,修正传统的关于非参数回归应用的某些观点,并采用SAS软件智能化实现最优模型的构建。【内容】本研究涉及常见的单调变化曲线四种,非单调变化的曲线一种以及参数回归和非参数回归两类模型。在参数回归模型中,对曲线的拟合常采用曲线直线化的方法,将几种模型对同一数据集进行拟合,比较最终的拟合结果,取拟合效果最佳的模型。而非参数回归模型依据窗宽选取准则,只要选取最佳窗宽就能得到较好的拟合效果。本研究涉及的曲线,取五种常见的可直线化的曲线类型,即对数函数曲线、双曲函数曲线、幂函数曲线、指数函数曲线和logistic函数曲线,其中前四种属于单调变化的曲线,而logistic函数曲线属于非单调变化曲线。上述五种曲线均可采用曲线直线化法拟合回归方程,将相应的函数方程进行变换,使变换后的两变量之间呈直线关系,进行回归分析估计模型参数,得出回归方程,再还原成原变量。然而,对logistic曲线而言,还可通过引入虚拟的多个自变量并采用二项式回归、三项式回归实现曲线拟合,但在本质上仍是曲线直线化法;也可基于模型参数粗估值,直接进行非线性回归。它们均属于参数模型回归方法。参数回归模型只有对那些分布很明确的数据类型且应用对此类分布数据的针对性强的回归模型,其拟合效果会比较好。一旦数据分布类型不明确,或者对于一些即便数据分布类型很明确,但所应用的参数回归模型不适用此类数据分布,其最终的拟合效果就不好。非参数回归模型则采用常见的核回归、样条回归、局部多项式回归和可加模型回归。其中核回归估计,在SAS中并没有现成的过程可调用,依据其计算原理应用IML进行编程,使SAS具有核回归分析的功能,输出预测值。利用统计软件对每一种相应的曲线公式所产生的数据集进行编程分析,对每种曲线,分别将其所选取的四种参数回归模型和四种非参数回归模型全部编在一个程序中,实现程序的自动判断,自动比较,自动输出结果。【方法】利用蒙特卡罗技术分别在(0,10]、[10,100]、[100,1000]、(0,10000]四个区间内抽样。对于前三个区间,由于区间范围不大,因此每次抽取10个样本点,对每个区间分别抽取10批、100批和1000批,即分别相当于产生10个、100个、1000个数据集,每个数据集中包含10个样本点。而对于最后一个区间由于区间跨度大,故每个数据集抽取的样本点为100个。将每个数据集中的x值代入给定的函数表达式产生相应的y值。对在每一个区间内进行的每一批抽样所产生的数据集分别用四种非参数方法和四种参数方法拟合曲线回归方程,并进行下面的工作。1.比较四种非参数回归模型的拟合效果;2.比较四种参数回归模型的拟合效果;3.分别将四种非参数回归模型以及四种参数回归模型中拟合效果最好的模型选择出来,对二者的拟合效果进行假设检验,看其差异是否有统计学意义;4.将八种方法的拟合效果从大到小进行排序,选择出拟合效果最好的一种拟合方法。对于拟合效果的评价,由于参与比较的模型考察的是仅有一个自变量和一个因变量,故选择决定系数R~2和均方差MSE作为评判拟合效果的标准。其余的比较标准在自变量只有一个的情况下,其本质都是一样的,万变不离其宗即RSS(误差项的离差平方和)的值越小越好。整个过程需要借助软件来实现,对于软件的编程应用,由于统计软件SAS有着丰富的过程,用到的非参数回归过程有LOESS(局部多项式回归)、TPSPLINE(样条回归)、GAM(可加模型)。目前核回归在SAS中没有现成的过程可以应用,通过SAS提供的IML(矩阵)过程根据计算原理进行手工编程,参数回归中通过曲线直线化得到的四种曲线回归模型应用REG过程进行拟合。将八种回归方法全部都编在一个程序中,令每种方法计算出残差平方和、误差自由度、R2、均方差(mse),对于模型的检验,根据公式手工编程输出检验的P值。通过编制好的软件对每一种相应的曲线公式所产生的数据集进行分析,使整个过程实现程序的自动判断,自动比较,自动输出结果。【结果】每种曲线的每个区间内的每一批抽样都是非参数回归的拟合效果优于参数回归的拟合效果,特别是对单调变化的曲线,每次对非参数回归和参数回归的拟合效果进行假设检验其差异都具有统计学意义。单调变化的曲线,参数回归模型的表现不及非参数回归模型稳定,其表现为当某种特定的数据分布特征很明显时,针对这种数据分布的参数回归模型的拟合效果比较好,但其余参数回归模型的拟合效果很不理想,这也再一次验证了参数回归模型只有在满足严格的假定前提下其模型才有价值。而对于非参数回归模型来说,不管数据集中的数据分布如何变化,依然有很好的拟合效果。对于非单调变化的logistic曲线,非线性回归及三次项回归的拟合效果优于logistic曲线直线化的效果,当每个点对应的多个y值间的差值非常小的时候参数回归的拟合效果和非参数回归的拟和效果之间没有差异,但决定系数还是非参数回归要大于参数回归,且均方差是非参数回归模型小于参数回归模型。但是,除了拟合出的数据和参数回归模型的严格假定非常吻合这种情况之外,其余情况同样是非参数回归模型优于参数回归模型且拟合效果之间的差异有统计学意义。在实际的应用中也体现出在数据描述、探索及拟合方面非参数回归相对于参数回归更具优势。【结论】参数回归对数据的条件要求严格,相对而言非参数回归对资料几乎没有任何要求,不拘泥于总体分布的具体形式,从样本或数据本身获得所需要的信息,并充分利用数据信息构建模型,使各点上的估计值尽可能地接近实测值。其效率高,拟合效果好,结果具有稳健性,其中非参数回归模型中局部多项式回归比其余三种回归更有效。非参数回归模型比参数回归模型更能展示出数据变化的真实情况,因此仅从对数据之间变化规律的描述和拟合这方面来说,非参数回归模型优于参数回归模型。