单自变量非参数与参数回归模型的比较研究及最优模型的智能化构建

来源 :中国人民解放军军事医学科学院 | 被引量 : 6次 | 上传用户:say_8139
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】在实际的科研中,经常会碰到数据分布不满足参数模型假设的前提条件,或对数据所来自的总体的分布信息不明确的场合,在这种情况下,通常参数模型拟合出的回归方程的效果会不尽人意。本文通过比较单自变量非参数回归模型与参数回归模型的拟合效果的优劣,并针对可直线化的单自变量曲线类型,发现和推荐最优的曲线拟合方法,探讨非参数回归在满足和不满足严格参数假定条件下的应用,扩展非参数回归的应用场合,修正传统的关于非参数回归应用的某些观点,并采用SAS软件智能化实现最优模型的构建。【内容】本研究涉及常见的单调变化曲线四种,非单调变化的曲线一种以及参数回归和非参数回归两类模型。在参数回归模型中,对曲线的拟合常采用曲线直线化的方法,将几种模型对同一数据集进行拟合,比较最终的拟合结果,取拟合效果最佳的模型。而非参数回归模型依据窗宽选取准则,只要选取最佳窗宽就能得到较好的拟合效果。本研究涉及的曲线,取五种常见的可直线化的曲线类型,即对数函数曲线、双曲函数曲线、幂函数曲线、指数函数曲线和logistic函数曲线,其中前四种属于单调变化的曲线,而logistic函数曲线属于非单调变化曲线。上述五种曲线均可采用曲线直线化法拟合回归方程,将相应的函数方程进行变换,使变换后的两变量之间呈直线关系,进行回归分析估计模型参数,得出回归方程,再还原成原变量。然而,对logistic曲线而言,还可通过引入虚拟的多个自变量并采用二项式回归、三项式回归实现曲线拟合,但在本质上仍是曲线直线化法;也可基于模型参数粗估值,直接进行非线性回归。它们均属于参数模型回归方法。参数回归模型只有对那些分布很明确的数据类型且应用对此类分布数据的针对性强的回归模型,其拟合效果会比较好。一旦数据分布类型不明确,或者对于一些即便数据分布类型很明确,但所应用的参数回归模型不适用此类数据分布,其最终的拟合效果就不好。非参数回归模型则采用常见的核回归、样条回归、局部多项式回归和可加模型回归。其中核回归估计,在SAS中并没有现成的过程可调用,依据其计算原理应用IML进行编程,使SAS具有核回归分析的功能,输出预测值。利用统计软件对每一种相应的曲线公式所产生的数据集进行编程分析,对每种曲线,分别将其所选取的四种参数回归模型和四种非参数回归模型全部编在一个程序中,实现程序的自动判断,自动比较,自动输出结果。【方法】利用蒙特卡罗技术分别在(0,10]、[10,100]、[100,1000]、(0,10000]四个区间内抽样。对于前三个区间,由于区间范围不大,因此每次抽取10个样本点,对每个区间分别抽取10批、100批和1000批,即分别相当于产生10个、100个、1000个数据集,每个数据集中包含10个样本点。而对于最后一个区间由于区间跨度大,故每个数据集抽取的样本点为100个。将每个数据集中的x值代入给定的函数表达式产生相应的y值。对在每一个区间内进行的每一批抽样所产生的数据集分别用四种非参数方法和四种参数方法拟合曲线回归方程,并进行下面的工作。1.比较四种非参数回归模型的拟合效果;2.比较四种参数回归模型的拟合效果;3.分别将四种非参数回归模型以及四种参数回归模型中拟合效果最好的模型选择出来,对二者的拟合效果进行假设检验,看其差异是否有统计学意义;4.将八种方法的拟合效果从大到小进行排序,选择出拟合效果最好的一种拟合方法。对于拟合效果的评价,由于参与比较的模型考察的是仅有一个自变量和一个因变量,故选择决定系数R~2和均方差MSE作为评判拟合效果的标准。其余的比较标准在自变量只有一个的情况下,其本质都是一样的,万变不离其宗即RSS(误差项的离差平方和)的值越小越好。整个过程需要借助软件来实现,对于软件的编程应用,由于统计软件SAS有着丰富的过程,用到的非参数回归过程有LOESS(局部多项式回归)、TPSPLINE(样条回归)、GAM(可加模型)。目前核回归在SAS中没有现成的过程可以应用,通过SAS提供的IML(矩阵)过程根据计算原理进行手工编程,参数回归中通过曲线直线化得到的四种曲线回归模型应用REG过程进行拟合。将八种回归方法全部都编在一个程序中,令每种方法计算出残差平方和、误差自由度、R2、均方差(mse),对于模型的检验,根据公式手工编程输出检验的P值。通过编制好的软件对每一种相应的曲线公式所产生的数据集进行分析,使整个过程实现程序的自动判断,自动比较,自动输出结果。【结果】每种曲线的每个区间内的每一批抽样都是非参数回归的拟合效果优于参数回归的拟合效果,特别是对单调变化的曲线,每次对非参数回归和参数回归的拟合效果进行假设检验其差异都具有统计学意义。单调变化的曲线,参数回归模型的表现不及非参数回归模型稳定,其表现为当某种特定的数据分布特征很明显时,针对这种数据分布的参数回归模型的拟合效果比较好,但其余参数回归模型的拟合效果很不理想,这也再一次验证了参数回归模型只有在满足严格的假定前提下其模型才有价值。而对于非参数回归模型来说,不管数据集中的数据分布如何变化,依然有很好的拟合效果。对于非单调变化的logistic曲线,非线性回归及三次项回归的拟合效果优于logistic曲线直线化的效果,当每个点对应的多个y值间的差值非常小的时候参数回归的拟合效果和非参数回归的拟和效果之间没有差异,但决定系数还是非参数回归要大于参数回归,且均方差是非参数回归模型小于参数回归模型。但是,除了拟合出的数据和参数回归模型的严格假定非常吻合这种情况之外,其余情况同样是非参数回归模型优于参数回归模型且拟合效果之间的差异有统计学意义。在实际的应用中也体现出在数据描述、探索及拟合方面非参数回归相对于参数回归更具优势。【结论】参数回归对数据的条件要求严格,相对而言非参数回归对资料几乎没有任何要求,不拘泥于总体分布的具体形式,从样本或数据本身获得所需要的信息,并充分利用数据信息构建模型,使各点上的估计值尽可能地接近实测值。其效率高,拟合效果好,结果具有稳健性,其中非参数回归模型中局部多项式回归比其余三种回归更有效。非参数回归模型比参数回归模型更能展示出数据变化的真实情况,因此仅从对数据之间变化规律的描述和拟合这方面来说,非参数回归模型优于参数回归模型。
其他文献
在核心素养的教育背景下,更加关注学生对知识、技能的体验与获得的过程。语文学科核心素养是学生通过语文学习而逐步形成的关键能力、必备品格与价值观念。《普通高中语文课
采用国际上广泛使用的PSVT:R方法对选修机械制图课程的机械学院大学一年级新生进行了空间能力测试和分析,进而跟踪研究学生空间能力对机械制图课程学习的影响。结果表明,总体
【目的】生物炭在农田土壤固碳和调节氮循环方面具有巨大潜力。微生物是土壤碳氮转化的主要驱动者,但生物炭对土壤微生物碳氮代谢功能的影响还缺乏全面认识。以棉花秸秆及其生物炭为研究对象,阐明秸秆和秸秆炭对土壤有机碳氮含量影响的差异;分析土壤微生物群落组成对秸秆炭的响应,探讨微生物群落代谢活性和功能的变化,为棉花秸秆和秸秆炭的资源化利用提供理论依据。【方法】田间试验于20172018年在长期定位试验站进行,
李煜的词作自始至终都饱含着丰富的情感,有乐有怨,有愁有恨,错综复杂。但是,从整体上看,李煜词的情感变化是有一定规律可循的。主要表现为在内容上由小而大,在情感处理方式上
对旋转机械重要部件进行可靠、全面的性能退化评估已成为设备状态监测领域的研究热点。本文以型号为6307单列深沟球轴承为研究对象,基于S变换时频谱探索提取新的更加有效的特征指标将其应用到对滚动轴承的性能退化评估中。全文主要内容如下:(1)对S变换时频谱进行了不同角度的复杂度度量。对S变换时频谱整体进行复杂度度量提出了S-时频熵;对S变换时频谱沿时间序列展开进行复杂度度量提出了S-时间熵;对S变换时频谱
设计是设计者运用专业知识和个人经验得出设计决策的过程。目前大多数记录的设计信息只能描述设计结果是什么,而不能表达设计是如何展开的以及为什么按照这种方式进行。针对
本文主要研究长宁页岩气田地面集输工艺系统,传统的气田地面工艺技术基本采用高压集气,其适用于单井控制储量大、井口压力高,稳产时间长、连通性好的气田,若采用该模式开发长
随着物联网信息技术的快速发展,广域网络的应用已经普及,针对低功耗、广覆盖、大接入、低成本的物联网应用场景其需求也在不断增加,为了满足这类场景的应用需求,低功耗广域网
本研究选取改革开放以来人口出生率等数据构建模型,采用逐步回归法和广义差分法对总模型的多重共线性和序列相关性进行修正,得出反映人口组成的少儿抚养比与老年抚养比是影响