论文部分内容阅读
大数据时代,研究事物之间的关联是必不可少的的课题.事物之间的关联性十分复杂,要从这些数据中获取有用的信息,相关性分析是其中重要的方法之一.它从简单的身高遗传问题逐渐衍生到多个领域,其中,偏相关的分析问题备受研究者关注.所谓偏相关分析指的是对于多个定距变量,把其他变量的影响排除后,再对某两个变量的相关性进行分析,与简单相关分析相比,它能够更准确的反映变量间真实的、本质的关联性.在统计学中,用偏相关系数这一统计量来度量变量间的相关程度和相关方向,它的研究是建立在变量的总体服从正态分布的基础上.在线性情形下,偏相关系数等价于控制某一变量不变的条件下其他变量的条件相关.但大多数情况下,变量之间的关系非常复杂,并非都是线性关系,非线性可能占据一大部分,在这种情况下,用偏相关系数度量的相关性的准确度就会降低,甚至与实际有较大的差异.由于目前对于这一问题的研究较少,因此本文就非线性关系的变量间的相关分析进行研究.偏相关使用中,对基本假设的忽略,使得偏相关分析的准确性受到影响.在非线性关系存在时,条件相关不能用来解释偏相关.基于这一问题,本文以具有非线性关系的变量作为研究对象,着重对这些变量的偏相关与条件相关问题进行研究.本文从偏相关的本质出发,将所有与控制变量有关的成分的影响排除,并证明了修正后得到的偏相关与条件相关不仅是相互等价的,而且更具稳健性.本文提出了一种新的非线性关系模型一模型3,也取得了和上述一致的成果.并根据非线性回归方法中评价模型拟合好坏的两个指标,与已有模型作了进一步的比较.研究结果表明新模型拟合较好,体现了新模型的优越性.本文由五部分构成:第一章:绪论.对偏相关分析的研究背景及其研究的目的和意义进行简单陈述,分析了国内外研究现状,并阐述了本文主要研究问题和创新之处.第二章:相关分析方法介绍.对常用的一些相关性方法作了简介,描述了各个方法及其适用范围,同时详细介绍了偏相关系数的定义.并从已有的模型出发,引出本文要研究的主要问题.第三章:偏相关系数的稳健性分析.针对非线性时偏相关与条件相关不等价这一结果,本文对其做了进一步的修正工作.结合偏相关系数定义的本质,通过理论推导的方式证明了该修正方法的合理性,使得偏相关系数具有更好的稳健性.第四章:基于三次曲线关系变量间的偏相关问题.考虑到现有非线性模型2存在一定的不足,本文提出了新的三次曲线非线性模型一模型3.就此模型与已有的模型2的偏相关与条件相关进行对比分析,结果表明它们不相等.基于此做了进一步的工作,并验证了这一模型的合理性.最后据非线性回归中的两个指标对模型进行比较分析,结果表明模型3有更好的拟合效果.第五章:总结与展望.概括本文的主要内容,并指出了今后的研究方向.