论文部分内容阅读
科学技术和经济获得迅速发展的一个重要推力是大数据的到来。日常生活中的每件小事都能通过网络与大数据有一定的联系,如:各类统计数据。人们所接触到的数据是繁杂的,为了方便分析,人们通常会把一组数据理想化,把它看成服从简单且常见的分布,如正态分布或者t分布。人们把所有数据归为一类忽略了数据特有的特征,这将会导致分析结果有误,且突出混合型数据在统计分析中不容忽视的重要性。事实上,这些繁杂混合的数据又具有一定的特征。为了能更好的刻画数据本身的特征,统计研究者常常分门别类的对数据进行分析,即对数据进行聚类分析。聚类分析的思想是将总体数据按不同特性或指标进行分类,再对具有相似指标或性质的数据进行更加深入的分析,这有效减少了对大数据研究的工作量。在经济领域中,人们所接触到的数据并不是严格地服从正态分布、t分布或者偏正态分布,而是服从具有明显偏斜的厚尾分布。相比较,偏t正态分布能够很好的拟合既带有明显偏斜又带有厚尾特征的数据。广为所知的经典线性回归模型不再具有普遍使用意义,是因为在经济学、医学、环境科学和工程技术等领域存在大量的异方差数据。这使得有必要对方差进行研究,所以统计学者们提出了联合均值与方差模型。但为了解决生活中所面对的纷繁数据,研究者们提出了混合模型,该模型在研究由两个或两个以上的子聚类组成的混合数据伴有不可或缺的角色。该模型的提出与应用使数据得到较好的拟合。除此之外,考虑到模型的普及性和适用性,学者们在不同的研究范畴和不同模型中将线性模型拓展到非线性模型。本文以偏t正态数据、异质总体、异方差、混合线性模型、混合非线性模型为背景,应用EM算法和Newton-Raphson迭代算法研究了偏t正态混合数据下不同模型中各未知参数的极大似然估计,主要内容有:第一,在偏t正态数据的前提下,对位置参数建立混合线性模型,提出偏t正态数据下混合线性回归模型,并给出相应EM算法及所需公式,研究了该模型中未知参数的极大似然估计,通过Monte Carlo随机模拟研究验证了模型的有效性和可行性。第二,同样基于偏t正态混合数据,不仅考虑对位置参数建模还考虑了对尺度参数建模,将偏t正态混合数据和联合模型相结合。提出混合StN分布下线性联合位置与尺度模型。并给出该模型下的EM算法和相应的计算步骤公式,探讨了位置参数与尺度参数的极大似然估计。通过Monte Carlo模拟研究及人体指数(BMI)数据实例分析,进一步验证了模型的普遍性和方法的可行性。第三,在以上研究的基础上,意识到偏度参数的重要性,增加了对偏度参数建模。考虑到模型的一般性,将对线性的研究延伸到非线性范畴。基于偏t正态混合数据,对位置、尺度与偏度参数建立非线性模型,提出了混合StN分布下非线性联合位置、尺度与偏度模型。同样给出相应的EM算法和计算步骤公式,结合Newton-Raphson迭代算法研究了三个未知参数的极大似然估计。最后,通过模拟演绎结果突出模型的普遍性和方法的可行性。