论文部分内容阅读
随着大数据在工业生产、科学研究中的广泛应用,原始数据的隐私保护已经成为十分重要的问题。本文针对原始数据的隐私保护问题,构建层次结构,并介绍了只包含分析计算结果的层次结构数据。针对传统回归分析算法,提出了具有层次结构数据的多元线性回归分析算法以及非线性回归分析算法。同时利用实际问题进行算法验证,说明具有层次结构数据的回归分析算法能在有效保证原始数据隐私的前提下,准确计算各部分的偏回归系数,为大数据的分析处理提供一种有益的尝试。本文的主要工作如下:(1)基于层次结构数据,本文提出了多元线性回归分析的偏回归系数计算方法。该方法在传统线性回归计算方法的基础上通过计算下层中每个部分的偏回归系数及上下层之间的层次结构矩阵,来计算上层的总体偏回归系数。利用统计年鉴数据以及随机数据从实际应用中证明了具有层次结构数据的多元线性回归分析算法与传统多元线性回归模型在计算偏回归系数时具有等效性,且对于偏回归系数能分区计算,提高了数据处理的效率。同时,从数据实验中可得利用层次结构数据可以避免原始数据在算法中参与传输、计算,有效地解决了原始数据的隐私保护问题。(2)针对更为复杂的非线性模型,在具有层次结构数据的多元线性回归分析算法基础上,提出了一类可线性化的非线性回归分析算法。并以柯布-道格拉斯生产函数的计算方法为例,给出了多元非线性回归分析中基于线性化方法的偏回归系数的求解方法,并利用层次结构中局部模型与整体模型之间的关系构建、计算模型各部分的偏回归系数。以统计年鉴数据进行验证,可得基于层次结构模型的结果与基于原始数据计算的结果仅存在精度误差。层次结构数据的使用有效避免了可线性化的非线性回归分析算法在计算多个部分偏回归系数时,由于原始数据参与传递导致的潜在数据泄露的情况。(3)为了满足隐私数据所构建的模型达到显著性指标,实现具有层次结构数据的多元回归分析中各层偏回归系数达到显著的目的,本文研究了底层回归算法的显著性。由于上层模型中无原始数据参与,因此底层模型的显著性将影响上层模型的显著性。因此要求底层模型构建时能克服由于大数据导致的I类错误增加的问题,本文利用基于FWER的多重假设检验,对大数据中的较易获得且具有实际意义的基因数据进行实例分析,得到结果表明多重假设检验能有效避免I类错误的出现。由此说明在层次结构的底层算法求解时进行基于大数据的多重假设检验显得尤为重要。