基于协方差矩阵的主成分差分隐私算法研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:lichao0714900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,各个行业都累积了海量的数据,过量的数据在处理过程中如果选择方法不当易引发“维度灾难”。主成分分析作为一种标准的数据分析和统计方法,能够将原始高维数据在k维主成分空间中投影获得低维数据,从而降低数据维度,简化数据分析难度,节约计算成本。当前大规模增加的数据信息隐藏着诸多隐私数据,若不加以保护,将极大可能造成隐私泄漏。而且传统的隐私保护模型(k-匿名,l-多样性,t-逼近)在隐私保护过程中面临着同质性攻击、相似性攻击等风险,无法对数据集进行有效保护。差分隐私模型立足于坚定的数学理论基础,基于最大背景知识假设,提供可证明的数学模型,仅通过加入噪音的方式就可以实现,成为了当下最为有效的隐私保护机制之一。主成分差分隐私算法将差分隐私与主成分分析算法相结合,一方面可以实现高维数据向低维数据的转化,另一方面可以实现对原始数据的隐私保护。目前的主成分差分隐私算法主要对投影矩阵或者协方差矩阵的全部元素加噪音的方式实现,导致噪音过大,数据集可用性急剧下降。本文考虑在协方差矩阵局部加入Laplace噪音对数据集进行差分隐私保护,提出了基于协方差矩阵的主成分差分隐私算法CMPDP。该方法通过对协方差矩阵C的主对角线加入Laplace噪音,相对于对协方差矩阵全部元素或全部数据加噪音而言,加入的噪音更小;并在理论上证明了CMPDP算法服从严格的差分隐私保护的数学定义;通过噪音分析得到本算法添加的噪音量小于传统Laplace、LOP、Wishart、PCA-based-PPDP等算法;最后本文以均分误差MSE和分类正确率作为评价指标,通过在多种数据集上与PCA-based-PPDP算法比较,得到CMPDP算法均方误差MSE更小,分类准确率也更高。因此通过理论分析和实验验证均证明了本文提出的CMPDP算法能够对发布的数据集提供差分隐私保护,且添加的噪音更小,数据的可用性更高。
其他文献
全球经济快速发展对能源的需求日益增加,化石能源在逐渐枯竭,同时也造成环境问题,故开发清洁可再生能源很有必要。近年来,生物柴油因其环保和可再生性受到关注,但第一代生物柴油(FAME)由于氧含量高而影响其热值,故有必要对第一代生物柴油进行加氢脱氧产品升级。本论文以月桂酸甲酯为模型化合物研究脂肪酸酯类化合物的加氢脱氧反应,分别构建了三种高选择性的Ni基催化剂,实现了对月桂酸甲酯加氢脱氧路径的有效调控。主
我国在经济、资源等方面发展不平衡问题一直是发展过程中面临的一大难题,当然,我国保险业发展也面临着这个难题.为实现我国各省保险业持续平衡发展以及实现我国保险业不断壮大的目标,需要更精准的对我国各省保险行业发展水平进行评价分析.本文主要讨论我国省域保险行业发展水平,合理定位我国各省保险行业发展水平之间的差异.首先,在阅读大量文献和总结前人经验的基础上,厘清保险行业发展现状和评判标准,依据指标体系建立原
具有“重尾”特性的数据广泛存在于我们的生活中,如金融、保险领域的数据,往往呈现尖峰厚尾的特征.但就这类数据而言,普通的单一模型不能很好地拟合极端数据,而广义帕累托分布虽然对尾部数据的拟合较为有效,却又难以描述整体数据.因此近年来出现了不少改进的组合模型,能够较好地拟合尖峰厚尾数据.本文对Logistic函数进行改进,与广义帕累托分布组合成新模型,并以洪水损失数据与股票收益率数据为样本,分别进行数据
考虑非线性Caputo-Fabrizio(C-F)分数阶微分方程初值问题(?)这里0<α0是给定的常数,0CF Dtαy(t)为α阶C-F分数阶导数,f:[0,T]×Rd→Rd是连续映射,且满足单边Lipschitz条件≤σ‖y1-y2‖2,(?)t ∈[0,T],y1,y2∈Rd,其中σ是实常数.通过应用插值型求导公式逼近一阶导数,进而得到
非视距成像就是利用重建或识别技术,对不在直接视线内的物体进行成像。其在医学成像、自动驾驶、机器人视觉等领域具有潜在的应用。在一些实际场景中,通常会优先使用识别技术进行非视距成像,因为其可以直接、快速的对隐藏物体进行分类。现有的非视距识别技术大多是依靠主动激光探测手段实现的,然而拥有简便系统及良好隐蔽性的被动式非视距识别技术还未被研究过。本文使用由标准数码相机和挡板组成的被动式成像实验设置,结合深度
高质量的农业统计数据能够为乡村振兴的精准施策保驾护航,湖南省位于长江中下游平原稻作区的单双季稻亚区,既是稻谷的主要产区,也是主要消费地区。2019年稻谷播种面积占农作物播种面积比例为49.44%,但近几年整体呈下降趋势,这对于粮食安全必将产生深远的影响。因此研究稻谷产量数据质量具有十分重要的现实意义。1988年,随着我国杂交水稻的大面积推广,稻谷亩产量较此之前有了很大提升,本文特选取1988-20
文献的收集、整理和分析是许多科学研究工作的先导步骤,文献数量的激增以及庞大的科研群体带来了文献分析的迫切需求。为了适应新时代海量文献分析需求,本文以中国知网收录的中外文文献为对象构建了一个全自动文献分析系统Hello Paper。用户输入检索条件后,Hello Paper将自动完成文献收集、整理和分析工作,并向用户呈现一份图文并茂的文献分析报告。本文首先探究了文献分析系统领域的研究现状,我们发现国
当前教育突出的问题之一是中小学生负担太重,大量的机械作业耗费学生的体力和精力,限制学生思维的发展,增加了学生负担.在“双减”政策背景下教师要守好课堂教学的主阵地,尤其是把好作业关.本文提出了结合学生熟悉的情境进行有效作业设计的方法和策略,并通过案例进行了说明.
随着我国社会经济的不断稳步发展,人们也越来越重视教育对社会发展和人的促进作用,我国在促进教育发展的过程中也推出了一系列的教育改革措施。但是在新时期的教育改革措施中,大都强调对学生们学习能力和学习技巧方面的培养,而大大的忽略了对学生们劳动教育的培养,这和我国发展教育的初衷背道而驰。因为我国最初的教育目标是为了培养德、智、体、美全面发展的全能型人才的,而如今的教育目标则更侧重于学生的学习能力和学习技能
本论文主要研究了下临界分枝过程和碰撞分枝过程的相关性质.首先,利用一种新的方法重新得到下临界分枝过程的一些结论,包括下临界分枝过程的衰减参数λC、λC-不变测度和该过程拟平稳分布母函数的具体表达形式,以及下临界分枝过程的吸引域问题.随后用这种方法研究了碰撞分枝过程,给出碰撞分枝过程衰减参数的一个下界,最后得到其拟平稳分布母函数的具体表达形式.