保护隐私的分类挖掘技术研究

来源 :河北工程大学 | 被引量 : 0次 | 上传用户:zxy556
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从海量数据中挖掘有用知识的一个强有力的工具,可以帮助人们从数据中获取更深层次的有用信息,已经在银行、保险、电信、生物数据分析等领域得到了广泛的应用。随着网络的广泛应用,数据挖掘的过程中经常需要使用来自不同站点的数据,这些不同的机构在进行协同工作完成全局性的数据挖掘过程中,往往希望在不泄露自己隐私数据的前提下,获取共同挖掘的规则结果。因此,研究分布式环境下保护隐私的数据挖掘技术成为了一个很迫切的挑战性的课题。本文主要研究分布式环境下保护隐私的分类数据挖掘,重点研究了保护隐私的分布式C4.5决策树分类算法,本文所作的工作主要有:(1)对应用较为广泛的集中式C4.5决策树分类算法进行了改进,基于安全多方计算理论,设计了适用于数据集垂直分布与水平分布两种情况的可以保护隐私的分布式C4.5决策树分类算法。数据集水平分布时,应用安全多方和协议和安全x ln(x)协议来构造具有保护隐私效果的决策树分类器;数据集垂直分布时,应用安全点积协议和安全x ln(x)协议来构造具有保护隐私效果的决策树分类器;并且分别给出了数据集垂直分布和水平分布两种情况下的用于确定最佳分裂属性的信息增益比例的详细计算方法。(2)提出了一种适用于决策树分类算法的隐私保护程度的计算方法。基于公用数据源在WEKA数据挖掘平台上将设计的保护隐私的分布式C4.5决策树分类算法与原始C4.5算法进行了对比和实验,通过实验分析,证明该算法是可行的。(3)创新性地将安全多方计算方法和K匿名方法相结合,对数据挖掘过程中的个性化隐私保护问题进行了研究。根据不同用户隐私保护需求的不同,将属性分成不同的类,对于隐私保护需求高的属性采用不泄露任何隐私的安全多方计算方法,对于隐私保护需求为中等或低的属性先对其分布式K匿名化,然后再在匿名化后的数据集上进行数据挖掘;最后给出了分布式数据挖掘中个性化隐私保护的挖掘模型。
其他文献
Modelica语言仿真建模在科研工作中已经得到了广泛应用。它能方便地对包含机械、电子、液压、控制、热流等领域的复合物理系统进行基于组件的仿真。现有基于Modelica语言的仿
近年来,随着多媒体技术和互联网技术的快速发展,现代计算机硬件存储介质价格的不断下降和以P2P技术快速发展为代表的网络传输技术的成熟,使得视频在人们生活中的很多领域变得越
在实时系统中,每个任务都应在某种程度上满足时间约束的限制,任务的正确性不仅依赖于其计算结果,还依赖于这个结果产生的时间。此类系统中应用程序的执行时间应当是确定的,以此保
关于磁盘阵列在线重构的研究一直以来都是国内外研究热点。除了构造严重受限或者极其昂贵的磁盘阵列之外,国内外现有研究一直解决不了重负载持续访问下磁盘阵列重构性能急剧恶
形式化验证主要是通过精确的分析来证明或证伪硬件或软件系统中一些明确的声明或者性质。形式化验证方法在广义上可以分成两大类:模型检测和定理证明。模型检测由对模型的所有
随着P2P成为互联网上的主流应用,以用户资源共享为目的P2P文件共享系统,在安全、版权等方面暴露出了巨大的问题。P2P文件共享系统点对点的分发特性,使其分发内容具有用户自主性
高性能应用对计算能力的需求永无止境,导致并行计算机系统在不断提高单处理器性能的同时不断增大系统规模。机群以良好的可扩展性、可靠性和高性能价格比,成为高性能计算机系统
当前,IPTV业务正迅速发展并成为互联网中一种新型的重要网络应用。在提供全新观看体验的同时,IPTV在设计、管理、流量监管、服务质量等方面仍存在新的挑战。对IPTV进行测量研究
“工业生物技术战略研究与知识环境建设”项目是中国科学院知识创新工程重要方向项目,它旨在通过整合国际与国内工业生物技术领域多类型的数据信息资源,为该领域的科研人员和决
学位
随着产品设计的复杂化,应用领域中的数学建模和仿真越来越重要,传统建模方法基于赋值语句,主要考虑单一系统,工程人员需要对程序设计语言和算法求解有相当程度的熟悉,这导致了传统