针对k-匿名隐私数据的判定树和关联规则算法的研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:DSCUMT
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据可用性问题是k-匿名隐私保护模型带来的一个具有挑战性问题。1998年L.sweedy提出了保护用户隐私的k-匿名隐私保护模型,泛化准标识符,虽然保护了用户的隐私但是大大降低了数据的可用性,之后为了在保护隐私的同时提高数据的可用性,研究人员对k-匿名隐私保护模型进行了改进,但是受隐私保护要求的制约,即使最优化的k-匿名算法,也不可能产生完全精确的数据,因此,改进k-匿名算法只能在一定程度上提高数据的可用性,不可能彻底解决问题。   数据挖掘问题是提高k一匿名隐私保护模型下数据可用性问题之一。通过分析发现生成k-匿名表时所利用的泛化树同利用精确表生成的判定树的部分非叶结点的属性值的概化过程有相同之处。由此文中提出了一种基于k-匿名表的判定树生成算法,该算法直接以k匿名表作为输入,避免了经典的判定树算法运行前的准备工作,该算法比经典的判定树算法在时间上有明显地改善。   判定树算法是重要的分类和预测的数据挖掘算法。文中提到了四种匿名化分类情况,分别为:(1)利用匿名化数据建立模型,来分类匿名化数据。(2)利用匿名化数据建立数据模型,分类原始数据。(3)利用精确数据建立模型,来分类匿名化数据。(4)利用匿名化数据分类分布式数据。改进的判定树算法是利用匿名化数据作为输入的,即利用匿名化数据建立的模型。所以文中对前两中分类情况做了详细的论述。   关联规则的发现是数据挖掘中重要的研究分支,是发现大量数据中项集之间有趣的关联或相关联系。在关联规则挖掘算法中,根据规则集所涉及的抽象层可将规则分为多层关联规则和单层关联规则。所谓多层关联规则即规则中的项为精确表中项的泛化,且在很多应用中在底层或原始抽象级别上很难发现数据项间的强关联规则,一般情况下都需要挖掘多层关联规则。从这层意义上来说,多层关联规则的挖掘同k-匿名泛化过程是有共同点的。同时由于k-匿名数据是一种特殊的不确定数据,文中对经典的Apriori算法进行改进,使其适合k-匿名隐私保护模型。实验结果表明,文中提出的算法行之有效。
其他文献
组播是一种高效的通信机制,允许一个发送者同时发送数据至多个接收者或多个发送者发送数据至多个接收者的传输模式,在路由器上合并重复数据以便进行高效的传输,从而有效地节
网络编码技术和机会路由技术是2000年以来逐渐兴起的新技术。网络中间节点将数据包编码后再转发。目的节点收到编码包后按照一定的规则进行解码从而获得原始数据包。网络编码
无线网状网技术是一种新兴的网络技术。它来源于Ad-hoc网络,具有成本低、容易维护、自愈性、可靠的服务覆盖等特点。它和传统的无线网络的一个最大的不同是它的多跳性。现有的
现实生活中的信息,有很多都是以流数据的形式产生的,如传感器网络监控信息、网络安全监控、web用户点击流、气象监控及分析,有着广泛的应用背景。又因数据流具有连续性、未知性
随着社会经济的不断发展,公司的业务也是越做越大,其内部的各种信息资料越来越多,当由于业务需求而派员工去外地出差时,处于安全性和便捷性的考虑,不可能让员工把所有的数据资料都
近年来,用户生成内容(UGC)概念深入人心,促进了WEB2.0互联网技术的飞速发展。互联网不仅是网民获取信息的知识库,更成为网民表达观点、交流看法的互动舞台。人们进行评论、表
针对纸质出版物版权认证和保护的需要,本文对抵抗硬拷贝攻击的彩色图像数字水印技术进行了研究。本文首先分析了打印扫描过程对数字图像引起的失真,及这些失真对图像水印的影响
国内3G于2009年正式上市,随后迅猛发展,目前中国已经成为全球最大的移动通信消费国。而随着智能手机和平板电脑等的普及,基于3G网络的移动应用业务需求也越发迫切,随之会带来大量
在互联网时代,电脑技术普及到千家万户,科技越来越以一种直观的形式展现在人们面前,悄然改变着人们生活、交流的方式。以讲故事为例,传统的讲故事作为家长、老师教育小孩的一种重
随着计算机技术和多媒体技术的迅速发展,以及互联网的蓬勃兴起,人们获取信息的方式发生了翻天覆地的变化,各种图像获取设备以及图像处理技术也随之飞快发展。从光学照相机到如今