【摘 要】
:
随着信息技术的高速发展,网络中的数据共享和交换行为出现得越来越频繁。因为数据挖掘是从原始数据中挖掘提取对人们有用的信息,因此它也被作为数据分析工具而得到了广泛应用
论文部分内容阅读
随着信息技术的高速发展,网络中的数据共享和交换行为出现得越来越频繁。因为数据挖掘是从原始数据中挖掘提取对人们有用的信息,因此它也被作为数据分析工具而得到了广泛应用。而于此同时数据挖掘带来的隐私保护问题也已经引起了人们的关注。在隐私保护数据挖掘中,基于K-匿名的隐私保护数据挖掘方法是一种既能达到挖掘数据信息同时又能很好的保护隐私的方法。这种方法可以在数据被挖掘前有效的保护某些敏感信息,它要求数据集中的每一个记录都与至少k-1个关于这个数据集中的准标识符属性记录相同,这样在k-匿名数据集中,个人就无法从最少k-1个个人群中被分辨出来。其中,最常见的实现k-匿名的方法就是用一个语义上一致的值来代替需要保护的敏感信息。本文提出一种不同的方法来实现数据的k-匿名化,将原始数据集划分成若干个投影,并且使每一个投影都遵循k-匿名模型。然后我们用一个分类器对每个投影进行训练,分类结果表明没有被标记的元祖都可以被分类器很好的分类。考虑到分类器的准确性和k-匿名化的限制,本文提出的实现k-匿名化的方法采用遗传算法来寻找最佳的划分方法。为了得到该方法的分类性能,我们使用10个不同的数据集对其进行测试,并和其它主要k-匿名化方法进行比较。试验结果表明,本文提出的方法比现存的k-匿名化方法要好,并且在划分数据集时不在需要专业知识。最后采用多目标优化算法,我们对隐私保护数据挖掘的两个矛盾体——隐私保护度和挖掘准确度进行研究。
其他文献
在过去的几十年里,指纹识别或者认证一直是生物特征识别里的主要研究方向,我们有足够的理由相信在未来的很长一段时间里,指纹识别或认证也同样拥有主流市场。指纹具有的唯一
基于传统测试理论的计算机辅助测试以固定的测试时间与测试题目数而忽略了受试者的个体差异,导致很多无效试题与时间的浪费并挫败受试者的信心。而计算机自适应测试是基于项目
随着计算机技术迅速发展,虚拟现实所涉及的领域越来越宽,并在教育领域得到了广泛的应用,受到了用户的青睐,虚拟培训的需求也越发旺盛。由于相关条件的约束,没法让学生去工业
需求获取平台是哈尔滨工程大学北京实验室的零编码软件生产平台(简称零码平台)的重要组成部分,零码平台是一个面向领域的软件自动化生产工具。用户利用零码平台开发应用软件
随着信息技术的飞速发展,医疗行业正在向智慧医疗的方向逐步迈进。云存储作为支撑智慧医疗发展的重要技术,可以作为远程医院之间信息共享的平台,很好地解决了远程合作化诊断的问
随着通信技术和传感器技术的高速发展,在实时监控和联机分析等应用领域产生了大量流数据。数据流挖掘技术的研究已成为当前国际数据库研究领域的一个热点。数据流快速、持续
作为一种新的信息获取方式和处理模式,无线传感器网络(Wireless Sensor Networks,简称WSN)目前已成为通信领域备受关注的研究热点。WSN是一种新型的无基础设施的无线网络,能
随着三维模型的各种建模技术的出现,三维模型数量呈现几何级数增长。倘若能够更好地合理地对现有的三维模型进行复用,这将势必会节省大量的物力人力。这就将问题从“如何构建
根据国家信息产业部对振兴软件业和推动社会服务信息化的具体要求,以及政府、企事业单位对WEB个性化信息采集与管理的需求,Web信息服务行业已成为目前最热门的行业之一。然而面
伴随着信息化时代的到来,万维网(WWW)已经成为人们日常生活中非常重要的信息源。但是随着网络信息覆盖面逐渐扩大,增长速度不断加快,人们对获取信息的快捷性要求也越来越高。