基于匿名数据分类技术研究

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户:pigdd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术,特别是数据库技术的飞速发展,海量数据的收集、管理和分析变得越来越方便。包括分类挖掘在内的各种数据挖掘技术,在一些深层次的应用中发挥了非常积极的作用。但与此同时,也带来了隐私保护方面的诸多问题。数据挖掘技术在获得巨大利益的同时,由于被挖掘的信息或数据包含着很多个人的隐私信息,如果把这些数据库的真实数据直接交给数据挖掘者,难免会产生隐私泄露。于是,如何在数据挖掘的过程中解决好隐私信息保护的问题,成为了数据挖掘界的一个研究热点。分类技术是数据挖掘中一个研究的热点问题。现有的分类算法有:决策树分类法、最近邻法、神经网络、支持向量机分类法和贝叶斯分类法。上述这些算法中很多都是基于传统数据的分类算法,极易泄露隐私信息。随着对不确定数据逐步深入的研究,不确定数据挖掘已经成为数据挖掘中的一个热点。传统的分类方法扩展到不确定数据领域已经是一种趋势。课题重点研究了基于匿名数据的分类问题,通过k-匿名把传统数据建模成不确定数据。提出用匿名数据来建立分类器的方法。在方法中,不假设任何数据的概率分布。相反,在这些匿名数据之间建议收集所有可能的统计数据,并且作为新的属性和匿名数据一起发布。这些新属性包括每个数值QI属性的期望值和方差以及分类QI属性的概率密度函数。这样每个核函数能很容易计算。最后,利用分类器对匿名数据进行分类。提出的分类算法是KCNN-SVM分类法,实现了匿名数据分类,改进了SVM分类在建立分类模型时对于边界点的混淆,使分类模型更加精确,实验结果表明分类精度得到了提高。
其他文献
当前实际应用产生的数据维度越来越高,受维度效应的影响,许多在低维数据上表现良好的聚类方法运用在高维数据上时无法获得好的聚类效果。在过去十几年,高维数据的聚类方法是聚类
自主地面机器人技术是智能机器人研究领域的热点。自主地面机器人体系结构把感知、融合、建模、规划、决策、行动等多种模块结合起来,使得机器人系统在复杂环境中完成地面自
机翼是飞机的重要部件之一,是飞机飞行性能的决定因素之一。翼型是机翼性能的决定因素,因而翼型设计是机翼设计的首要环节。现代飞机设计要求翼型的设计周期不断缩短、性能不
随着多媒体技术和网络技术的飞速发展,数字媒体(数字图像、数字视频、数字音频等)已得到了广泛应用,人们在享受快速获取信息的同时,也面临着盗版、信息失控等非常严重的威胁,因
大粒度服务作为服务计算领域一个新兴的研究领域,受到了越来越多的关注。大粒度服务的出现和应用加强了互联网环境中服务共享、重用和集成的能力。为用户快速构建复杂系统提
文本聚类作为一种无监督的机器学习方法,近年来已成为自然语言处理领域中研究的热点,传统的聚类算法只能将一个样本点划分到一个聚类中,但现实生活中,很多事物的归属并没有特
在信息时代的科学研究中,我们不可避免的会遇到大量的高维数据,这就要求我们对高维数据进行处理。降维算法是处理高维数据的一个重要手段,也是特征提取的重要方式。降维的主要目
电源是电力设施的心脏,在森林防火系统作用不言而喻。相对于深山中的森林防火系统用太阳能风能作为电力供应不失为一种简单、经济的方式。太阳能和风能发电是当今世界上可利用能源中最清洁、最现实、最有开发利用前景的发电方式之一。实际中,太阳能风能单独发电受自然条件的制约非常严重,但在时间和空间上却有很大的互补性。所以将二者结合起来组成混合发电系统,可以在很大程度上解决太阳能风能单独发电时断时续的状况。本论文根
随着科技时代的发展,信息化将步入我们的生活,在教学领域也有了长足的进步,教学方式有了进一步的变化,从书面教学到电脑教学,从二位图片展示,到三维立体模型的表达,能够更生
随着互联网在全球范围的普及,上网人数不断增加,互联网中积累的数据也在成指数级别的增长。这些数据中有相当大的一部分数据为文本数据。怎样有效地分析这些文本数据,并从中