隐私保护的序列模式挖掘研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:zxy86983028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘的任务,就是要从海量的数据中,发现其中的有用的信息。它在各个方面都极大的方便了人们的生产,生活,并且在很大程度上提高了工作的效率。  尽管如此,人们也逐渐的发现了它的最致命的弊端,那就是在利用数据挖掘技术和工具给人们提供知识和信息的同时,也严重的暴露了隐私信息。另外,随着计算机网络通讯技术的发展,人们也越来越需要从多方的数据库中发现和挖掘信息和知识。多方联合数据挖掘变得越来越频繁。  在这样的情况下,如何保护私有数据或敏感信息在数据挖掘过程中不被泄露,同时又能够得到较为准确的挖掘结果,已经成为数据挖掘研究中的一个很有意义的研究课题。  目前,关于数据挖掘中的隐私数据保护的算法大多应用于决策树挖掘,关联规则挖掘,聚挖掘等方面,而在序列模式挖掘中保护隐私的算法研究却很少。  本文在隐私保护的序列模式挖掘领域做了以下两方面的研究:  一是在序列模式中的敏感数据隐藏问题方面,在原有的“最小支持度算法(MSA)”和“支持相同隐私序列优先算法(SDRF)”基础上,提出了“最少删除项最先处理”算法,在保证控制隐藏失败率(HidingFailureRate)的前提下,尽最大可能地将对原始数据库的变动降到最低,从而有效地降低了在信息隐藏过程中的意外隐藏百分比(MissesCostRate)和数据变动比例(ModifyingRatio)。并且用实验结果证明了所提出的“最少删除项最先处理”算法比原有的MSA算法和SDRF算法都有着更低的意外隐藏百分比和数据变动比例。  二是笔者提出了隐私保护在序列挖掘中的另外一个新的应用,即多方联合进行序列分割,目前还没有文献在此问题上做研究,笔者将“在不暴露隐私的情况下多方联合计算U(T)→D的频度”的问题转化成秘密比较数的大小的问题,进而用一个简单的基于半可信第三方的比较大小算法解决了多方联合计算时序规则频度的问题,从而在多方联合进行序列分割的时候成功的解决了隐私保护问题。  
其他文献
本文以北京市出租车决策支持系统为背景,利用数据仓库及OLAP多维分析等相关技术,对出租车营运数据这个主题进行了比较全面、深入地分析与研究,设计实现了一套以营运数据为主
分布式协作开发环境的建立是实现工具之间交互与数据共享、提高设计与开发效率的重要手段,其中所集成的系统设计工具既有商业软件,也有自主研发的软件。本文涉及的研究课题采
随着互联网以及网上交易的普及,人们对交易安全性和匿名性的需求逐渐上升。这种需求对于希望在网上交易新闻线索、举报证据等敏感信息的用户更为迫切。敏感信息的交易者经常
随着XML数据被越来越广泛地使用,人们对XML数据查询提出了越来越高的要求。前期的研究主要集中在XPath的查询处理上。XPath相对比较简单,但表达能力有限,比如不能表示连接操
随着网络技术的进步,网络制造获得了迅猛的发展。为工程图档的广泛使用提供了很大的方便。但是,这也带来了工程图档的版权保护问题。数字水印技术为工程图档版权保护提供了一
旅游行业信息化是旅游业发展的一个主要方向之一,随着信息化和现代网络技术的不断发展,人们越来越习惯通过网络平台获取信息,也越来越接受网络服务这样一种生活模式。旅游行
随着Internet的迅速发展,互联网上的隐私和匿名问题越来越受到关注。隐私不仅仅意味着信息本身的机密性,还包括信息发布者和接收者身份的机密性。匿名技术是保护用户隐私的一种
随着行为金融理论和复杂性研究工具的兴起与发展,人们发现传统的有效市场假说存在很多局限性,一般情况下是不成立的。股票价格收益是不稳定的随机序列,收益分布不是正态分布,股票
电力系统负荷预测是实现电力系统安全、经济运行的基础,通过负荷预测,对电力需求做出估计与推测。根据这些预测结果,可以针对性地采取技术措施来提高系统运行的经济性和可靠