论文部分内容阅读
随着各行各业积累的数据越来越多,如何挖掘数据背后隐藏的信息,数据挖掘技术得到推广使用。关联规则挖掘算法是数据挖掘中的一个重要分支,主要用于发现数据之间的关联关系。当挖掘的数据集中含有隐私信息时,如何在挖掘数据之间的关联关系的同时保护个体的隐私是当前信息安全领域的热点研究课题。具体到教育数据挖掘领域,对学生成绩进行隐私保护的关联规则挖掘分析,在挖掘学生成绩背后隐藏的信息时,又保护学生隐私信息不被泄漏,隐私保护的关联规则挖掘算法的应用研究具有实际意义。本文的研究工作如下:1)针对在基于差分隐私保护的Apriori算法中,根据支持度和置信度进行剪枝筛选时,会挖掘出很多无效规则的问题,引入提升度对Apriori DP算法进行改进。通过采用支持度与置信度,提升度三个指标来衡量关联性,对挖掘的关联规则进行筛选。在不同的数据集上进行实验验证,实验结果表明了 Lift-Apriori DP算法的有效性。2)在改进的Lift-Apriori DP算法基础上,将其应用到学生成绩分析中。以《C语言程序设计》课程学生的章节测试成绩为例,对学生成绩进行挖掘分析,根据不同隐私预算下挖掘结果的评估,选择最终合适的参数值。实验结果验证了 Lift-Apriori DP算法在学生成绩分析中的有效性,并且评估了算法应用的准确性。3)为验证本文基于差分隐私保护的关联规则挖掘算法在实际应用中的可行性。在Lift-Apriori DP算法基础上,开发和设计出一个基于B/S模式的隐私保护成绩分析系统。系统主要功能是对所有学生的成绩进行分析,将经过隐私保护后的关联规则挖掘结果反馈公布给所有老师和同学,保护学生的成绩信息不被公布的结果泄漏。