论文部分内容阅读
摘 要:数据生成和收集技术的进步促使商业和科研领域产生了海量数据。传统数据分析技术在应对这些新型数据集提出的挑战时存在种种局限性,数据挖掘技术迎刃而解了这些问题。本文应用数据挖掘中关联规则的Apriori算法来进行成绩的关联分析。文中通过举例说明了该方法在分析学生成绩数据中的应用,实验结果表明,关联分析方法比传统的成绩统计方法更合理、更科学,蕴含更多有用的信息。
关键词:数据挖掘;关联分析;Apriori算法;课程设置研究
中图分类号:TP311.52
数据挖掘这种技术将传统的数据分析方法与处理大量数据的复杂算法相结合。目前,在电信、银行、百货公司、超市、保险、信用卡、电子商务、税务部门、警察机关、医学等领域均有应用。现在的高校也有海量的学生相关数据,但这些数据几乎没有被有效利用,本文应用关联分析方法,通过对学生的成绩进行统计和分析,从中可以获得课程设置及教学改革的理论依据。
1 数据挖掘的概念和相关技术
数据挖掘是在海量的数据中,发现数据之间隐含的有用的信息的过程。数据挖掘技术除了用来在大型数据库中发现先前未知的有用信息之外,数据挖掘还可以预测未来,比如,预测一位顾客在超市中的购买行为。
不是所有的信息分析都叫做数据挖掘。比如,在数据库中查找某条信息,或利用因特网的搜索引擎查找某个Web页面,这只是信息检索,而不是数据挖掘。
数据挖掘的技术主要有:分类、关联分析、聚类、人工神经网络和粗糙集等。下面主要对在信息管理与信息系统专业课程设置研究中适用的几种技术作一些介绍。
1.1 关联分析
关联分析是用于发现隐藏在大型数据集中的有意义的联系的方法。这些联系可以用关联规则或频繁项集的形式表示。比如:{尿布}→{啤酒},这个规则显示了尿布和啤酒的销售之间存在着很强的联系,因为许多购买啤酒的顾客也买了尿布。关联分析还应用于其他领域,如生物信息学、医疗诊断、网页挖掘和科学数据分析等。
1.2 分类与预测
分类的任务是确定对象属于哪个预定义的目标类。这是一个普遍存在的问题,有许多不同的应用。比如:通过电子邮件的标题和内容对垃圾邮件进行屏蔽,根据核磁共振扫描的结果区分是恶性肿瘤还是良性肿瘤等。预测是利用分析所获得的模型对未知类型的数据对象进行类别的预测。
1.3 聚类
聚类分析只是根据在数据中发现的描述对象及其关系的信息,并将这些数据对象分组。目的是,组内的这些对象是相似的,而不同组中的对象是不相似的。组内的相似性越大,组间差别越大,聚类就越好。
2 数据挖掘在课程设置研究中的应用
学校的教务处存放着学生每学期的课程成绩,学生处存放着所有在校学生的家庭基本信息,系部存放着每学期学生对所学课程的评价及打分信息,由于每学期的滚动,就产生了大量学生相关的数据,利用这些数据并结合数据挖掘的技术可得到这些数据隐含的有用的关系,比如课程模型。
一门课程的学习,首先是先要完成它的先修课程,先修课程的学时长短、教授深度等,都会对这门课程的学习有影响。应用数据挖掘中的关联分析可找出课程之间的关联关系,使课程的调整有理论依据且更科学。
学生的成绩与其家庭背景之间也有着关联,学校的数据库中含有学生基本情况的历史数据,我们想知道学生的成绩与其家庭背景的关系。学生成绩是否与课余打工、单亲家庭、未加入辅导计划、学习障碍、新近转学、经常缺席等因素有关。
3 学生成绩的数据挖掘过程
3.1 确定挖掘任务
学校的教务系统中存放着大量学生成绩数据,而只是对这些成绩做一些求总分、加权平均和排名等简单的操作。这些数据表面上显示的是学生学习的好坏和兴趣,实际上隐藏着课程设置及教学方法改进的信息。
3.2 准备数据
学校的各个部门都有大量的学生数据,每个学期都会产生新的数据,我们从这些海量数据中收集学生的成绩及学生的信息等数据作为要分析的数据。
3.3 算法设计
数据挖掘是一项从大量的记录数据当中找出有价值的、人们感兴趣的信息,这些信息是隐含的、事先并不知道的有用信息,发现的知识一般可表示为概念(Concepts)、规则(Rules)、规律(Regular ides)、模式(Patterns)等形式。关联规则是本文中分析成绩的主要方法之一,它反映的是事物与事物之间相互关联性和依存性。如果两个或多个事物之间存关联关系,可通过其中的一个事物预测出另一个事物。在这里我们用Apriori算法,首先产生频繁1-项集L1,然后是频繁2-项集L2,直到有某个r值使得Lr为空,算法停止。在第k次循环中,过程先产生候选k-项集的集合Ck,Ck中的每一个项集是对两个只有一个项不同的属于Lk-1的频繁集做一个连接来产生的。Ck中的项集是用来产生频繁集的候选集,最后的频繁集Lk必须是Ck的一个子集。一个项集是频繁集当且仅当它的所有子集都是频繁集。如果Ck中某个候选项集有一个(k-1)-子集不属于Lk-1,则这个项集可以被修剪掉不再被考虑。算法如下:
L1={频繁1项集};
for(k=2;Lk-1??;k++) do begin
Ck=apriori_gen(Lk-1); //新的潜在频繁项集
for all transactions t?D do begin
Ct=subset(Ck,t); //t中包含的潜在频繁项集
for all candidates c?Ct do
c.count++;
end;
Lk={c?Ck|c.count?minsup} end;
Answer=UKLK
3.4 数据挖掘
数据是某班学生的大学四年的学习成绩,学生人数为33人。表1显示了该班部分学生第一学年的学习成绩,共有32门课程,这些课程可以分为2类:专业课,其中包括高等数学(简称“高数”)、线性代数、概率论与数理统计(简称“概率”)、数据库技术、计算机原理、C++程序设计(简称“C++”);公共课包括英语、体育。有些课程是连续上2-4个学期的,如英语要上4个学期,高等数学要上2个学期,对于同一门课程不同学期的成绩,分别在课程名后用1-4表示相应学期。
表1 某班学生部分成绩
3.5 结果分析
高等数学成绩好的学生,C++也学得好;数据可技术学得好的学生,C++和计算机原理学得也好;英语学得好的学生,C++,计算机原理和数据库学得也好;计算机原理对其它专业课程没有影响;网页设计这门课学得好的学生,ASP.NET学得也好。针对信息管理与信息系统专业现有的课程设置,可以给出以下几点建议:C语言每周设为6学时,加大总的学时及周学时,加强实践教学;计算机组成原理与其他专业课的联系不大,可以减少学时;加强网页设计这门课程的学习,这门课与ASP.NET的联系很紧密;高等数学和英语这两门基础课应加大学时,尤其是高等数学,它们对后续的编程语言的学习很重要;VB这门课程可以去掉,编程课程从C语言入门就可以,C语言和C++这两门课可以合在一起来上,学完C之后可马上开C++而不需要分在两个学期来上。
4 结束语
利用数据挖掘工具对学生相关数据进行分析,可以得到一些隐含的信息,而这些信息是要对挖掘的结果进行深入的分析才能得到的,从中找出最合理的建议,给决策者提供参考依据。
参考文献:
[1]刘晓庆.浅析数据挖掘的研究现状及其应用[J].电脑知识与技术,2006.
[2]常桐善.数据挖掘技术在美国院校研究中的应用[J].复旦教育论坛,2009(02):74.
[3]陈丽.基于数据挖掘建立动态人事管理决策系统[J].计算机工程与应用,2001(20).
[4]陈卓明.数据挖掘在国内外的研究和发展现状[M].青年文学家,2009(16).
[5]刘美玲.数据挖掘技术在高校教学与管理中的应用[J].计算机工程与设计,2010(31).
作者简介:柳原(1981-),女,山西人,教师,中级,学士学位,研究方向:数据挖掘。
作者单位:包头医学院 计算机科学与技术系,内蒙古包头 014040;内蒙古科技大学 信息工程学院,内蒙古包头 014010
关键词:数据挖掘;关联分析;Apriori算法;课程设置研究
中图分类号:TP311.52
数据挖掘这种技术将传统的数据分析方法与处理大量数据的复杂算法相结合。目前,在电信、银行、百货公司、超市、保险、信用卡、电子商务、税务部门、警察机关、医学等领域均有应用。现在的高校也有海量的学生相关数据,但这些数据几乎没有被有效利用,本文应用关联分析方法,通过对学生的成绩进行统计和分析,从中可以获得课程设置及教学改革的理论依据。
1 数据挖掘的概念和相关技术
数据挖掘是在海量的数据中,发现数据之间隐含的有用的信息的过程。数据挖掘技术除了用来在大型数据库中发现先前未知的有用信息之外,数据挖掘还可以预测未来,比如,预测一位顾客在超市中的购买行为。
不是所有的信息分析都叫做数据挖掘。比如,在数据库中查找某条信息,或利用因特网的搜索引擎查找某个Web页面,这只是信息检索,而不是数据挖掘。
数据挖掘的技术主要有:分类、关联分析、聚类、人工神经网络和粗糙集等。下面主要对在信息管理与信息系统专业课程设置研究中适用的几种技术作一些介绍。
1.1 关联分析
关联分析是用于发现隐藏在大型数据集中的有意义的联系的方法。这些联系可以用关联规则或频繁项集的形式表示。比如:{尿布}→{啤酒},这个规则显示了尿布和啤酒的销售之间存在着很强的联系,因为许多购买啤酒的顾客也买了尿布。关联分析还应用于其他领域,如生物信息学、医疗诊断、网页挖掘和科学数据分析等。
1.2 分类与预测
分类的任务是确定对象属于哪个预定义的目标类。这是一个普遍存在的问题,有许多不同的应用。比如:通过电子邮件的标题和内容对垃圾邮件进行屏蔽,根据核磁共振扫描的结果区分是恶性肿瘤还是良性肿瘤等。预测是利用分析所获得的模型对未知类型的数据对象进行类别的预测。
1.3 聚类
聚类分析只是根据在数据中发现的描述对象及其关系的信息,并将这些数据对象分组。目的是,组内的这些对象是相似的,而不同组中的对象是不相似的。组内的相似性越大,组间差别越大,聚类就越好。
2 数据挖掘在课程设置研究中的应用
学校的教务处存放着学生每学期的课程成绩,学生处存放着所有在校学生的家庭基本信息,系部存放着每学期学生对所学课程的评价及打分信息,由于每学期的滚动,就产生了大量学生相关的数据,利用这些数据并结合数据挖掘的技术可得到这些数据隐含的有用的关系,比如课程模型。
一门课程的学习,首先是先要完成它的先修课程,先修课程的学时长短、教授深度等,都会对这门课程的学习有影响。应用数据挖掘中的关联分析可找出课程之间的关联关系,使课程的调整有理论依据且更科学。
学生的成绩与其家庭背景之间也有着关联,学校的数据库中含有学生基本情况的历史数据,我们想知道学生的成绩与其家庭背景的关系。学生成绩是否与课余打工、单亲家庭、未加入辅导计划、学习障碍、新近转学、经常缺席等因素有关。
3 学生成绩的数据挖掘过程
3.1 确定挖掘任务
学校的教务系统中存放着大量学生成绩数据,而只是对这些成绩做一些求总分、加权平均和排名等简单的操作。这些数据表面上显示的是学生学习的好坏和兴趣,实际上隐藏着课程设置及教学方法改进的信息。
3.2 准备数据
学校的各个部门都有大量的学生数据,每个学期都会产生新的数据,我们从这些海量数据中收集学生的成绩及学生的信息等数据作为要分析的数据。
3.3 算法设计
数据挖掘是一项从大量的记录数据当中找出有价值的、人们感兴趣的信息,这些信息是隐含的、事先并不知道的有用信息,发现的知识一般可表示为概念(Concepts)、规则(Rules)、规律(Regular ides)、模式(Patterns)等形式。关联规则是本文中分析成绩的主要方法之一,它反映的是事物与事物之间相互关联性和依存性。如果两个或多个事物之间存关联关系,可通过其中的一个事物预测出另一个事物。在这里我们用Apriori算法,首先产生频繁1-项集L1,然后是频繁2-项集L2,直到有某个r值使得Lr为空,算法停止。在第k次循环中,过程先产生候选k-项集的集合Ck,Ck中的每一个项集是对两个只有一个项不同的属于Lk-1的频繁集做一个连接来产生的。Ck中的项集是用来产生频繁集的候选集,最后的频繁集Lk必须是Ck的一个子集。一个项集是频繁集当且仅当它的所有子集都是频繁集。如果Ck中某个候选项集有一个(k-1)-子集不属于Lk-1,则这个项集可以被修剪掉不再被考虑。算法如下:
L1={频繁1项集};
for(k=2;Lk-1??;k++) do begin
Ck=apriori_gen(Lk-1); //新的潜在频繁项集
for all transactions t?D do begin
Ct=subset(Ck,t); //t中包含的潜在频繁项集
for all candidates c?Ct do
c.count++;
end;
Lk={c?Ck|c.count?minsup} end;
Answer=UKLK
3.4 数据挖掘
数据是某班学生的大学四年的学习成绩,学生人数为33人。表1显示了该班部分学生第一学年的学习成绩,共有32门课程,这些课程可以分为2类:专业课,其中包括高等数学(简称“高数”)、线性代数、概率论与数理统计(简称“概率”)、数据库技术、计算机原理、C++程序设计(简称“C++”);公共课包括英语、体育。有些课程是连续上2-4个学期的,如英语要上4个学期,高等数学要上2个学期,对于同一门课程不同学期的成绩,分别在课程名后用1-4表示相应学期。
表1 某班学生部分成绩
3.5 结果分析
高等数学成绩好的学生,C++也学得好;数据可技术学得好的学生,C++和计算机原理学得也好;英语学得好的学生,C++,计算机原理和数据库学得也好;计算机原理对其它专业课程没有影响;网页设计这门课学得好的学生,ASP.NET学得也好。针对信息管理与信息系统专业现有的课程设置,可以给出以下几点建议:C语言每周设为6学时,加大总的学时及周学时,加强实践教学;计算机组成原理与其他专业课的联系不大,可以减少学时;加强网页设计这门课程的学习,这门课与ASP.NET的联系很紧密;高等数学和英语这两门基础课应加大学时,尤其是高等数学,它们对后续的编程语言的学习很重要;VB这门课程可以去掉,编程课程从C语言入门就可以,C语言和C++这两门课可以合在一起来上,学完C之后可马上开C++而不需要分在两个学期来上。
4 结束语
利用数据挖掘工具对学生相关数据进行分析,可以得到一些隐含的信息,而这些信息是要对挖掘的结果进行深入的分析才能得到的,从中找出最合理的建议,给决策者提供参考依据。
参考文献:
[1]刘晓庆.浅析数据挖掘的研究现状及其应用[J].电脑知识与技术,2006.
[2]常桐善.数据挖掘技术在美国院校研究中的应用[J].复旦教育论坛,2009(02):74.
[3]陈丽.基于数据挖掘建立动态人事管理决策系统[J].计算机工程与应用,2001(20).
[4]陈卓明.数据挖掘在国内外的研究和发展现状[M].青年文学家,2009(16).
[5]刘美玲.数据挖掘技术在高校教学与管理中的应用[J].计算机工程与设计,2010(31).
作者简介:柳原(1981-),女,山西人,教师,中级,学士学位,研究方向:数据挖掘。
作者单位:包头医学院 计算机科学与技术系,内蒙古包头 014040;内蒙古科技大学 信息工程学院,内蒙古包头 014010