论文部分内容阅读
摘要:为研究大学生学习成绩与利用图书馆门禁信息之间的关系,此项研究选取了防灾科技学院2017和2018届学生的成绩数据和图书馆门禁信息,并从门禁信息中提取出学生去图书馆学习的时长和次数,利用数据挖掘技术中的Apriori算法,分析学生成绩和学生去图书馆学习的次数及时长之间的关联性。研究结果显示,学生去图书馆的时间和次数与学生的学习成绩的关联程度比较高。
关键词:学生成绩;图书馆门禁;Apriori算法;防灾科技学院
中图分类号:TP391
文献标识码:A
文章编号:1009-3044(2020)04-0235-02
收稿日期:2019-10-18
基金项目:中央高校基本科研业务费专项(ZY20180121)
作者简介:孙可可(1994—),男,安徽临泉人,硕士研究生,主要研究方向为灾害信息处理技术;李忠(通信作者),男,博士,教授,研究方向為数据挖掘、可拓学理论、灾害评价等;李海洋,男,安徽合肥人,硕士研究生;李莹,女,内蒙古通辽人,硕士研究生;王圆圆,女,河南洛阳人。
Correlation Analysis of Library Access Control Data and College Students ’ Achievement
SUN Ke-ke,LI Zhong,LI Hai-yang,LI Ying,WANG Yuan-yuan
(Institute of Disaster Prevention,Sanhe 065200,China)
Abstract:To study the relationship between college students’ academic achievement and the use of library access control information,this study selected the data from the 2017 and 2018 students ’ academic achievement of the Institute of Disaster Prevention library ac-cess control information,and extract the length of time and frequency of the access control information which students went to the library,By using the Apriorialgorithm in data mining technology to analyze the correlation between students achievement and the length of time and frequency which students went to the library for learning.The results of the study show that the length of time and number of students going to the library are highly correlated with the student’s academic achievement.
Key words:student achievement;access control information of library;Apriorialgorithm;Institute of Disaster Prevention
伴随着校园信息化的发展,校园一卡通作为校园信息化的媒介,成为每个学生必不可少的工具,因此校园一卡通积累了大量的学生行为信息数据。利用数据挖掘技术,可能从这些数据中挖掘出有价值的知识,对学生管理、教学等具有指导意义。然而目前这些数据没有能够有效地利用,仅仅停留在增删改查、统计分析和图表展示等程度,造成数据资源的极大浪费[1]。图书馆是一个学校图书、资料等文献的汇集点,是培养人才的重要支撑,是一所学校的学科建设的重要基地。众所周知,学习成绩与学生的生活习惯密不可分。本文希望分析大学生利用图书馆资源的次数与学生成绩之间的关系,研究二者之间的关联性问题,为更好地利用图书资源、指导学生行为习惯、提高学习成绩等提供科学支撑。
1 数据预处理与特征分析
由于所有拿到的数据都是原始数据,而Apriori算法要求数据必须是分类属性的数据,无法对原数据进行分析,所以对于原始数据进行一定的处理,才能从中找到相应的特征。数据预处理主要包括数据清洗、集成、变换、规约[2]。数据清洗主要是从原始数据中删除数据缺失严重且无法使用的记录、删除重复的记录;数据集成则是把多个数据源或者数据表中的数据合并放到一个一致的数据存储中;数据变换主要是对数据进行规范化处理,将数据转换成便于使用的形式;数据规约是在保持原有数据的特征的和原有数据的完整性的基础上,适当降低数据的规模或者维度,降低数据存储成本,减少数据挖掘所需要的时间[3]。
数据质量的高低直接关系到数据挖掘结果的好坏,因此需要对原始数据进行清理、整理、除噪、集成等预处理操作,这是数据挖掘过程的重要环节。本文所选取的数据是防灾科技学院2013和2014这两年人学学生的图书馆进出信息和学习成绩信息,计算每个学生每个学年进出图书馆的次数以及在图书馆内的时长(单位:分钟),以及每学年的成绩和总成绩。按照成绩分为三类学生,分别是:A类为该年级学生成绩排名前15%的
学生,C类是该年级学生成绩排名最后15%的学生,其余为B类学生。如图1所示的是一次数据挖掘任务的流程。 1.1 数据预处理
数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,处理缺失值等,在本项目中,主要是:删除原始数据集中的无关数据,即学分为0的课程成绩(如大学英语CET考试、计算机等级考试……图书馆重复刷卡数据;处理缺失值(删除记录、数据插补、不处理),主要是图书馆的门门禁缺失数据;数据变换主要是对数据进行规范化处理,将数据转换成便于使用的形式。
1.2 数据展示
为了使数据挖掘工作能得到较好的结果,在本项目中主要是把原始数据进行了一定程度的转换,对于成绩数据,我们从中提取并计算出了每个学生大学里每个学年的平均成绩,并按照该学生所在的年级排名进行分为A、B、C三类,数据格式如图2(a),对学生的进图书馆的时长和频度的数据处理方式与学生成绩处理方式类似,但是时长单位是分钟,由于部分数值过大,故采用取对数处理,结果分别是图2(b)、2(c)的形式。
2 关联规则与Apriori算法
2.1 關联规则
关联分析,又称关联规则学习,是在大规模数据集中寻找数据之间的关系。主要有两种描述形式:
1)频繁项集:经常出现在一起的事物的集合;
2)关联规则:表示两种物品之间存在着很强的联系。
支持度和置信度是用来量化关联分析是否成功的一个指标,只要某个项集的支持度大于给定的阈值,那么该项集称作频繁项集。
支持度:数据集中包含该项的记录所占的比例。
置信度:针对一条具体的关联规则来定义的,表示包含A .事务中同时包含B事务的比例,即同时包含A和B的事务占包含A事务的比例[4]。
支持度:Support(A=》B)=-A、B同时出现的记录/总的记录
置信度:Confidence(A=》B)=’ Support(A=》 B)/Support(A)
关联规则挖掘的步骤:
a)找出所有的事物所构成的频繁项集
b)选出支持度和置信度满足给定阈值的规则
2.2 Apriori算法
Apriori算法是逐层扫描来发现频繁项集。步骤1:首先需要扫描所有的数据集,对每一项计数得到候选项集,计算出每个项集的支持度,删除掉不满足支持度阈值的项集;步骤2:通过连接运算,再次得到一个候选项集,计算出每个项集的支持度,删除掉不满足支持度阈值的项集;重复上面的步骤1和步骤2,直至得到的项集为空集为止[5],这时候就得到了所有的频,繁项集,再通过计算置信度得出强关联规则。
3 结果分析
表1中的成绩评价的A、B、C分别表示学生学习成绩的“优秀”“良好”和“一般”,时长评级A_t、B_t和C_t分别表示学生在图书馆学习时间的长短,即“一直待在图书馆”,“经常待在图书馆”和“偶尔待在图书馆”,频度评级的A_f、B_f和C_f分别是对学生去图书馆的次数做出的评级,即“总是去”“经常去”和“偶尔去”。从表2的关联分析的结果中可以看出,当学生“经常待在图书馆”且“经常去”图书馆的情况下,学生成绩良好的置信度达到69.39%;当学生在“经常去图书馆”的情况下,学生成绩评定是“良好”的置信度达到69.32%;当学生“偶尔待在图书馆”且“偶尔去图书馆”的情况下,学生成绩是“一般”的置信度达到6754%;当学生在“偶尔待在图书馆"的情况下,学生成绩是“一般”的置信度达到65.24%;当学生“经常待在图书馆”且“偶尔去”图书馆的情况下,学生成绩是“一般”的置信度达到56.06%;当学生“经常待在图书馆”且“总是去”图书馆的情况下,学生成绩是“一般”的置信度达到48.67%;当学生“一直待在图书馆”的情况下,学生成绩是“优秀”的置信度达到43.36%;当学生“一直待在图书馆”且“总是去”图书馆的情况下,学生成绩是“优秀”的置信度达到43.36%。
4 结论与建议
图书馆是学生自主学习的重要场所,对于养成学习习惯、提高学习成绩、促进学业发展具有重要作用。本文以防灾科技学院两届学生的图书馆学习时长和进出次数信息为后援,采用数据挖掘技术获得了学习成绩与图书馆学习信息的关联规则,得到以下几点结论:
(1)学习成绩评级为B类的同学,有最高置信度的是评级为B类的入馆时长及频度;
(2)学习成绩评级为C类的同学,有最高置信度的事评级为C类的入馆时长及频度;
(3)对于学习成绩评定为A类的学生来说,置信度最高的也是入馆时长和频度评价为A类的学生。
以上的结论说明防灾科技学院本科学生学习成绩和在图书馆的学习时长有比较好的关联性。
研究过程中还有一些问题需要深入研究:
(1)在于防灾科技学院自身的特殊性,首先是学校有距离不近的南北两个校区,大部分学生住在北校区,但是学校的主图书馆却在南校区,因此,此研究结果是否适用于其他学校还有待研究。
(2)Apriori算法得到的结果严重依赖于对原始数据的分类情况,对于不好的分类,比较容易丢失一些规则,因此,还需要对原始数据的分类进行深入研究以寻找是否还有更好的结果。参考文献:
[1]纪连恩,高芳,黄凯鸿,等.面向多主体的大学课程成绩相关性可视探索与分析[J].计算机辅助设计与图形学学报,2018,30(1):44-56.
[2]沈窖芳,郭立甫,时希杰.数据挖掘中的数据预处理模型与算法研究[J].计算机系统应用,2005(7):44-46.
[3]张良均,王路,谭立云,等.Python数据分析与挖掘实战[M].北京:机械工业出版社,2018.
[4]Pang-Ning Tan Michael Steinbach.数据挖掘导论:完整版[M].范明,范宏建,译.北京:人民邮电出版社,2016.
[5]蒋盛益,李霞,郑琪.数据挖掘原理与实践[M].电子工业出版社,2015.
[通联编辑:王力]
关键词:学生成绩;图书馆门禁;Apriori算法;防灾科技学院
中图分类号:TP391
文献标识码:A
文章编号:1009-3044(2020)04-0235-02
收稿日期:2019-10-18
基金项目:中央高校基本科研业务费专项(ZY20180121)
作者简介:孙可可(1994—),男,安徽临泉人,硕士研究生,主要研究方向为灾害信息处理技术;李忠(通信作者),男,博士,教授,研究方向為数据挖掘、可拓学理论、灾害评价等;李海洋,男,安徽合肥人,硕士研究生;李莹,女,内蒙古通辽人,硕士研究生;王圆圆,女,河南洛阳人。
Correlation Analysis of Library Access Control Data and College Students ’ Achievement
SUN Ke-ke,LI Zhong,LI Hai-yang,LI Ying,WANG Yuan-yuan
(Institute of Disaster Prevention,Sanhe 065200,China)
Abstract:To study the relationship between college students’ academic achievement and the use of library access control information,this study selected the data from the 2017 and 2018 students ’ academic achievement of the Institute of Disaster Prevention library ac-cess control information,and extract the length of time and frequency of the access control information which students went to the library,By using the Apriorialgorithm in data mining technology to analyze the correlation between students achievement and the length of time and frequency which students went to the library for learning.The results of the study show that the length of time and number of students going to the library are highly correlated with the student’s academic achievement.
Key words:student achievement;access control information of library;Apriorialgorithm;Institute of Disaster Prevention
伴随着校园信息化的发展,校园一卡通作为校园信息化的媒介,成为每个学生必不可少的工具,因此校园一卡通积累了大量的学生行为信息数据。利用数据挖掘技术,可能从这些数据中挖掘出有价值的知识,对学生管理、教学等具有指导意义。然而目前这些数据没有能够有效地利用,仅仅停留在增删改查、统计分析和图表展示等程度,造成数据资源的极大浪费[1]。图书馆是一个学校图书、资料等文献的汇集点,是培养人才的重要支撑,是一所学校的学科建设的重要基地。众所周知,学习成绩与学生的生活习惯密不可分。本文希望分析大学生利用图书馆资源的次数与学生成绩之间的关系,研究二者之间的关联性问题,为更好地利用图书资源、指导学生行为习惯、提高学习成绩等提供科学支撑。
1 数据预处理与特征分析
由于所有拿到的数据都是原始数据,而Apriori算法要求数据必须是分类属性的数据,无法对原数据进行分析,所以对于原始数据进行一定的处理,才能从中找到相应的特征。数据预处理主要包括数据清洗、集成、变换、规约[2]。数据清洗主要是从原始数据中删除数据缺失严重且无法使用的记录、删除重复的记录;数据集成则是把多个数据源或者数据表中的数据合并放到一个一致的数据存储中;数据变换主要是对数据进行规范化处理,将数据转换成便于使用的形式;数据规约是在保持原有数据的特征的和原有数据的完整性的基础上,适当降低数据的规模或者维度,降低数据存储成本,减少数据挖掘所需要的时间[3]。
数据质量的高低直接关系到数据挖掘结果的好坏,因此需要对原始数据进行清理、整理、除噪、集成等预处理操作,这是数据挖掘过程的重要环节。本文所选取的数据是防灾科技学院2013和2014这两年人学学生的图书馆进出信息和学习成绩信息,计算每个学生每个学年进出图书馆的次数以及在图书馆内的时长(单位:分钟),以及每学年的成绩和总成绩。按照成绩分为三类学生,分别是:A类为该年级学生成绩排名前15%的
学生,C类是该年级学生成绩排名最后15%的学生,其余为B类学生。如图1所示的是一次数据挖掘任务的流程。 1.1 数据预处理
数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,处理缺失值等,在本项目中,主要是:删除原始数据集中的无关数据,即学分为0的课程成绩(如大学英语CET考试、计算机等级考试……图书馆重复刷卡数据;处理缺失值(删除记录、数据插补、不处理),主要是图书馆的门门禁缺失数据;数据变换主要是对数据进行规范化处理,将数据转换成便于使用的形式。
1.2 数据展示
为了使数据挖掘工作能得到较好的结果,在本项目中主要是把原始数据进行了一定程度的转换,对于成绩数据,我们从中提取并计算出了每个学生大学里每个学年的平均成绩,并按照该学生所在的年级排名进行分为A、B、C三类,数据格式如图2(a),对学生的进图书馆的时长和频度的数据处理方式与学生成绩处理方式类似,但是时长单位是分钟,由于部分数值过大,故采用取对数处理,结果分别是图2(b)、2(c)的形式。
2 关联规则与Apriori算法
2.1 關联规则
关联分析,又称关联规则学习,是在大规模数据集中寻找数据之间的关系。主要有两种描述形式:
1)频繁项集:经常出现在一起的事物的集合;
2)关联规则:表示两种物品之间存在着很强的联系。
支持度和置信度是用来量化关联分析是否成功的一个指标,只要某个项集的支持度大于给定的阈值,那么该项集称作频繁项集。
支持度:数据集中包含该项的记录所占的比例。
置信度:针对一条具体的关联规则来定义的,表示包含A .事务中同时包含B事务的比例,即同时包含A和B的事务占包含A事务的比例[4]。
支持度:Support(A=》B)=-A、B同时出现的记录/总的记录
置信度:Confidence(A=》B)=’ Support(A=》 B)/Support(A)
关联规则挖掘的步骤:
a)找出所有的事物所构成的频繁项集
b)选出支持度和置信度满足给定阈值的规则
2.2 Apriori算法
Apriori算法是逐层扫描来发现频繁项集。步骤1:首先需要扫描所有的数据集,对每一项计数得到候选项集,计算出每个项集的支持度,删除掉不满足支持度阈值的项集;步骤2:通过连接运算,再次得到一个候选项集,计算出每个项集的支持度,删除掉不满足支持度阈值的项集;重复上面的步骤1和步骤2,直至得到的项集为空集为止[5],这时候就得到了所有的频,繁项集,再通过计算置信度得出强关联规则。
3 结果分析
表1中的成绩评价的A、B、C分别表示学生学习成绩的“优秀”“良好”和“一般”,时长评级A_t、B_t和C_t分别表示学生在图书馆学习时间的长短,即“一直待在图书馆”,“经常待在图书馆”和“偶尔待在图书馆”,频度评级的A_f、B_f和C_f分别是对学生去图书馆的次数做出的评级,即“总是去”“经常去”和“偶尔去”。从表2的关联分析的结果中可以看出,当学生“经常待在图书馆”且“经常去”图书馆的情况下,学生成绩良好的置信度达到69.39%;当学生在“经常去图书馆”的情况下,学生成绩评定是“良好”的置信度达到69.32%;当学生“偶尔待在图书馆”且“偶尔去图书馆”的情况下,学生成绩是“一般”的置信度达到6754%;当学生在“偶尔待在图书馆"的情况下,学生成绩是“一般”的置信度达到65.24%;当学生“经常待在图书馆”且“偶尔去”图书馆的情况下,学生成绩是“一般”的置信度达到56.06%;当学生“经常待在图书馆”且“总是去”图书馆的情况下,学生成绩是“一般”的置信度达到48.67%;当学生“一直待在图书馆”的情况下,学生成绩是“优秀”的置信度达到43.36%;当学生“一直待在图书馆”且“总是去”图书馆的情况下,学生成绩是“优秀”的置信度达到43.36%。
4 结论与建议
图书馆是学生自主学习的重要场所,对于养成学习习惯、提高学习成绩、促进学业发展具有重要作用。本文以防灾科技学院两届学生的图书馆学习时长和进出次数信息为后援,采用数据挖掘技术获得了学习成绩与图书馆学习信息的关联规则,得到以下几点结论:
(1)学习成绩评级为B类的同学,有最高置信度的是评级为B类的入馆时长及频度;
(2)学习成绩评级为C类的同学,有最高置信度的事评级为C类的入馆时长及频度;
(3)对于学习成绩评定为A类的学生来说,置信度最高的也是入馆时长和频度评价为A类的学生。
以上的结论说明防灾科技学院本科学生学习成绩和在图书馆的学习时长有比较好的关联性。
研究过程中还有一些问题需要深入研究:
(1)在于防灾科技学院自身的特殊性,首先是学校有距离不近的南北两个校区,大部分学生住在北校区,但是学校的主图书馆却在南校区,因此,此研究结果是否适用于其他学校还有待研究。
(2)Apriori算法得到的结果严重依赖于对原始数据的分类情况,对于不好的分类,比较容易丢失一些规则,因此,还需要对原始数据的分类进行深入研究以寻找是否还有更好的结果。参考文献:
[1]纪连恩,高芳,黄凯鸿,等.面向多主体的大学课程成绩相关性可视探索与分析[J].计算机辅助设计与图形学学报,2018,30(1):44-56.
[2]沈窖芳,郭立甫,时希杰.数据挖掘中的数据预处理模型与算法研究[J].计算机系统应用,2005(7):44-46.
[3]张良均,王路,谭立云,等.Python数据分析与挖掘实战[M].北京:机械工业出版社,2018.
[4]Pang-Ning Tan Michael Steinbach.数据挖掘导论:完整版[M].范明,范宏建,译.北京:人民邮电出版社,2016.
[5]蒋盛益,李霞,郑琪.数据挖掘原理与实践[M].电子工业出版社,2015.
[通联编辑:王力]