大学生图书馆门禁数据与成绩关联分析

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:chouser1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:为研究大学生学习成绩与利用图书馆门禁信息之间的关系,此项研究选取了防灾科技学院2017和2018届学生的成绩数据和图书馆门禁信息,并从门禁信息中提取出学生去图书馆学习的时长和次数,利用数据挖掘技术中的Apriori算法,分析学生成绩和学生去图书馆学习的次数及时长之间的关联性。研究结果显示,学生去图书馆的时间和次数与学生的学习成绩的关联程度比较高。
  关键词:学生成绩;图书馆门禁;Apriori算法;防灾科技学院
  中图分类号:TP391
  文献标识码:A
  文章编号:1009-3044(2020)04-0235-02
  收稿日期:2019-10-18
  基金项目:中央高校基本科研业务费专项(ZY20180121)
  作者简介:孙可可(1994—),男,安徽临泉人,硕士研究生,主要研究方向为灾害信息处理技术;李忠(通信作者),男,博士,教授,研究方向為数据挖掘、可拓学理论、灾害评价等;李海洋,男,安徽合肥人,硕士研究生;李莹,女,内蒙古通辽人,硕士研究生;王圆圆,女,河南洛阳人。
  Correlation Analysis of Library Access Control Data and College Students ’ Achievement
  SUN Ke-ke,LI Zhong,LI Hai-yang,LI Ying,WANG Yuan-yuan
  (Institute of Disaster Prevention,Sanhe 065200,China)
  Abstract:To study the relationship between college students’ academic achievement and the use of library access control information,this study selected the data from the 2017 and 2018 students ’ academic achievement of the Institute of Disaster Prevention library ac-cess control information,and extract the length of time and frequency of the access control information which students went to the library,By using the Apriorialgorithm in data mining technology to analyze the correlation between students achievement and the length of time and frequency which students went to the library for learning.The results of the study show that the length of time and number of students going to the library are highly correlated with the student’s academic achievement.
  Key words:student achievement;access control information of library;Apriorialgorithm;Institute of Disaster Prevention
  伴随着校园信息化的发展,校园一卡通作为校园信息化的媒介,成为每个学生必不可少的工具,因此校园一卡通积累了大量的学生行为信息数据。利用数据挖掘技术,可能从这些数据中挖掘出有价值的知识,对学生管理、教学等具有指导意义。然而目前这些数据没有能够有效地利用,仅仅停留在增删改查、统计分析和图表展示等程度,造成数据资源的极大浪费[1]。图书馆是一个学校图书、资料等文献的汇集点,是培养人才的重要支撑,是一所学校的学科建设的重要基地。众所周知,学习成绩与学生的生活习惯密不可分。本文希望分析大学生利用图书馆资源的次数与学生成绩之间的关系,研究二者之间的关联性问题,为更好地利用图书资源、指导学生行为习惯、提高学习成绩等提供科学支撑。
  1 数据预处理与特征分析
  由于所有拿到的数据都是原始数据,而Apriori算法要求数据必须是分类属性的数据,无法对原数据进行分析,所以对于原始数据进行一定的处理,才能从中找到相应的特征。数据预处理主要包括数据清洗、集成、变换、规约[2]。数据清洗主要是从原始数据中删除数据缺失严重且无法使用的记录、删除重复的记录;数据集成则是把多个数据源或者数据表中的数据合并放到一个一致的数据存储中;数据变换主要是对数据进行规范化处理,将数据转换成便于使用的形式;数据规约是在保持原有数据的特征的和原有数据的完整性的基础上,适当降低数据的规模或者维度,降低数据存储成本,减少数据挖掘所需要的时间[3]。
  数据质量的高低直接关系到数据挖掘结果的好坏,因此需要对原始数据进行清理、整理、除噪、集成等预处理操作,这是数据挖掘过程的重要环节。本文所选取的数据是防灾科技学院2013和2014这两年人学学生的图书馆进出信息和学习成绩信息,计算每个学生每个学年进出图书馆的次数以及在图书馆内的时长(单位:分钟),以及每学年的成绩和总成绩。按照成绩分为三类学生,分别是:A类为该年级学生成绩排名前15%的
  学生,C类是该年级学生成绩排名最后15%的学生,其余为B类学生。如图1所示的是一次数据挖掘任务的流程。   1.1 数据预处理
  数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,处理缺失值等,在本项目中,主要是:删除原始数据集中的无关数据,即学分为0的课程成绩(如大学英语CET考试、计算机等级考试……图书馆重复刷卡数据;处理缺失值(删除记录、数据插补、不处理),主要是图书馆的门门禁缺失数据;数据变换主要是对数据进行规范化处理,将数据转换成便于使用的形式。
  1.2 数据展示
  为了使数据挖掘工作能得到较好的结果,在本项目中主要是把原始数据进行了一定程度的转换,对于成绩数据,我们从中提取并计算出了每个学生大学里每个学年的平均成绩,并按照该学生所在的年级排名进行分为A、B、C三类,数据格式如图2(a),对学生的进图书馆的时长和频度的数据处理方式与学生成绩处理方式类似,但是时长单位是分钟,由于部分数值过大,故采用取对数处理,结果分别是图2(b)、2(c)的形式。
  2 关联规则与Apriori算法
  2.1 關联规则
  关联分析,又称关联规则学习,是在大规模数据集中寻找数据之间的关系。主要有两种描述形式:
  1)频繁项集:经常出现在一起的事物的集合;
  2)关联规则:表示两种物品之间存在着很强的联系。
  支持度和置信度是用来量化关联分析是否成功的一个指标,只要某个项集的支持度大于给定的阈值,那么该项集称作频繁项集。
  支持度:数据集中包含该项的记录所占的比例。
  置信度:针对一条具体的关联规则来定义的,表示包含A .事务中同时包含B事务的比例,即同时包含A和B的事务占包含A事务的比例[4]。
  支持度:Support(A=》B)=-A、B同时出现的记录/总的记录
  置信度:Confidence(A=》B)=’ Support(A=》 B)/Support(A)
  关联规则挖掘的步骤:
  a)找出所有的事物所构成的频繁项集
  b)选出支持度和置信度满足给定阈值的规则
  2.2 Apriori算法
  Apriori算法是逐层扫描来发现频繁项集。步骤1:首先需要扫描所有的数据集,对每一项计数得到候选项集,计算出每个项集的支持度,删除掉不满足支持度阈值的项集;步骤2:通过连接运算,再次得到一个候选项集,计算出每个项集的支持度,删除掉不满足支持度阈值的项集;重复上面的步骤1和步骤2,直至得到的项集为空集为止[5],这时候就得到了所有的频,繁项集,再通过计算置信度得出强关联规则。
  3 结果分析
  表1中的成绩评价的A、B、C分别表示学生学习成绩的“优秀”“良好”和“一般”,时长评级A_t、B_t和C_t分别表示学生在图书馆学习时间的长短,即“一直待在图书馆”,“经常待在图书馆”和“偶尔待在图书馆”,频度评级的A_f、B_f和C_f分别是对学生去图书馆的次数做出的评级,即“总是去”“经常去”和“偶尔去”。从表2的关联分析的结果中可以看出,当学生“经常待在图书馆”且“经常去”图书馆的情况下,学生成绩良好的置信度达到69.39%;当学生在“经常去图书馆”的情况下,学生成绩评定是“良好”的置信度达到69.32%;当学生“偶尔待在图书馆”且“偶尔去图书馆”的情况下,学生成绩是“一般”的置信度达到6754%;当学生在“偶尔待在图书馆"的情况下,学生成绩是“一般”的置信度达到65.24%;当学生“经常待在图书馆”且“偶尔去”图书馆的情况下,学生成绩是“一般”的置信度达到56.06%;当学生“经常待在图书馆”且“总是去”图书馆的情况下,学生成绩是“一般”的置信度达到48.67%;当学生“一直待在图书馆”的情况下,学生成绩是“优秀”的置信度达到43.36%;当学生“一直待在图书馆”且“总是去”图书馆的情况下,学生成绩是“优秀”的置信度达到43.36%。
  4 结论与建议
  图书馆是学生自主学习的重要场所,对于养成学习习惯、提高学习成绩、促进学业发展具有重要作用。本文以防灾科技学院两届学生的图书馆学习时长和进出次数信息为后援,采用数据挖掘技术获得了学习成绩与图书馆学习信息的关联规则,得到以下几点结论:
  (1)学习成绩评级为B类的同学,有最高置信度的是评级为B类的入馆时长及频度;
  (2)学习成绩评级为C类的同学,有最高置信度的事评级为C类的入馆时长及频度;
  (3)对于学习成绩评定为A类的学生来说,置信度最高的也是入馆时长和频度评价为A类的学生。
  以上的结论说明防灾科技学院本科学生学习成绩和在图书馆的学习时长有比较好的关联性。
  研究过程中还有一些问题需要深入研究:
  (1)在于防灾科技学院自身的特殊性,首先是学校有距离不近的南北两个校区,大部分学生住在北校区,但是学校的主图书馆却在南校区,因此,此研究结果是否适用于其他学校还有待研究。
  (2)Apriori算法得到的结果严重依赖于对原始数据的分类情况,对于不好的分类,比较容易丢失一些规则,因此,还需要对原始数据的分类进行深入研究以寻找是否还有更好的结果。参考文献:
  [1]纪连恩,高芳,黄凯鸿,等.面向多主体的大学课程成绩相关性可视探索与分析[J].计算机辅助设计与图形学学报,2018,30(1):44-56.
  [2]沈窖芳,郭立甫,时希杰.数据挖掘中的数据预处理模型与算法研究[J].计算机系统应用,2005(7):44-46.
  [3]张良均,王路,谭立云,等.Python数据分析与挖掘实战[M].北京:机械工业出版社,2018.
  [4]Pang-Ning Tan Michael Steinbach.数据挖掘导论:完整版[M].范明,范宏建,译.北京:人民邮电出版社,2016.
  [5]蒋盛益,李霞,郑琪.数据挖掘原理与实践[M].电子工业出版社,2015.
  [通联编辑:王力]
其他文献
摘要:在中学物理教学中,过分强调知识的传授,而忽略了物理学史的教育功能,本文以“原子结构模型”的建立过程为例,谈谈物理学史在中学物理教育中的作用。  关键词:物理学史;物理教育;作用  中图分类号:G633.7 文献标识码:A 文章编号:1003-6148(2010)4(S)-0010-2    1 问题的产生    根据现行人教版教材(必修加选修)第三册的编排顺序,笔者在讲第二十一章量子论初步时
摘 要:学生在学习静电场这章时,笔者发现:学生对电场强度的方向、公式U=Ed中U的正负及d的取值和求最小电场这类题容易犯错。若在物理教学中能将数学中的向量应用于此,能收到事半功倍的效果。  关键词:静电场;电场强度;电势差;向量  中图分类号:G633.7 文献标识码:A 文章编号:1003-6148(2017)2-0043-2  经调查,在现阶段高二学生已经在数学中学习了向量的相关知识,根据物理
摘 要:理想化模型是研究物理问题最基本、最重要的科学研究方法之一。从中美教材对比视角出发,以“质点”模型教学为例,凸显科学方法,提炼“理想化模型”教学思路。  关键词:理想化模型;教材对比;教学思路  中图分类号:G633.7 文献标识码:A 文章编号:1003-6148(2016)12-0019-4  “理想化模型”是指在一定条件下对实际事物的几何形体、物理性质或物理环境等进行合理的抽象而得到的
摘 要:在当前物理教学中重结果、轻过程的现象普遍存在,对学生全面提高素質影响很大,同时在解决物理问题时也会出错。有些相对复杂的问题往往包含几个或多个过程,稍不留心就会导致错解,这就要求学生要特别注意过程的分析。   关键词:物理教学;解题法;物理过程分析;审题能力  中图分类号:G633.7 文献标识码:A 文章编号:1003-6148(2020)8-0062-3  物理过程分析,是学习物
摘 要:针对2016年全国卷(I)理综第35题,使用人教版的地区,有教材的优势。一线教师有必要研究各版本的教材内容,备课中整合资源,创新教学设计,进行高效教学,更好地备战高考。  關键词:光电效应;人教版;鲁科版;高考;高效教学  中图分类号:G633.7 文献标识码:A 文章编号:1003-6148(2017)8-0076-2  高中物理教材,现有5个版本,每个版本各有特色。从2017年开始,大
摘 要:生活中绝大多数电路采用三相制供电或运行,三相四线与五线制更是随处可见。文章主要对三相电路,包括三相发电机与三相负载进行简单的学术性介绍。  关键词:三相发电;生活应用;三相负载  中图分类号:G633.7 文献标识码:A 文章编号:1003-6148(2020)11-0010-3  1 什么是三相电路  如果在交流电路中作用着两个或两个以上频率相同、但在相位上相差一定角度的交变电动势
摘 要:心理学的众多实验证明人的认知是具身的,从而发展出具身认知的理论框架,强调身体不仅仅是接收器和响应器,同时也是认知的一部分。本文尝试将具身认知的理论框架应用到物理教学中,并以“超重与失重”为例进行基于具身认知的教学设计。  关键词:具身认知;物理教学;超重与失重;教学设计  中图分类号:G633.7 文献标识码:A 文章编号:1003-6148(2018)11-0034-3  1 具身认知理
摘 要:物理学的发展可以追溯到古希腊的亚里士多德,近代物理学从哥白尼提出“日心说”肇始,经过伽利略时代,到牛顿、麦克斯韦时期,经典物理学形成完整的体系。20世纪初普朗克提出量子论,爱因斯坦提出相对论,开启了现代物理学的时代,一直到当代的霍金。物理观念在这一漫长的过程中也不断地演化和变革,显示出它的历史性和复杂性。物理观念成为我国新一轮基础教育课程改革中物理学科核心素养的重要组成部分,而物理观念的历
摘 要:本文总结了点电荷产生的电场强度和电势的分布规律,同时展示了图鉴方法在物理学习中的形象、系统、全面、易记的特点。  关键词:图鉴;点电荷;电场;电势;对称;提高;内化  中图分类号:G633.7 文献标识码:A 文章编号:1003-6148(2017)5-0050-4  想必大家对图鉴并不陌生,那么你听说过物理中的图鉴吗?今天我们一起来见识下物理中的图鉴。这里分析的是点电荷产生的电场与电势的
摘要:每一位有经验的物理教师,希望每一届的学生在物理开学第一课即序言课上受益匪浅。笔者尝试着在序言课上做了一些探索和改进,将物理学以实验为载体,以想象为翅膀,以团结合作为主要手段,等需要大家多动手,多探索,多发现,多思考,多总结,多合作,多想象……的教学理念交给学生,引入歌曲《超越梦想》,用音乐带动人的情感;用游戏来主导本节课,达到寓教于乐,意义深远;把实验做为本节课的主旋律,激发学生的学习兴趣。