线上课程智能推荐策略分析

来源 :科海故事博览·中旬刊 | 被引量 : 0次 | 上传用户:jia729508703
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 由于近几年线上教学网课的盛行,所以通过对如何根据教育平台的线上用户信息和学习信息,提供精准的课程推荐服务就成为线上教育的热点问题。 本次我们使用了python中的pandas和numpy对数据进行了数据预处理,通过pyecharts对数据进行可视化分析,并且通过其不同的登录次数和登录时间制作了基于网课登录次数的世界地图和中国地图。并且根据各个课程的学生登录数据和各个课程的观看完成度进行了流失性分析和线上课程推荐分析最终对线上课程提出了综合策略与管理决策建议。
  关键词 python pyecharts 数据可视化
  中图分类号:G434;TP311.131 文献标识码:A 文章编号:1007-0745(2020)04-0022-06
  1 问题描述
  1.1 问题背景
  近年来,随着互联网与通信技术的高速发展,学习资源的建设与共享呈现出新的发展趋势,各种网课、慕课、直播课等层出不穷,各种在线教育平台和学习 应用纷纷涌现。尤其是2020年春季学期,受新冠疫情影响,在教育部“停课不停学”的要求下,网络平台成为“互联网 教育”成果的重要展示阵地。因此,如何根据教育平台的线上用户信息和学习信息,通过数据分析为教育平台和用户提供精准的课程推荐服务就成为线上教育的热点问题。本赛题提供了某教育平台近两年的运营数据,希望参赛者根据这些数据,为平台制定综合的线上课程推荐策略,以便更好地服务线上用户。[1]
  1.2 任务
  1.分析平台用户的活跃情况,计算用户的流失率。
  2.分析线上课程的受欢迎程度,构建课程智能推荐模型,为教育平台的线上 推荐服务提供策略。
  1.3 具体任务
  任务 1.1 应包含每个表中缺失值和重复值的记录数以及有效数据的记录数。
  任务 1.2 应包含 recently_logged 字段的“--”值的记录数以及数据处 理的方法。
  任务 2.1 应包含各省份与各城市的热力地图以及主要省份和主要城市的数据表格,并进行分析。
  任务 2.2 应包含工作日与非工作日各时段的柱状图,并进行分析。
  任务 2.3 应包含对流失率的定义,并给出流失率的结果。
  任务 2.4 应根据计算结果给出合理的建议。
  任务 3.1 应包含最受欢迎的前 10 门课程的参与人数、受欢迎程度及柱状图。
  任务3.2应包含相应推荐算法的描述,并给出总学习进度最高的5个用户的课程推荐数据。
  任务 3.3 应包含数据分析的方法、算法描述以及主要结果。
  2 数据预处理
  2.1 数据来源
  数据时间:2020年11月14日
  2.2 数据处理
  数据处理是应用数据分析前极其重要的一步,通常包括了对异常数据的处理、缺失值的处理和重复值的处理。只有处理了才能够进行模型的建立与训练,最终得到相关的结果。
  2.2.1 异常数据处理
  针对附件所给数据的study_information文件,对其进行处理。
  2.2.2 缺失数据处理
  针对附件所给数据的study_information文件,首先读取原始数据(如下图1),然后再对其price一栏的缺失值进行處理,我们利用python的pands库的数据处理功能先将缺失价格的课程统计出来course_id中的课程51与课程96的价格数据缺失,且课程51缺失4011个,课程96缺失227个。针对study_information文件总数据数来说,这缺失值的占比不足2%,由此我们将其价格统一补0处理。
  通过python的布尔索引找出有缺失值的某列数据,如下图2:
  由此可见price列存在缺失值,由此利用fillina将缺失值的课程进行统计分析得到缺失值的课程id为课程51与课程96,在统计其缺失个数得到课程51缺失4011个,课程96缺失227个。得到图3:
  再对缺失值进行补0操作得到如下图数据:
  至此将study_information文件中的所有缺失值处理完成。
  针对附件给出的users文件中的用户id栏存在缺失数据通过python的pandas库将缺失用户id的那一栏数据全部提取出来,提取图4:
  由于此数据量占总数据量的比例小因此采取了剔除处理,将以上的67个缺失用户id全部移除。得到新的数据如图5:
  由此文件users文件中的缺失用户id全部解决。
  通过已经进行了缺失值和重复值处理的文件users,再将login文件中的最近登陆时间的那一列数据进行时间戳类型转化,找到最近的时间,再通过用户id匹配users文件中的相同的用户id上将最近登陆的时间补为login文件找到的最近的时间。但是经过此种方式进行匹配后依然未完全补全。由此确定某些用户再注册后并没有使用,故将其最近的登陆时间修改为注册的时间。最后补全数据如图6所示:
  2.2.3 重复数据处理
  通过对已经进行过数据缺失处理的users文件进行数据分析,发现文件users的某些行存在重复的数据如图7所示:
  在经过python的将user的重复值删除保留其中的一行有用的数据,处理后如图8所示:
  由此解决了文件user中的数据重复的问题。
  3 数据分析与可视化
  3.1 数据分析可视化简介
  数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。[2]为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式,无法达到其主要目的,也就是传达与沟通信息。[3]   3.2 平台用户活跃度分析
  3.2.1 热力地图
  统计login文件中不同的登陆地点的登陆次数然后通过python的pyecharts库进行热力地图的绘制。通过对数据的分析及处理,得到不同登陆地点的登陆次数。
  3.2.2 登陆次数柱状图
  通过对users文件中的最近访问时间那一列数据进行时间戳转化然后通过匹配星期的方式将每个时间进行分类,将为工作日的数据标记为0,非工作日的标记为1。然后再将统计的数据进行分类处理,在划分时间段统计登陆次数,最后利用python的matplotlib库绘制成柱状图。
  3.2.3 流失率分析
  先统计users文件中的最近登陆时间与2020年6月18日的时间差,当时间差大90天的时间时将此项标记为1,将时间差小于等于90天的标记为0,最后将标记栏求和就得到流失的人数为22474,在于总人数相比得到最后的流失率为51.18%。
  3.3 线上课程推荐分析
  3.3.1 受欢迎程度分析
  根据用户参与学习的记录,统计每门课程的参与人数,计算每门课 程的受欢迎程度,列出最受欢迎的前 10 门课程,并绘制相应的柱状图。通过数据处理过后的study_information文件用python提取出每一个课程的選人数量然后在对他的选课人数进行排序。
  3.3.2 相似度分析
  根据用户选择课程情况,构建用户和课程的关系表(二元矩阵),使用基于物品的协同过滤算法计算课程之间的相似度。[4]通过数据预处理study_information的文件,利用python的pandas库得到:得到协同过滤后的数据如图9所示:
  4 线上课程的综合策略与管理决策建议
  通过数据分析得到的活跃程度的柱状图,然后柱状图表明非工作日时早上8:00点到晚上20:00的活跃度最高,由此可以建议在工作日时将课程开放时间调整在早上8:00到晚上20:00。然而非工作日活跃度有延长的趋势,所以在非工作日时把课程开放时间可以适当延长。
  通过对课程之间的相似度分析与付费和免费课程统计得到图10、图11:
  由此得到付费课程的学习人数较多,而免费课程的学习人数较少。由此,为促进学习可以适当将一部分课程进行收费,同时来提高课程的学习率。
  5 总结
  通过对附件所给的数据进行预处理,对缺失数据和重复数据的处理,再到对问题的分析以及对各个任务的处理,其中运用了python的pandas库、datetime库、matplotlib库、numpy库、pyecharts库,最后得到的线上课程的综合策略与管理决策建议。
  参考文献:
  [1] 马辉.基于python 的数据分析可视化研究与实现[J].理论前沿技术,2020,09(11):289.
  [2] 李天辉.基于python的数据分析可视化研究与实现[J].电子测试,2020(20):78-79.
  [3] 孙东伟,刘滨.数据可视化研究与技术实现[J].产业与科技论坛,2020,19(19):40-42.
  [4] 杨露,葛文谦.基于Python的制造业数据分析可视化平台设计[J].信息化研究,2018,44(05):56-61.
  (西华大学 电气与电子信息学院,四川 成都 610039)
其他文献
弗兰克符合我们对政客的所有想象,但没有证据表明扮演者凯文·史派西有过什么从政打算,尽管他早年曾为很多政客鼓吹造势,并一度跟前总统克林顿走得很近。事实上,从他接受媒体访谈的记录来看,这个人也并不掩饰他对大众的警惕和鄙视。高冷姿态并不会折损明星魅力,说不定还能因此涨点粉。选民可不吃这套,他们永远需要被哄着,哪怕是哄骗。而对一个被媒体描述成傲慢、自大、你永远无法预知他下一秒反应的人而言,美国人大概还没做
7月12日,长沙中院执行了一桩死刑。曾成杰案的主要材料已经呈现在网上。这客观上使它成为一个公开程度最高的案例。但是,长沙中院以及它的上级法院,或许没有意识到这一点,或许是很不在乎,依然按照案件最初发动的轨迹走下去,甚至到了最近几个月,加快了处死曾成杰的步伐。  按照现行法律,“民间集资”是非法的,“集资诈骗”可以处死。但集资不等于诈骗。现在公开的材料表明,曾成杰“集资诈骗案”,先有政府鼓励和官员参
他家里办婚事时,马英九、宋楚瑜、连战、王金平均亲临祝贺,在体育场里开2200桌酒席,两万人到场,开创台湾婚事纪录。就在我们到之前几个月,他还在狱中服刑    在从台北到台中的高铁上,我一直在想,这位颜清标先生会是什么样子呢?  从资料里看,他是“立法委员”。在台湾,113位“立委”真可以罢免“内阁”、罢免“总统”。  他还是一位企业家,家族企业涉及沥青、沙石以及建筑行业。  如果只是这样,我们不会
摘 要 数据统计收集是统计学研究的重点,在大数据时代统计数据变化越发明显,而调查人员应用的统计调查方案也产生了变革。这对于统计调查内容带来深刻影响,大数据时代需对于统计数据进行分析,也需要了解到统计调查新方法。对于大数据时代下的统计调查变革路径,应为提升人员素养、参与抽样调查与大数据研究、融合提升专业水平、做好统计决策能力加强。面对大数据时代统计调查新方案,强化数据保障,做好数据库建设。开发符合统
拨开迷雾,金雁告诉人们一个真实的俄罗斯与东欧转型故事  ——“没有消息就是好消息”,那里很好,不用中国同志担心    1991年12月25日,成千上万的人涌到莫斯科的红场上,飘扬了69年的镰刀锤子红旗缓缓降下,红白蓝的俄罗斯国旗升起,两面旗帜的悄然更替,意味着一个时代的疾速变革。  中国学者金雁正是成千上万目击者中的一员,与周围或流泪或欢呼的人群相比,她的心情更为复杂:那个虎视眈眈的北方邻居解体了
佩里公园 图/衷昊  海军咖喱 图/叶舒婧  在日本3大著名本土化的洋食中,除了可乐饼和炸猪排,最让人引以为豪的日式咖喱,起源于一个叫“横须贺”的小港口。1853年,美国人佩里率领舰队驶入横须贺港,历史上称“黑船来日”。那一群迫切想改变旧日本的年轻人,仿佛看到外星生物,被这艘庞大的黑船震撼。当时在江户修行的坂本龙马也因此放弃剑道,意气风发地开始学习航海知识,这是他所认定的振兴日本之道,也正是在这里
有些文学作品天生一副“快来把我变成影视剧吧”的面孔,现代题材的有西德尼·谢尔顿的畅销小说,对话场景一应俱全,可以跳过剧本直接改为分镜头脚本,而近代史题材最畅销的莫过于拥有爱丁堡大学文学博士学位的历史小说作家菲利帕·格里高利,她的英国都铎王朝历史题材系列小说席卷了全球26个国家的畅销书单,多部影视剧脱胎于此,最著名的当属新生代偶像云集的《另一个波琳家的女孩》,由斯嘉丽与波特曼主演,众多酱油角色让人几
房地产调控船到江心,似乎动辄得咎、左右为难。  包括笔者在内,被戴上了骑墙派的帽子,似乎房地产调控必须走极端、非左即右——难道经济问题是政治问题吗,就不能有个平心静气的交流平台?我们不能再以极端的“文革”思路看待房地产调控、看待经济问题,就事论事、寻找现象背后的实质,才是探讨问题的理性态度。否则,只要贴上好人、坏人的标签批斗一番就万事大吉。  为了避免中国经济硬着陆,房地产调控是既定政策,房地产价
美国有一个公共电视台叫C-Span,经常直播美国的国会辩论。多年前在美国生活的时候,作为一个政治学专业的学生,我时不时觉得自己有必要转到那个台,去“深入了解美国政治”。可是,我的天哪,那叫一个乏味,一个头发花白的老头对着一群头发花白的老头,以唵嘛呢叭咪吽的语速进行催眠。我通常坚持不到十分钟就忍无可忍地换台。  难道政治不应当是光怪陆离五颜六色像迪斯尼的过山车一样“好玩”的吗?何况是美国政治!  现
“原来的民进党认为,每一个台商都是一个‘叛逃者’,而马英九不同”    有人说,他任东聚电业董事长的时候,永远不苟言笑,活脱脱一副“包公相”,职员只要看到他走过来,一定会向左向右转,尽早溜出他视线范围。  又有人说,他的学校的孩子们一看到他,就会高兴地黏着他,跟他打招呼,一起嬉戏,他也特别会宠孩子。  走进台商子弟学校的董事长办公室,迎面快步走来一个人:衣服笔挺,一脸严肃,两鬓稍白,紧皱着川字眉。