论文部分内容阅读
随着互联网的发展,在线教育蓬勃发展,形式越来越多。MOOC作为在线教育的一种形式,以其学习成本低等优点被越来越多的人接受。但是MOOC面临着一个十分重要的问题:用户流失率过高。这对MOOC的发展十分不利。本文使用了 MOOC网站提供39门课程的用户后台操作数据,对MOOC用户的行为模式进行分析。在此基础上对用户流失率进行建模,实现对MOOC用户是否丢弃课程进行预测。本论文使用的数据集已标注好对应的预测结果(丢弃和不丢弃)。所以对用户流失率建模是一个有监督的二分类问题,可以使用机器学习分类理论来对用户流失率进行建模和预测。论文在分析数据集的基础上,共提出了三类特征,其中有描述性质的特征,也有统计性质的特征,这些特征集合可以从多个角度反映MOOC用户的行为习惯,最大限度地保留了原数据集的信息。接着,论文使用了逻辑回归、支持向量机、随机森林、梯度提升树和AdaBoost分类模型分别对用户流失率进行建模。结合数据集,论证了这五种分类模型的预测性能,同时也指出了分类模型存在的不足:单一的分类模型只能反映数据集一个维度的信息。针对各分类模型独自建模所存在的无法全面反映数据集的不足,论文首先提出了一种多分类器加权联合考虑的思想,并在此基础上给出一种基于分类器权重的改进模型。多分类器加权模型是一种多分类器组合模型,通过加权的方式来组合分类模型,以解决单一分类器不能充分反映数据集的情况。接下来,论文又讨论了一种基于阈值的多分类器与模型,获得一个预测度很高的可信集合。最后,融合多分类器加权模型和可信集合概念,给出一种带有可信集合的加权改算法,进一步提高了流失率模型的预测性能。