自适应测试的进展
计算机诊断是一种越来越受欢迎的评估学生的方法.这种方式需要进行优化,以便学生可以在尽可能少的时间里获取准确的评估。这种优化方式可能是通过学习分析或者计算机自适应测验(CATs):接下来的测试问题就是根据学生以前的反应来进行选择,从而使得诊断更加有效.使用以前学生的非自适应测试的数据收集,因此,可以为新的学生提供有意义的自适应测试,告诉学生下一步做什么.本文会回顾了几个在不同领域的CATs模型及其对应的主要特性。
1 介绍
如今,教育诊断大部分都是自动化的,因此,我们能存储和分析学生数据以此来为新的学习者提供更加准确且简短的测试.学习分析过程包括了学生者的数据收集,挖掘可以有更好效学习体验的潜藏模式,以及使用新的学习者的数据来不断改进模型[ Chatti et al. 2012].自适应诊断的学习分析都有明确定义的目标:提高学习过程的效率和有效性,通过自适应的组织教学活动来告诉学习者下一步要做什么[Chatti et al. 2012],在如今学生过度做题的情况下,减少测试题目长度[Zernike 2015],减少指导的时长。
事实上,Tempelaar等[Tempelaar et al. (2015)]展示了计算机辅助的形成性诊断具有更高的预测能力,用于诊断表现不佳的学生和评估学业成绩。
本文,我们证明了这种自适应策略可以用于形成性诊断,以便使测试更加简短且有效。我们主要的重点是对知识的诊断,我们不考虑责任心的维度,比如说坚持、组织、细心、责任。我们的第二个关注点是在测试的最后提供有效的反馈。这种反馈可以在各个级别上聚合(比如说,学生个人、班级、或者学校、地区、州、或者国家的级别)用于决策目的[Shute et al.2016]。我们假定提供的数据都是布尔值形式,比如说学生回答每个问题分为正确或者错误。一般的方式是训练用户模型,以便可以使用较少的、精挑细选的问题来挖掘出新的考生的潜在知识。我们这里开发了一个框架,完全依赖于布尔数据,以便可以使用相同的数据来比较不同的自适应模型。我们的方法都是通用的,可以专门针对不同的环境。比如说严肃的游戏。基于我们的分析,我们可以选择最好的模型来适应他们不同的需求。
2 学习分析
教育数据挖掘和学习分析技术是分析教育数据的两个研究方向,教育数据的来源是在线学习环境和平台。教育数据挖掘的关注点在自动的自适应,而学习分析技术侧重为提供人为干预工具。事实上,不同的仪表板,可视化和分析包都是为教育决策的制定提供信息。教师,教学设计师和学生支持服务经常使用数据来提高教学、学习、课程设计。
自适应诊断通过组织学习资源来改善个性化学习。比如说课程排序的问题,即在多个学习目标中如何安排学习目标的顺序(学习路径)[Desmarais and Baker 2012)]。基于尽可能少的测试,使用技能诊断来定制学习内容。 Desmarais and Baker (2012)[ Desmarais and Baker (2012),]阐述“测试题目数量和诊断范围的比例对于系统来说是非常重要的,要求测试尽可能的覆盖多的技能。因为需要花费数小时的时间来测试学习者之后才能得到可用的诊断结果,是让人难以接受的!”
在教育系统中,自适应性(adaptivity)和适应性( adaptability)有着很重要的区别,自适应性是使用不同的参数和预定义的规则来制定课程资料的能力。而适应性是指学生自己个性化课程资料的可能性。就如 Chatti[ Chatti et al. (2012) ]所说,“最近的文献都在批评传统方法非常的自上而下,忽视了学习者在学习过程中的关键作用”。所以需要在学习者需要学习的(自适应性)和学习者自己想学习的(适应性)以及怎么学习(比如说,给予更多的样例、或者更多的练习题,主要依赖于学习者的倾向)寻求一个更好的平衡。对于其中任何一个方面,对学习者进行分析都是一个关键的任务。
想象一个用户场景,学习者们注册了MOOC账号,这些学习者们都有着不同的学习背景,有些学生可能缺少学习该课程的前提条件,而另一些可能已经掌握了该课程的部分内容而跳过某些章节。因此,我们有必要自适应的评估出学习者们的需求和偏好,然后过滤掉课程的一些相关内容,尽可能的减小学习负担。Lynch and Howlin[Lynch and Howlin (2014) ]阐述了一个通过在课程开始之前询问学生几个问题,来挖掘学习者潜在知识状态的算法。另外一个鲜为人知的案例是,按需自动生成练习题的小测试,从而降低了实践测试成本。
在学习分析技术中,在数据挖掘中的方法包含了机器学习技术中的用于预测的回归树。举例,gradient boosting trees 可以用来突出哪些变量是有用的信息,以此来解释为什么MOOC用户获得了一个证书(或者失败了)。gradient boosting trees也成功应用于预测问题,特别是在数据科学竞赛中,因为它能集成异构值(分类变量和数值变量),而且对异常值具有鲁棒性。令人惊讶的是学习分析方法产生了很多的模型来从一组固定的变量中预测一些目标,但是很少有模型来诊断学习的需求和偏好。我们相信在学习分析技术中还有更多关于交互性模型的研究的可以做。
推荐系统是另一个聚合用户数据来推荐相关资源(比如说电影、产品)的工具。他们越来越多的应用在技术加强的学习研究中,作为学习分析技术的核心目标之一[echnology-enhanced learning research as a core objective of le (Chatti et al. 2012; Manouselis et al. 2011; Verbert et al. 2011) filtering]。大多数的推荐系统都依赖于协同过滤算法,即基于收集的大量用户信息来预测该用户兴趣。直观上说,一个用户可能喜欢类似用户喜欢的产品。在我们的案例中,一个学习者可能碰到的困难会和其他具有类似项目反应模式的学习者的困难相似。
另外一个方法就是认知诊断心理学,即在诊断中测量回答问题的时间。事实上,回答问题的时间可以在认知过程中给予很多的提示。为此,就需要复杂的统计模型 [Chang 2015]。
3 自适应诊断
我们的目的是对于每个学习者甄选出不同的问题来进行测验,而不是对于所有人都考一样的测试题,这就是所谓的计算机自适应测试(CATs)[(van der Linden and Glas 2010],即基于先前学生回答问题情况,选择一下道试题。这就达到了每一步的自适应性。CATs的设计依赖两个标准:终止标准(比如问题的数量)和下一个问题的选择标准。当终止标准不符合时,根据下一个问题的选择标准选择问题(选择的问题需要尽最大可能的覆盖学生的能力或者知识点)。Lan等人[Lan 2014]证明了在同等预测精度的情况下,自适应测试相比于传统的测试只需要更少的题目。
这种性能的提升是非常重要的:对于系统来说,测试题越短越好,因为这样可以减小系统负担。对于学习者而言,也可以避免大量的题目带来的厌烦感[(Lynch and Howlin 2014; Chen et al. 2015)]。因此,自适应诊断在当今的MOOC时代下显得越发的重要[ Lynch and Howlin 2014)]。在现实生活场景中,需要关注如下几点约束:首先,算法计算的时间应该在一个合理的范围内,因此,算法的时间复杂度就很重要。第二,诊断的技能应该具备不确定性:学生可能下滑(slip),即因为粗心或者意外造成的做错试题。学生可能猜测(guess),即学生本不会做该题,但可以随机的猜测题目的答案。这也是自适应诊断不能在学习者的能力上进行简单的执行二分搜索,也就说学习者可能回答对困难的试题,但回答不对简单的。因此,我们需要使用更加鲁棒的算法,比如使用概率模型来对学习者能力进行建模。
3.1 心理测量:使用项目反应理论测量能力
对于自适应测试最简单的模式就是Rasch model,也就是著名的单参数逻辑回归模型:可以归类在数据挖掘中的LA。该模型表示了学习者的单个潜在特性的行为,即能力。而对于题目或者任务来说也有一个参数表示,叫做难度。一个学习者能否解决一道问题取决于题目难度和学习者能力。因此,如果过学习者i具有能力,想解决一个问题j,难度为dj。
当然,我们不能指定所有的难度值,因为这是十分耗时且精度较低(也就是,太主观,不能很好的拟合学生数据)。幸运的是,使用原有的学生数据可以使用最大似然估计有效的估计出Rasch model的参数,我们就能自动校准题目难度和学习者的能力。而且,这种估计方法不依赖于任何领域知识。
当一个新的用户参加一个测试,观察到的变量是它使用试题测试学生得到的结果,而潜变量就是我们想要估计的用户的能力,且已知了题目难度参数。通常使用最大似然估计,我们可以轻易地计算,使用牛顿方法来找到似然函数零的导数。因此,自适应过程可以总结如下:预先给定一个学生能力的估计值,考虑哪一个问题的结果对提高估计值精确最有帮助。事实上,我们可以量化每道题目的可提供的能力参数的信息:这里可以使用Fisher information,定义在似然函数相对于能力参数的梯度的方差。因此,自适应诊断过程可以进行如下设计:
给定学习者当前能力的估计值,选择可以得到该生能力最大信息的问题,根据学生回答结果更新能力的估计值,以此进行迭代。在测试的最后,可视化出整个过程,我们可以看到,对于能力估计的置信区间在一次次重新定义。Rasch model是一个一维的模型,它不适应于认知诊断。然而,它却因为简单、稳定、合理的数据架构广受欢迎[Desmarais and Baker 2012; Bergner et al. 2012)].而且, Verhelst (2012) [Verhelst (2012)]说明如果题目被划分为成类别,我们为受试者提供有用的偏差分布,指出分项分数(subscores)高于或者低于预期的分类。特别的,对于每一个类别,答对一题的一分,反之不得分。分项分数就是学习者在每个类别中的分数。分项分数之和就是总分数。给定一个总分数,我们可以通过Rasch model计算每个分项分数的估计值。最后,偏差分布,也就是观察量与估计的分项分数的差,提供了一个很好的可视化的类别结果。
延伸Rasch模型的自然方向是研究多维能力。在多维项目响应理论(MIRT)[Reckase 2009]中,学习者和题目都是由一维d的向量建模的,学习者解决项目的倾向仅取决于那些向量的点乘。因此,学习者有更大的机会来解决与他们的能力向量相关的题目,通过问问题给题目向量带来信息。
模型:IRT、 MIRT
3.2 认知诊断:自适应评估与反馈
在认知诊断模型中,我们假设我们可以解释学生在学习任务上的成功或失败,根据他们掌握(或未能掌握)一些知识组件(KC)。这些知识部分的要点是,它们允许将证据(evidence)从一个题目转移到另一个题目。例如,为了正确评估和1/7 + 8/9,学习者需要知道如何对数字求和,以及如何以将两个分数转化为相同的分母。相比之下,解决1/7 + 8 /7的学习者只需要知道如何求和。为了使用这些认知模型,我们需要为测试中提出的每个题目指定需要哪些KC来解决它:该信息被表示为称为q矩阵的二进制矩阵。
模型:DINA、DINO等
3.3 基于能力的知识空间理论与应用
Doignon和Falmagne(2012)开发了知识空间理论,一种依赖于离散知识空间的子集之间的偏序关系的抽象理论。正式地,让我们假设有一定数量的KC要学习,遵循一个依赖图,指定在学习某个KC之前需要掌握哪些KC。我们提出了一个依赖图的例子。图 4.5中,可以计算可行的知识状态,即学习者实际掌握的KC。例如,{a,b}是可行的知识状态,而单例{b}不是,因为a需要在b之前掌握。因此,对于这个示例有10个可行的知识状态:空集,{a},{b},{a,b},{a,c},{a,b,c},{a,b,c,d},{a,b,c,e},{a,b,c,d,e},{a,b,c,d,e,f}。
自适应诊断可以类似于上面在章节中描述的属性层次模型的方式挖掘出受试者的知识状态。 一旦学习者的知识子集被识别,该模型可以通过所谓的学习路径向他建议要学习的下一个知识分量以帮助他们进步。例如,从图4.5的知识状态{a}, 学习者可以选择是先学习KC b还是学习KC c。
Falmagne et al(2006)提供了自适应测试,以便使用熵最小化来有效地猜测知识空间,然而熵最小化对粗心错误不鲁棒。这个模型已在ALEKS系统的实践中实现,今天由数百万用户使用(Kickmeier-Rust和Albert 2015; Desmarais和Baker 2012)。
模型:知识空间理论