Implicit Heterogeneous Features Embedding in Deep Knowledge Tracing论文阅读_综合

资源

论文和数据集下载：深度知识追踪.rar - 蓝奏云 (lanzous.com)

决策树实现：Implicit Heterogeneous Features Embedding in Deep Knowledge Tracing决策树实现 - 吴雄 - 博客园 (cnblogs.com)

存在问题

目前DKT模型存在两个主要问题：一是DKT模型的复杂性增加了心理解释的张力。第二，现有DKT模型的输入仅仅是通过一个热编码表示的练习标签。隐藏知识成分与学生对习题反应的相关性很大程度上依赖于DKT模型的训练

原始的DKT模型假定学生在多练习时会熟练，而忽略了某些学生可能会盲目练习的场景。

本文贡献

我们提出了一种自动、智能的方法来将异构特征集成到DKT模型中。更具体地说，由于其有效性和解释能力，我们通过基于树的分类器进行预处理步骤[39]。然后，我们应用基于树的分类器来预测学生是否能够正确地回答一个问题。然后，我们将预测响应和真实响应编码成二进制编码，并将其与原始的热编码特征串联作为输入，训练LSTM模型。虽然预处理步骤很简单，但它可以提供学生学习行为的附加信息，特别是学生在学习过程中如何偏离他人。

提出了一种有效的基于预分类特征的自动聚类方法。分裂特征可以帮助我们深入了解学生学习行为的特点。

我们提出了一个系统框架，将学习反映、真实反映和原始的热编码特性结合起来，以训练LSTM模型。该输出可以产生学生是否正确回答下一个练习的预测概率。学习反应的异质性特征使我们能够开发学生的学习行为。

我们对两个教育数据集进行了全面评估，并证明了我们的建议的有效性和优点。

模型结构

我们提出的响应四位一热编码的体系结构包括三个部分：（1）通过基于树的分类器学习的异构特征；（2）特征连接；（3）通过RNN/LSTM进行模型训练和预测。实心的大黑色节点表示树的不同子分支上的特征拆分。向量中黑色、白色和灰色的点分别表示值1、0和预测的概率

实验

数据集

一般说来，4位单位编码可以获得比2位编码下方案更好的性能，或者至少是相当的性能。2位单位编码。我们假设这可能是“分工”的结果，由于输入xt是两个一个热编码向量的串联，所以它在输入到隐藏权重矩阵中选择并添加两列，这有助于隐藏层的更新。如果采用4位单位编码方案，则输入隐藏权重矩阵的最后四列将专门用于学习预测响应和真实响应对知识跟踪贡献的交叉影响。同时，将原始的一个热编码特征指定给简单地学习通过练习积累熟练程度的效果。相比之下，对于2位单元编码方案，权重矩阵中没有指定列来学习交叉效应。原有的一种热编码特征不仅要学习熟练程度的积累，还要学习交叉效应，增加了学习的复杂度。