一 、文章简介
1)题目:A hybrid method for missing value imputation (一种缺失值插值的混合方法)
2)作者:Aikaterini Karanikola 、Sotiris Kotsiantis
3)发表刊物:Association for Computing Machinery. (计算机协会)
4)发表年份:2019
二、 研究背景及目的
过去的提出的关于缺失值的研究方法,无论是统计方法还是关于机器学习的方法,都是采用单单一种方法,得到一个缺失处的插值。这类单一的方法没有考虑填补值的不确定性,从而导致低估了方差。针对这个问题,又提出了一些混合方法。有一些混合方法虽然缓解了上述问题,但是对缺失数据的分布有一个前提假设MAR。
三、 提出方法
提出了一种方法是对IRMI 插值方法的一种变体。IRMI插值方法是将缺失值作为目标值,其余变量作为回归变量,整个数据集被用作一个多元模型,其最终预测时计算一个缺失值的估计。
论文提出的方法是将IRMI分别对数值型数值和类别型数值进行预测的模型,进行了替换。
四、 实验结果
1)实验数据集
采用的30个来自于UCI的小型数据集。n表示元组个数,f表示属性个数,c表示类别个数。
2)几种对比的缺失值填补方法
3)实验结果
a, b, c and d are IRMI(Logistic + Linear Regression), Means and Modes, 3NN imputation and Null imputation respectively.
五、结论
在这项工作中,提出了一种基于已知的IRMI的缺失值计算方法。IRMI的这一特定变体利用了boosting和决策树理论的优点,采用了Logitboost和M5P,而不是传统IRMI采用的逻辑回归和线性回归,分别用于输入标称缺失值和数字缺失值。扩展实验过程的结果表明,与其他四种常用的归责策略相比,我们的方法不仅是有效的,而且具有统计独立性。