[Kaggle实战] Titanic 逃生预测 (2) - 数据预处理_综合

上一篇文章简要介绍了比赛的主题与将会使用到的数据集。

这一篇文章的主要任务是完成数据挖掘的第一步：数据清理

完成数据清理的第一步，就是先把数据读到内存之中。在这里，我使用的是OpenCsv. 可以到这里下载。

OpenCSV的使用可以参考： http://opencsv.sourceforge.net/#how-to-read

其中我对比了SuperCSV 以及其他的，发现他们主要花精力在跟Bean mapping 上。暂时感觉不实用~

可能后面会换一个也说不定。

下面是我读取数据集的方法：

/** * 从CSV文件之中读取数据* @param csv 存放数据的csv文件* @param skipHeader 是否略过表头* @return 数据集*/
public static List<String[]> readDataFromCSV(File csv, Boolean skipHeader) {List<String[]> myEntries = new ArrayList<String[]>();;try {CSVReader reader = new CSVReader(new FileReader(csv));myEntries = reader.readAll();if(skipHeader) {myEntries.remove(0);}} catch (FileNotFoundException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();}return myEntries;
}

参考百度百科，预处理包括如下几个步骤：

(1) 数据清理：填写缺失值，光滑噪声数据等等。我们待会会首先清理数据

(2) 数据集成：将多个数据源合成同一个数据来源。在这里我们的来源只有1个csv文件，因此这一步免了~

(3) 数据变换：平滑聚集，数据概化等等。我们将会对Age进行处理，将连续数据离散化。

(4) 数据规约：目的是减小数据量，同时又不影响结果。在此我们的数据也就不到1000行~ 也不需要了~

好，先说说数据清理。

在我们的数据集之中，可以通过Excel来发现有哪些数据是缺失的。

首先给各个列加一个Filter

之后在各个列的Filter下拉列表之后，如果有Blank选项，则这一列就有空值。如下图所示的Age列

最终结果：Age, Cabin, Embarked字段有空值需要填充。

对于Age，我们使用中位数(Median)进行填充，

对于Cabin，由于这一列的值跟ID一样，几乎完全不同，而且缺失的值又非常多，因此这一列就略过不用。

对于Embarked，缺失的值也是用“Unknown”进行填充。为了简单起见，偶直接在Excel里面将缺失值写上“U”了。哈哈~

为了将Age进行平均值填充，同时也需要将原来的String类型的值映射成数值型，在此使用Apache common Math 进行矩阵计算。

在进行矩阵计算之前，我们先人工分析一下Fare跟PClass的关系。理论上，船位等级越高，票价也越高。我们需要画一个图进行验证。

如果他们具有很强的线性关系，我们就应该将其中一个去除，以免浪费算力，甚至产生overfitting的情况

Java之中没有太好的画图工具，就使用JFreeChart吧~

[话说，简单的数值分析，Python R 确实要比Java方便多了]

先看看结果：

在上面的图之中，横轴为旅客ID，纵轴为Ration=Fare/Pclass

可以看出，对于Pclass=1的旅客，票价方差比较大，对于Pclass=2 or 3的旅客来说，分布/方差就小得多了。

那就让我们再看一张将P=1去除的散点图：

发现 P3 跟P2的分布其实蛮有规律的。比如P2的集中在12.5跟5.0两条线，而P3的基本上就在2.5这条线了~

因此，目测，Fare的影响不是非常明显。

为了简单起见，暂时就将Fare这一列排除出去吧。

下面我们来看看SibSp这一列。

先看看原始数据吧：

0-609.0
1-210.0
2-29.0
3-17.0
4-19.0
5-6.0
6-1.0
7-1.0
8-8.0
9-1.0

其中6 7 9 的原始数据都是0，为了处理方便，给全部数据初始化的时候都设置成1

明显，这是一个指数分布。0对应的数量超过了其他所有加起来的总和。这在最后处理的时候，会对结果造成非常明显的影响。因此，为了使得最后的处理比较准确，需要将≥2的数据进行聚集。并且对最后的数据进行log计算。计算结果如下：

结果还不错，呈线性啦！

对于Parch一列，总共也有6个值，但是整体上，跟SibSp的值呈线性关系，因此也暂时将这一列忽略！

现在我们回到前面跳过去的，给Age的缺失值用中位数填充

这部分具体看code吧：

public static double[][] dataClean(List<String[]> list) {double[][] dataMatrix = new double[list.size()][6];List<Double> ageList = new ArrayList<Double>();for(int i = 0; i < list.size(); i++){int colIndex = 0;String[] arr = list.get(i);// SurviveddataMatrix[i][colIndex++] = Integer.parseInt(arr[1]);// PclassdataMatrix[i][colIndex++] = Integer.parseInt(arr[2]);// Sexif(arr[4].equals("male")) {dataMatrix[i][colIndex++] = 1; } else {dataMatrix[i][colIndex++] = 2;}// Ageif(arr[5].length() == 0) {dataMatrix[i][colIndex++] = -1;		// 首先将缺失值设置为-1} else {dataMatrix[i][colIndex++] = Double.parseDouble(arr[5]);ageList.add(Double.parseDouble(arr[5]));}// SibSp  将值大于2的归集为同一类if(Integer.parseInt(arr[6]) >= 2 ) {dataMatrix[i][colIndex++] = 2;} else {dataMatrix[i][colIndex++] = Integer.parseInt(arr[6]);}// Embarked C:1 Q:2 S:3 U:4	 // 原始数据之中已经手动的将缺失值补充为U,不是CQS的值，也用4来代替String embarked = arr[11];if(embarked.equals("C")) {dataMatrix[i][colIndex++] = 1;} else if(embarked.equals("Q")) {dataMatrix[i][colIndex++] = 2;} else if(embarked.equals("S")) {dataMatrix[i][colIndex++] = 3;} else if(embarked.equals("U")) {dataMatrix[i][colIndex++] = 4;} else  {dataMatrix[i][colIndex++] = 4;} }// 将Age=-1的值变成中位数double[] ageArr = new double[ageList.size()];for(int i = 0; i < ageArr.length; i++) {ageArr[i] = ageList.get(i);}double median = StatUtils.percentile(ageArr, 50.0);	//中位数for(int i = 0; i < dataMatrix.length; i++) {if(dataMatrix[i][3] == -1) {dataMatrix[i][3] = median;}System.out.println(dataMatrix[i][3]);}return dataMatrix;
}

处理的最终数据矩阵如下：（前10行）

[0.0,3.0,1.0,22.0,1.0,3.0]
[1.0,1.0,2.0,38.0,1.0,1.0]
[1.0,3.0,2.0,26.0,0.0,3.0]
[1.0,1.0,2.0,35.0,1.0,3.0]
[0.0,3.0,1.0,35.0,0.0,3.0]
[0.0,3.0,1.0,28.0,0.0,2.0]
[0.0,1.0,1.0,54.0,0.0,3.0]
[0.0,3.0,1.0,2.0,2.0,3.0]
[1.0,3.0,2.0,27.0,0.0,3.0]
[1.0,2.0,2.0,14.0,1.0,1.0]

关于Age的处理，还需要涉及到一个连续属性离散化的问题。

这个具体会在下一篇进行实现。