环境:Python3.6.5
编译器:jupyter notebook
注:这篇文章会不断更新…
1. 标准化
数据集的标准化(Standardization)
对scikit-learn
中实现的大多数机器学习算法来说是常见的要求 。如果个别特征或多或少看起来不是很像标准正态分布(具有零均值和单位方差),那么这些机器学习算法的表现可能会比较差。
在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化) 中有很多地方都假定了所有特征都是以0为中心而且它们的方差也具有相同的阶数。 如果某个特征的方差比其他特征大几个数量级,那么它就会在学习算法的目标函数中占据主导位置, 导致学习器并不能像我们所期望的那样,从其他特征中学习。
函数scale
提供了一个快速简单的方法来在单个array-like数据集上执行上述标准化操作
from sklearn import preprocessing
import numpy as np
#创建一组特征数据,每一行表示一个样本,每一列表示一个特征
X_train = np.array([[ 1., -1., 2.],[ 2., 0., 0.],[ 0., 1., -1.]])
#将每一列特征标准化为标准正太分布,注意,标准化是针对每一列而言的
X_scaled = preprocessing.scale(X_train)
X_scaled
""" 输出: array([[ 0. , -1.22474487, 1.33630621],[ 1.22474487, 0. , -0.26726124],[-1.22474487, 1.22474487, -1.06904497]]) """
被缩放的数据具有零均值和单位方差:
X_scaled.mean(axis=0)
""" 输出:array([0., 0., 0.]) """
X_scaled.std(axis=0)
""" 输出:array([1., 1., 1.]) """
preprocessing
模块还提供了一个工具类StandardScaler
,它实现了Transformer
的API来计算训练集上的平均值
和标准偏差
,以便以后能够在测试集上重新应用相同的变换。
scaler = preprocessing.StandardScaler().fit(X_train)
#将每一列特征标准化为标准正太分布,注意,标准化是针对每一列而言的
scaler.transform(X_train)
""" 输出: array([[ 0. ..., -1.22..., 1.33...],[ 1.22..., 0. ..., -0.26...],[-1.22..., 1.22..., -1.06...]]) """
(本文参考官网文档)