http://www.sohu.com/a/297967370_729271
随机森林是指利用多棵决策树对样本进行训练并预测的一种算法。也就是说随机森林算法是一个包含多个决策树的算法,其输出的类别是由个别决策树输出的类别的众树来决定的。在Sklearn模块库中,与随机森林算法相关的函数都位于集成算法模块ensemble中,相关的算法函数包括随机森林算法(RandomForestClassifier)、袋装算法(BaggingClassifier)、完全随机树算法(ExtraTreesClassifier)、迭代算法(Adaboost)、GBT梯度Boosting树算法(GradientBoostingClassifier)、梯度回归算法(GradientBoostingRegressor)、投票算法(VotingClassifier)。
聚类和回归是机器学习的最基本主题。而随机森林主要是应用于回归和分类这两种场景,又侧重于分类。研究表明,组合分类器比单一分类器的分类效果好,在上述中我们知道,随机森林是指利用多棵决策树对样本数据进行训练、分类并预测的一种方法,它在对数据进行分类的同时,还可以给出各个变量(基因)的重要性评分,评估各个变量在分类中所起的作用。
随机森林的构建大致如下:首先利用bootstrap方法又放回的从原始训练集中随机抽取n个样本,并构建n个决策树;然后假设在训练样本数据中有m个特征,那么每次分裂时选择最好的特征进行分裂 每棵树都一直这样分裂下去,直到该节点的所有训练样例都属于同一类;接着让每颗决策树在不做任何修剪的前提下最大限度的生长;最后将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行分类与回归。对于分类问题,按多棵树分类器投票决定最终分类结果;而对于回归问题,则由多棵树预测值的均值决定最终预测结果。
三,随机森林的构建过程
1,从原始训练集中使用Bootstraping方法随机有放回采样取出m个样本,共进行n_tree次采样。生成n_tree个训练集
2,对n_tree个训练集,我们分别训练n_tree个决策树模型
3,对于单个决策树模型,假设训练样本特征的个数为n,那么每次分裂时根据信息增益/信息增益比/基尼指数 选择最好的特征进行分裂
4,每棵树都已知这样分裂下去,知道该节点的所有训练样例都属于同一类。在决策树的分裂过程中不需要剪枝
5,将生成的多颗决策树组成随机森林。对于分类问题,按照多棵树分类器投票决定最终分类结果;对于回归问题,由多颗树预测值的均值决定最终预测结果
注意:OOB(out-of-bag ):每棵决策树的生成都需要自助采样,这时就有1/3的数据未被选中,这部分数据就称为袋外数据。
1、n_estimators:它表示建立的树的数量。 一般来说,树的数量越多,性能越好,预测也越稳定,但这也会减慢计算速度。一般来说在实践中选择数百棵树是比较好的选择,因此,一般默认是100。
2、n_jobs:超参数表示引擎允许使用处理器的数量。 若值为1,则只能使用一个处理器。 值为-1则表示没有限制。设置n_jobs可以加快模型计算速度。
3、oob_score :它是一种随机森林交叉验证方法,即是否采用袋外样本来评估模型的好坏。默认是False。推荐设置为True,因为袋外分数反应了一个模型拟合后的泛化能力。
sklearn随机森林
from sklearn import datasets, ensemble
from sklearn.ensemble import RandomForestRegressor
import numpy as np
iris=datasets.load_iris()
iris_data=iris[‘data’]
iris_label=iris[‘target’]
X=np.array(iris_data)
Y=np.array(iris_label)
clf = ensemble.RandomForestClassifier(max_depth=5, n_estimators=1, max_features=1)
clf.fit(X,Y)
print clf.predict([[4.1, 2.2, 2.3, 5.4]])
reg
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import load_iris
from numpy.core.umath_tests import inner1d
import numpy as np
iris = load_iris()
Forest_reg = RandomForestRegressor()
Forest_model = RandomForestRegressor(n_estimators=100)
Forest_model.fit(iris.data,iris.target)
scores = cross_val_score(Forest_reg, iris.data,iris.target,scoring=“neg_mean_squared_error”)
mse_score = np.sqrt(-scores)
print((mse_score.mean(), mse_score.std()))
importances = Forest_model.feature_importances_
print(importances) #特征重要性
一、优点:
1、对于大部分的数据,它的分类效果比较好。
2、能处理高维特征,不容易产生过拟合,模型训练速度比较快,特别是对于大数据而言。(由于两个随机性的引入,样本随机,特征随机)由于树的组合,使得随机森林可以处理非线性数据,本身属于非线性分类(拟合)模型
它能够处理很高维度(feature很多)的数据,并且不用做特征选择,对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化
训练速度快,可以运用在大规模数据集上
3、在决定类别时,它可以评估变数的重要性。,能够检测到feature间的互相影响,且可以得出feature的重要性,具有一定参考意义
4、对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化。
二、缺点:
1、对少量数据集和低维数据集的分类不一定可以得到很好的效果。
2、 随机森林中还有许多不好解释的地方,有点算是黑盒模型
3、 当我们需要推断超出范围的独立变量或非独立变量,随机森林做得并不好。
为什么要随机抽样训练集?
如果不进行随机抽样,每棵树的训练集都是一样的,那么最终的训练出的树分类结果也是一样的,这样的话完全没有bagging的必要。
为什么要有放回地抽样?
如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是没有交集的,这样每棵树都是“有偏的”,也就是说每棵树训练出来都是有很大的差异的,而随机森林最后分类结果取决于多棵树的投票表决,这种表决应该是“求同”,因此使用完全不同的训练集来训练每棵树这样对最终分类结果是没有帮助的,这无异于盲人摸象。
五,特征重要性评估
现实情况下,一个数据集中往往有成百上千个特征,如何在其中选择比结果影响最大的那几个特征,以此来缩减建立模型时特征数是我们比较关心的问题。这样的方法其实很多,比如主成分分析,lasso等等。不过这里我们学习的是用随机森林来进行特征筛选。
用随机森林进行特征重要性评估的思想就是看每个特征在随机森林中的每棵树上做了多大的贡献,然后取个平均值,最后比一比特征之间的贡献大小。
贡献大小通常使用基尼指数(Gini index)或者袋外数据(OOB)错误率作为评估指标来衡量。这里我们再学习一下基尼指数来评价的方法。
我们将变量重要性评分(variable importance measures)用VIM来表示,将Gini指数用GI来表示,假设m个特征X1,X2,X3,…Xc,现在要计算出每个特征Xj的Gini指数评分VIM j (Gini) ,亦即第j个特征在RF所有决策树中节点分裂不纯度的平均改变量。
Gini指数的计算公式为:
其中,K表示有K个类别。Pmk表示节点m中类列k所占的比例。
直观的说,就是随便从节点m中随机抽取两个样本,其类别标记不一致的概率。
特征Xj在节点m的重要性,即节点m分支前后的Gini指数变化量为:
其中,GI l 和GI r 分别表示分枝后两个新节点的Gini指数。
如果,特征Xj在决策树i中出现的节点在集合M中,那么Xj在第i颗树的重要性为:
假设RF中共有n颗树,那么
最后,把所有求得的重要性评分做一个归一化处理即可。
5.2 示例——利用随机森林进行特征选择,然后使用SVR进行训练 1,利用随机森林进行特征选择
代码:
importnumpy asnp
importpandas aspd
fromsklearn.ensemble importRandomForestClassifier
url = ‘http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data’
url1 = pd.read_csv( r’wine.txt’,header= None)
url1 = pd.DataFrame(url1)
df = pd.read_csv(url1,header=None)
url1.columns = [ ‘Class label’, ‘Alcohol’, ‘Malic acid’, ‘Ash’,
‘Alcalinity of ash’, ‘Magnesium’, ‘Total phenols’,
‘Flavanoids’, ‘Nonflavanoid phenols’, ‘Proanthocyanins’,
‘Color intensity’, ‘Hue’, ‘OD280/OD315 of diluted wines’, ‘Proline’]
print(url1)
查看几个标签
Class_label = np.unique(url1[‘Class label’])
print(Class_label)
查看数据信息
info_url = url1.info()
print(info_url)
除去标签之外,共有13个特征,数据集的大小为178,
下面将数据集分为训练集和测试集
fromsklearn.model_selection importtrain_test_split
print(type(url1))
url1 = url1.values
x = url1[:,0]
y = url1[:,1:]
x,y = url1.iloc[:, 1:].values,url1.iloc[:, 0].values
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size= 0.3,random_state= 0)
feat_labels = url1.columns[ 1:]
n_estimators:森林中树的数量
n_jobs 整数 可选(默认=1) 适合和预测并行运行的作业数,如果为-1,则将作业数设置为核心数
forest = RandomForestClassifier(n_estimators= 10000, random_state= 0, n_jobs= -1)
forest.fit(x_train, y_train)
下面对训练好的随机森林,完成重要性评估
feature_importances_ 可以调取关于特征重要程度
importances = forest.feature_importances_
print( “重要性:”,importances)
x_columns = url1.columns[ 1:]
indices = np.argsort(importances)[:: -1]
forf inrange(x_train.shape[ 1]):
对于最后需要逆序排序,我认为是做了类似决策树回溯的取值,从叶子收敛
到根,根部重要程度高于叶子。
print( “%2d) %-*s %f”% (f + 1, 30, feat_labels[indices[f]], importances[indices[f]]))
筛选变量(选择重要性比较高的变量)
threshold = 0.15
x_selected = x_train[:,importances > threshold]
可视化
importmatplotlib.pyplot asplt
plt.figure(figsize=( 10, 6))
plt.title( “红酒的数据集中各个特征的重要程度”,fontsize = 18)
plt.ylabel( “import level”,fontsize = 15,rotation= 90)
plt.rcParams[ ‘font.sans-serif’] = [ “SimHei”]
plt.rcParams[ ‘axes.unicode_minus’] = False
fori inrange(x_columns.shape[ 0]):
plt.bar(i,importances[indices[i]],color= ‘orange’,align= ‘center’)
plt.xticks(np.arange(x_columns.shape[ 0]),x_columns,rotation= 90,fontsize= 15)
plt.show()
结果:
RangeIndex: 178entries, 0to177
Data columns (total 14columns):
Class label 178non- nullint64
Alcohol 178non- nullfloat64
Malic acid 178non- nullfloat64
Ash 178non- nullfloat64
Alcalinity ofash 178non- nullfloat64
Magnesium 178non- nullint64
Total phenols 178non- nullfloat64
Flavanoids 178non- nullfloat64
Nonflavanoid phenols 178non- nullfloat64
Proanthocyanins 178non- nullfloat64
Color intensity 178non- nullfloat64
Hue 178non- nullfloat64
OD280/OD315 ofdiluted wines 178non- nullfloat64
Proline 178non- nullint64
dtypes: float64( 11), int64( 3)
memory usage: 19.5KB
重要性: [ 0.106589060.025399680.013916190.032033190.022078070.0607176
0.150947950.014645160.022351120.182482620.078242790.1319868
0.15860977]
-
Color intensity 0.182483
-
Proline 0.158610
-
Flavanoids 0.150948
-
OD280/OD315 ofdiluted wines 0.131987
-
Alcohol 0.106589
-
Hue 0.078243
-
Total phenols 0.060718
-
Alcalinity ofash 0.032033
-
Malic acid 0.025400
-
Proanthocyanins 0.022351
-
Magnesium 0.022078
-
Nonflavanoid phenols 0.014645
-
Ash 0.013916
图:
2,利用SVR进行训练
代码:
fromsklearn.svm importSVR # SVM中的回归算法
importpandas aspd
fromsklearn.model_selection importtrain_test_split
importmatplotlib.pyplot asplt
importnumpy asnp
数据预处理,使得数据更加有效的被模型或者评估器识别
fromsklearn importpreprocessing
fromsklearn.externals importjoblib
获取数据
origin_data = pd.read_csv( ‘wine.txt’,header= None)
X = origin_data.iloc[:, 1:].values
Y = origin_data.iloc[:, 0].values
print(type(Y))
print(type(Y.values))
总特征 按照特征的重要性排序的所有特征
all_feature = [ 9, 12, 6, 11, 0, 10, 5, 3, 1, 8, 4, 7, 2]
这里我们选取前三个特征
topN_feature = all_feature[: 3]
print(topN_feature)
获取重要特征的数据
data_X = X[:,topN_feature]
将每个特征值归一化到一个固定范围
原始数据标准化,为了加速收敛
最小最大规范化对原始数据进行线性变换,变换到[0,1]区间
data_X = preprocessing.MinMaxScaler().fit_transform(data_X)
利用train_test_split 进行训练集和测试集进行分开
X_train,X_test,y_train,y_test = train_test_split(data_X,Y,test_size= 0.3)
通过多种模型预测
model_svr1 = SVR(kernel= ‘rbf’,C= 50,max_iter= 10000)
训练
model_svr1.fit(data_X,Y)
model_svr1.fit(X_train,y_train)
得分
score = model_svr1.score(X_test,y_test)
print(score)
结果:
0 .8211850237886935scikit-learn随机森林类库概述
sklearn.ensemble模块包含了两种基于随机决策树的平均算法:RandomForest算法和Extra-Trees算法。这两种算法都采用了很流行的树设计思想:perturb-and-combine思想。这种方法会在分类器的构建时,通过引入随机化,创建一组各不一样(diverse)的分类器。这种ensemble方法的预测会给出各个分类器预测的平均。
在sklearn.ensemble库中,我们可以找到Random Forest分类和回归的实现:RandomForestClassifier和RandomForestRegression 有了这些模型后,我们的做法是立马上手操作,因为学习中提供的示例都很简单,但是实际中遇到很多问题,下面概述一下:
命名模型调教的很好了,可是效果离我们的想象总有些偏差?——模型训练的第一步就是要定要目标,往错误的方向走太多也是后退。
凭直觉调了某个参数,可是居然没有任何作用,有时甚至起到反作用?——定好目标后,接下来就是要确定哪些参数是影响目标的,其对目标是正影响还是负影响,影响的大小。
感觉训练结束遥遥无期,sklearn只是一个在小数据上的玩具?——虽然sklearn并不是基于分布式计算环境而设计的,但是我们还是可以通过某些策略提高训练的效率
模型开始训练了,但是训练到哪一步了呢?——饱暖思淫欲啊,目标,性能和效率都得了满足后,我们有时还需要有别的追求,例如训练过程的输出,袋外得分计算等等。
在scikit-learn中,RF的分类类是RandomForestClassifier,回归类是RandomForestRegressor。当然RF的变种Extra Trees也有,分类类ExtraTreesClassifier,回归类ExtraTreesRegressor。由于RF和Extra Trees的区别较小,调参方法基本相同,本文只关注于RF的调参。
RandomForests
在随机森林(RF)中,该ensemble方法中的每棵树都基于一个通过可放回抽样(boostrap)得到的训练集构建。另外,在构建树的过程中,当split一个节点时,split的选择不再是对所有features的最佳选择。相反的,在features的子集中随机进行split反倒是最好的split方式。这种随机的后果是,整个forest的bias,从而得到一个更好的模型。
sklearn的随机森林(RF)实现通过对各分类结果预测求平均得到,而非让每个分类器进行投票(vote)。
Ext-Trees
在Ext-Trees中(详见ExtraTreesClassifier和 ExtraTreesRegressor),该方法中,随机性在划分时会更进一步进行计算。在随机森林中,会使用侯选feature的一个随机子集,而非查找最好的阈值,对于每个候选feature来说,阈值是抽取的,选择这种随机生成阈值的方式作为划分原则。通常情况下,在减小模型的variance的同时,适当增加bias是允许的。
首先看一个类的参数:
classsklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=‘gini’,
max_depth=None, min_samples_split=2, min_samples_leaf=1,
min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None,
min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True,
oob_score=False, n_jobs=1, random_state=None, verbose=0, warm_start=False, class_weight=None)一,RF Bagging框架参数
和GBDT对比,GBDT的框架参数比较多,重要的有最大迭代器个数,步长和子采样比例,调参起来比较费力。但是RF则比较简单,这是因为Bagging框架里的各个弱学习器之间是没有依赖关系的,这减小调参的难度,换句话说,达到同样的调参效果,RF调参数时间要比GBDT少一些,
下面我来看看RF重要的Bagging框架的参数,由于RandomForestClassifier和RandomForestRegressor参数绝大部分相同,这里会将它们一起讲,不同点会指出。
-
n_estimators: 也就是弱学习器的最大迭代次数,或者说最大的弱学习器的个数。一般来说n_estimators太小,容易欠拟合,n_estimators太大,又容易过拟合,一般选择一个适中的数值。RandomForestClassifier和RandomForestRegressor默认是10。在实际调参的过程中,我们常常将n_estimators和下面介绍的参数learning_rate一起考虑。
-
oob_score :即是否采用袋外样本来评估模型的好坏。默认识False。有放回采样中大约36.8%的没有被采样到的数据,我们常常称之为袋外数据(Out Of Bag 简称OOB),这些数据没有参与训练集模型的拟合,因此可以用来检测模型的泛化能力。个人推荐设置为True,因为袋外分数反应了一个模型拟合后的泛化能力。
-
criterion: 即CART树做划分时对特征的评价标准。分类模型和回归模型的损失函数是不一样的。分类RF对应的CART分类树默认是基尼系数gini,另一个可选择的标准是信息增益。回归RF对应的CART回归树默认是均方差mse,另一个可以选择的标准是绝对值差mae。一般来说选择默认的标准就已经很好的。
4)bootstrap:默认是True,是否有放回的采样。
5)verbose:日志亢长度,int表示亢长度,o表示输出训练过程,1表示偶尔输出 ,>1表示对每个子模型都输出
从上面可以看出, RF重要的框架参数比较少,主要需要关注的是 n_estimators,即RF最大的决策树个数。当使用这些方法的时候,最主要的参数是调整n_estimators和max_features。n_estimators指的是森林中树的个数,树数目越大越好,但是会增加计算开销,另外,注意如果超过限定数量后,计算将会停止。
二,RF决策树参数
下面我们再来看RF的决策树参数,它要调参的参数基本和GBDT相同,如下:
-
RF划分时考虑的最大特征数max_features: 可以使用很多种类型的值,默认是"None",意味着划分时考虑所有的特征数;如果是"log2"意味着划分时最多考虑个特征;如果是"sqrt"或者"auto"意味着划分时最多考虑个特征。如果是整数,代表考虑的特征绝对数。如果是浮点数,代表考虑特征百分比,即考虑(百分比xN)取整后的特征数。其中N为样本总特征数。一般来说,如果样本特征数不多,比如小于50,我们用默认的"None"就可以了,如果特征数非常多,我们可以灵活使用刚才描述的其他取值来控制划分时考虑的最大特征数,以控制决策树的生成时间。max_features指的是,当划分一个节点的时候,features的随机子集的size,该值越小,variance会变小,但是bais会变大。(int 表示个数,float表示占所有特征的百分比,auto表示所有特征数的开方,sqrt表示所有特征数的开放,log2表示所有特征数的log2值,None表示等于所有特征数)
-
决策树最大深度max_depth: 默认可以不输入,如果不输入的话,决策树在建立子树的时候不会限制子树的深度。一般来说,数据少或者特征少的时候可以不管这个值。如果模型样本量多,特征也多的情况下,推荐限制这个最大深度,具体的取值取决于数据的分布。常用的可以取值10-100之间。(int表示深度,None表示树会生长到所有叶子都分到一个类,或者某节点所代表的样本已小于min_samples_split)
-
内部节点再划分所需最小样本数min_samples_split: 这个值限制了子树继续划分的条件,如果某节点的样本数少于min_samples_split,则不会继续再尝试选择最优特征来进行划分。 默认是2.如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。(int表示样本数,2表示默认值)
-
叶子节点最少样本数min_samples_leaf: 这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝。 默认是1,可以输入最少的样本数的整数,或者最少样本数占样本总数的百分比。如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。
5)叶子节点最小的样本权重和min_weight_fraction_leaf:这个值限制了叶子节点所有样本权重和的最小值,如果小于这个值,则会和兄弟节点一起被剪枝。 默认是0,就是不考虑权重问题。一般来说,如果我们有较多样本有缺失值,或者分类树样本的分布类别偏差很大,就会引入样本权重,这时我们就要注意这个值了。
-
最大叶子节点数max_leaf_nodes: 通过限制最大叶子节点数,可以防止过拟合,默认是"None”,即不限制最大的叶子节点数。如果加了限制,算法会建立在最大叶子节点数内最优的决策树。如果特征不多,可以不考虑这个值,但是如果特征分成多的话,可以加以限制,具体的值可以通过交叉验证得到。
-
节点划分最小不纯度min_impurity_split: 这个值限制了决策树的增长,如果某节点的不纯度(基于基尼系数,均方差)小于这个阈值,则该节点不再生成子节点。即为叶子节点 。一般不推荐改动默认值1e-7。
8)用于拟合和预测的并行运行的工作数量n_jobs:一般取整数,可选的(默认值为1),如果为-1,那么工作数量被设置为核的数量,机器上所有的核都会被使用(跟CPU核数一致)。如果n_jobs=k,则计算被划分为k个job,并运行在K核上。注意,由于进程间通信的开销,加速效果并不会是线性的(job数K不会提示K倍)通过构建大量的树,比起单颗树所需要的时间,性能也能得到很大的提升,
9)随机数生成器random_state:随机数生成器使用的种子,如果是RandomState实例,则random_stats就是随机数生成器;如果为None,则随机数生成器是np.random使用的RandomState实例。
上面决策树参数中最重要的包括最大特征数max_features, 最大深度max_depth, 内部节点再划分所需最小样本数min_samples_split和叶子节点最少样本数min_samples_leaf。
根据经验
对于回归问题:好的缺省值max_features = n_features;
对于分类问题:好的缺省值是max_features=sqrt(n_features)。n_features指的是数据中的feature总数。
当设置max_depth=None,以及min_samples_split=1时,通常会得到好的结果(完全展开的树)。但需要注意,这些值通常不是最优的,并且会浪费RAM内存。最好的参数应通过cross-validation给出。另外需要注意:
在随机森林中,缺省时会使用bootstrap进行样本抽样(bootstrap=True) ;
而extra-trees中,缺省策略为不使用bootstrap抽样 (bootstrap=False);
当使用bootstrap样本时,泛化误差可能在估计时落在out-of-bag样本中。此时,可以通过设置oob_score=True来开启。
三,如何调参呢?
参数分类的目的在于缩小调参的范围,首先我们要明确训练的目标,把目标类的参数定下来。接下来,我们需要根据数据集的大小,考虑是否采用一些提高训练效率的策略,否则一次训练就三天三夜,时间太久了,所以我们需要调整哪些影响整体的模型性能的参数。
1,调参的目标:偏差和方差的协调
偏差和方差通过准确率来影响着模型的性能。调参的目标就是为了达到整体模型的偏差和方差的大和谐!进一步,这些参数又可以分为两类:过程影响类及子模型影响类。在子模型不变的前提下,某些参数可以通过改变训练的过程,从而影响着模型的性能,诸如:“子模型数”(n_estimators),“学习率”(learning_rate)等,另外,我们还可以通过改变子模型性能来影响整体模型的性能,诸如:“最大树深度”(max_depth),‘分裂条件’(criterion)等。正由于bagging的训练过程旨在降低方差,而Boosting的训练过程旨在降低偏差,过程影响类的参数能够引起整体模型性能的大幅度变化。一般来说,在此前提下,我们继续微调子模型影响类的参数,从而进一步提高模型的性能。
2,参数对整体模型性能的影响
假设模型是一个多元函数F,其输出值为模型的准确度。我们可以固定其他参数,从而对某个参数整体模型性能的影响进行分析:是正影响还是负影响,影响的单调性?
对Random Forest来说,增加“子模型树”(n_estimators)可以明显降低整体模型的方差,且不会对子模型的偏差和方差有任何影响。模型的准确度会随着“子模型数”的增加而提高,由于减少的是整体模型方差公式的第二项,故准确度的提高有一个上线。在不同的场景下,“分裂条件”(criterion)对模型的准确度的影响也不一样,该参数需要在实际运行时灵活调整。调整“最大叶子节点数”(max_leaf_models)以及“最大树深度”(max_depth)之一,可以粗粒度地调整树的结构:叶节点越多或者树越深,意味着子模型的偏差月底,方差越高;同时,调整”分裂所需要最小样本数”(min_samples_split),“叶节点最小样本数”(min_samples_leaf)及“叶节点最小权重总值”(min_weight_fraction_leaf),可以更细粒度地调整树的结构:分裂所需样本数越少或者叶节点所需样本越少,也意味着子模型越复杂。一般来说,我们总采用bootstrap对样本进行子采样来降低子模型之间的关联度,从而降低整体模型的方差。适当地减少“分裂时考虑的最大特征数”(max_features),给子模型注入了另外的随机性,同样也达到了降低子模型之间关联度的效果。但是一味地降低该参数也是不行的,因为分裂时可选特征变少,模型的偏差会越来越大。在下图中,我们可以看到这些参数对Random Forest整体模型性能的影响:
3,一个朴实的方案:贪心的坐标下降法
到此为止,我们终于知道需要调整哪些参数,对于单个参数,我们也知道怎么调整才能提升性能。然后,表示模型的函数F并不是一元函数,这些参数需要共同调参才能得到全局最优解。也就是说,把这些参数丢给调参算法(诸如Grid Search)?对于小数据集,我们还能这么任性,但是参数组合爆炸,在大数据集上,实际上网格搜索也不一定能得到全局最优解。
坐标下降法是一类优化算法,其最大的优势在于不同计算待优化的目标函数的梯度。我们最容易想到一种特别朴实的类似于坐标下降法的方法,与坐标下降法不同的是,其不同循环使用各个参数进行调整,而是贪心地选取了对整体模型性能影响最大的参数。参数对整体模型性能的影响力是动态变化的,故每一轮坐标选取的过程中,这种方法在对每个坐标的下降方向进行一次直线搜索(line search)。首先,找到那些能够提升整体模型性能的参数,其次确保提升是单调或者近似单调。这意味着,我们筛选出来的参数是整体模型性能有正影响的,且这种影响不是偶然性的,要知道,训练过程的随机性也会导致整体模型性能的细微区别,而这种区别是不具有单调性的。最后,在这些筛选出来的参数中,选取影响最大的参数进行调整即可。
无法对整体模型性能进行量化,也就谈不上去比较参数影响整体模型性能的程度,是的,我们还没有一个准确的方法来量化整体模型性能,只能通过交叉验证来近似计算整体模型性能。然而交叉验证也存在随机性,假设我们以验证集上的平均准确度作为整体模型的准确度,我们还得关心在各个验证集上准确度的变异系数,如果变异系数过大,则平均值作为整体模型的准确率也是不合适的。在接下来的案例分析中,我们所谈及的整体模型性能均是指平均准确度。
四,Random Forest 调参示例:Digit Recognizer
在这里,我们选取Kaggle上101教学赛的Digit Recognizer作为案例来演示对RandomForestClassifier调参的过程。当然,我们也不要傻乎乎地手工去设定不同的参数,然后训练模型,借助sklearn.grid_search库中的GridSearchCV类,不仅可以自动化调参,同时还可以对每一种参数组合进行交叉验证计算平均准确度。
4.1 例子: >>> fromsklearn.ensemble importRandomForestClassifier
fromsklearn.datasets importmake_classification
X, y = make_classification(n_samples= 1000, n_features= 4,
… n_informative= 2, n_redundant= 0,
… random_state= 0, shuffle= False)
clf = RandomForestClassifier(max_depth= 2, random_state= 0)
clf.fit(X, y)
RandomForestClassifier(bootstrap= True, class_weight= None, criterion= ‘gini’,
max_depth= 2, max_features= ‘auto’, max_leaf_nodes= None,
min_impurity_decrease= 0.0, min_impurity_split= None,
min_samples_leaf= 1, min_samples_split= 2,
min_weight_fraction_leaf= 0.0, n_estimators= 10, n_jobs= 1,
oob_score= False, random_state= 0, verbose= 0, warm_start= False)
print(clf.feature_importances_)
[ 0.172878560.806087040.018847920.00218648]
print(clf.predict([[ 0, 0, 0, 0]]))
[ 1] 4.2 方法如下:
五,进行预测的几种常用的方法
1 ) predict_proba(x) : 给出带有概率值的结果。每个点在所有label(类别)的概率和为1.
2) predict(x): 直接给出预测结果,内部还是调用的predict_proba()。根据概率的结果看哪个类型的预测值最高就是那个类型。
3)predict_log_proba(x): 和predict_proba基本上一样,只是把结果做了log()处理。
fromsklearn.cross_validation importcross_val_score
fromsklearn.datasets importmake_blobs
fromsklearn.ensemble importRandomForestClassifier
fromsklearn.ensemble importExtraTreesClassifier
fromsklearn.tree importDecisionTreeClassifier
X, y = make_blobs(n_samples= 10000, n_features= 10, centers= 100,
… random_state= 0)
clf = DecisionTreeClassifier(max_depth= None, min_samples_split= 1,
… random_state= 0)
scores = cross_val_score(clf, X, y)
scores.mean()
0.97…
clf = RandomForestClassifier(n_estimators= 10, max_depth= None,
… min_samples_split= 1, random_state= 0)
scores = cross_val_score(clf, X, y)
scores.mean()
0.999…
clf = ExtraTreesClassifier(n_estimators= 10, max_depth= None,
… min_samples_split= 1, random_state= 0)
scores = cross_val_score(clf, X, y)
scores.mean() > 0.999
True六,随机森林分类算法的实现
代码:
#coding:UTF_8
导入需要导入的库
importpandas aspd
importnumpy asnp
importmath
fromsklearn.ensemble importRandomForestClassifier
fromsklearn.ensemble importExtraTreesClassifier
fromsklearn.tree importDecisionTreeClassifier
fromsklearn importmodel_selection ,metrics
fromsklearn.model_selection importcross_val_score
fromsklearn.model_selection importtrain_test_split
importmatplotlib.pyplot asplt
importmatplotlib asmpl
fromsklearn.datasets importmake_blobs
importwarnings
忽略一些版本不兼容等警告
warnings.filterwarnings( “ignore”)
每个样本有几个属性或者特征
n_features = 2
x,y = make_blobs(n_samples= 300,n_features=n_features,centers= 6)
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state= 1,train_size= 0.7)
绘制样本显示
plt.scatter(x[:,0],x[:,1],c=y)
plt.show()
传统决策树,随机森林算法 极端随机数的区别
DT = DecisionTreeClassifier(max_depth= None,min_samples_split= 2,random_state= 0)
RF = RandomForestClassifier(n_estimators= 10,max_features=math.sqrt(n_features),
max_depth= None,min_samples_split= 2,bootstrap= True)
EC = ExtraTreesClassifier(n_estimators= 10,max_features=math.sqrt(n_features),
max_depth= None,min_samples_split= 2,bootstrap= False)
训练
DT.fit(x_train,y_train)
RF.fit(x_train,y_train)
EC.fit(x_train,y_train)
#区域预测
第0列的范围
x1_min,x1_max = x[:, 0].min(),x[:, 0].max()
第1列的范围
x2_min,x2_max = x[:, 1].min(),x[:, 1].max()
生成网格采样点行列均为200点
x1,x2 = np.mgrid[x1_min:x1_max: 200j,x2_min:x2_max: 200j]
将区域划分为一系列测试点用去学习的模型预测,进而根据预测结果画区域
area_sample_point = np.stack((x1.flat,x2.flat),axis= 1)
所有区域点进行预测
area1_predict = DT.predict(area_sample_point)
area1_predict = area1_predict.reshape(x1.shape)
area2_predict = RF.predict(area_sample_point)
area2_predict = area2_predict.reshape(x1.shape)
area3_predict = EC.predict(area_sample_point)
area3_predict = area3_predict.reshape(x1.shape)
用来正常显示中文标签
mpl.rcParams[ ‘font.sans-serif’] = [ u’SimHei’]
用来正常显示负号
mpl.rcParams[ ‘axes.unicode_minus’] = False
区域颜色
classifier_area_color = mpl.colors.ListedColormap([ ‘#A0FFA0’, ‘#FFA0A0’, ‘#A0A0FF’])
样本所属类别颜色
cm_dark = mpl.colors.ListedColormap([ ‘r’, ‘g’, ‘b’])
绘图
第一个子图
plt.subplot( 2, 2, 1)
plt.pcolormesh(x1,x2,area1_predict,cmap = classifier_area_color)
plt.scatter(x_train[:, 0],x_train[:, 1],c =y_train,marker= ‘o’,s= 50,cmap=cm_dark)
plt.scatter(x_test[:, 0],x_test[:, 1],c =y_test,marker= ‘x’,s= 50,cmap=cm_dark)
plt.xlabel( ‘data_x’,fontsize= 8)
plt.ylabel( ‘data_y’,fontsize= 8)
plt.xlim(x1_min,x1_max)
plt.ylim(x2_min,x2_max)
plt.title( u’DecisionTreeClassifier: 传统决策树’,fontsize= 8)
plt.text(x1_max -9,x2_max -2, u’o-------train ; x--------test$’)
第二个子图
plt.subplot( 2, 2, 2)
plt.pcolormesh(x1,x2,area2_predict,cmap = classifier_area_color)
plt.scatter(x_train[:, 0],x_train[:, 1],c =y_train,marker= ‘o’,s= 50,cmap=cm_dark)
plt.scatter(x_test[:, 0],x_test[:, 1],c =y_test,marker= ‘x’,s= 50,cmap=cm_dark)
plt.xlabel( ‘data_x’,fontsize= 8)
plt.ylabel( ‘data_y’,fontsize= 8)
plt.xlim(x1_min,x1_max)
plt.ylim(x2_min,x2_max)
plt.title( u’RandomForestClassifier: 随机森林算法’,fontsize= 8)
plt.text(x1_max -9,x2_max -2, u’o-------train ; x--------test$’)
第三个子图
plt.subplot( 2, 2, 3)
plt.pcolormesh(x1,x2,area3_predict,cmap = classifier_area_color)
plt.scatter(x_train[:, 0],x_train[:, 1],c =y_train,marker= ‘o’,s= 50,cmap=cm_dark)
plt.scatter(x_test[:, 0],x_test[:, 1],c =y_test,marker= ‘x’,s= 50,cmap=cm_dark)
plt.xlabel( ‘data_x’,fontsize= 8)
plt.ylabel( ‘data_y’,fontsize= 8)
plt.xlim(x1_min,x1_max)
plt.ylim(x2_min,x2_max)
plt.title( u’ExtraTreesClassifier: 极端随机树’,fontsize= 8)
plt.text(x1_max -9,x2_max -2, u’o-------train ; x--------test$’)
第四个子图
plt.subplot( 2, 2, 4)
y = []
交叉验证
score_DT = cross_val_score(DT,x_train,y_train)
y.append(score_DT.mean())
score_RF = cross_val_score(RF,x_train,y_train)
y.append(score_RF.mean())
score_EC = cross_val_score(EC,x_train,y_train)
y.append(score_EC.mean())
print( ‘DecisionTreeClassifier交叉验证准确率为:’+str(score_DT.mean()))
print( ‘RandomForestClassifier交叉验证准确率为:’+str(score_RF.mean()))
print( ‘ExtraTreesClassifier交叉验证准确率为:’+str(score_EC.mean()))
x = [ 0, 1, 2]
plt.bar(x,y, 0.4,color= ‘green’)
plt.xlabel( “0–DecisionTreeClassifier;1–RandomForestClassifier;2–ExtraTreesClassifie”, fontsize= 8)
plt.ylabel( “平均准确率”, fontsize= 8)
plt.ylim( 0.9, 0.99)
plt.title( “交叉验证”, fontsize= 8)
fora, b inzip(x, y):
plt.text(a, b, b, ha= ‘center’, va= ‘bottom’, fontsize= 10)
plt.show()
结果:
七,随机森林回归算法的实现
代码:
#随机森林回归
importmatplotlib asmpl
importnumpy asnp
importwarnings
importmatplotlib.pyplot asplt
fromsklearn.tree importDecisionTreeRegressor
fromsklearn.ensemble importRandomForestRegressor
fromsklearn.ensemble importExtraTreesRegressor
#忽略一些版本不兼容等警告
warnings.filterwarnings( “ignore”)
#产生心状坐标
t = np.arange( 0, 2*np.pi, 0.1)
x = 16*np.sin(t)** 3
x=x[:, np.newaxis]
y = 13np.cos(t) -5np.cos( 2t) -2np.cos( 3t)-np.cos( 4t)
y[:: 7]+= 3* ( 1- np.random.rand( 9)) #增加噪声,在每数2个数的时候增加一点噪声
#传统决策树线性回归,随机森林回归,极端森林回归
rf1=DecisionTreeRegressor()
rf2=RandomForestRegressor(n_estimators= 1000) #一般来说n_estimators越大越好,运行结果呈现出的两种结果该值分别是10和1000
rf3=ExtraTreesRegressor()
#三种算法的预测
y_rf1 =rf1.fit(x,y).predict(x)
y_rf2 =rf2.fit(x,y).predict(x)
y_rf3 =rf3.fit(x,y).predict(x)
#为了后面plt.text定位
x1_min, x1_max = x[:].min(), x[:].max()
x2_min, x2_max = y[:].min(), y[:].max()
mpl.rcParams[ ‘font.sans-serif’] = [ u’SimHei’] #用来正常显示中文标签
mpl.rcParams[ ‘axes.unicode_minus’] = False
plt.scatter(x, y, color= ‘darkorange’, label= ‘data’)
plt.hold( ‘on’)
plt.plot(x, y_rf1, color= ‘b’, label= ‘DecisionTreeRegressor’)
plt.plot(x, y_rf2, color= ‘g’, label= ‘RandomForestRegressor’)
plt.plot(x, y_rf3, color= ‘r’, label= ‘ExtraTreesRegressor’)
plt.xlabel( ‘data_x’)
plt.ylabel( ‘data_y’)
plt.title( ‘python_machine-learning_RandomForest(n_estimators=1000)-----心状学习’)
plt.legend()
plt.text(x1_max -4, x2_max -1, u’o???Sample?Pointo---Sample-Pointo???Sample?Point’)
plt.show()
结果:
八,随机森林分类算法其他机器学习分类算法进行对比
代码:
importnumpy asnp
importmatplotlib.pyplot asplt
frommatplotlib.colors importListedColormap
fromsklearn.cross_validation importtrain_test_split
fromsklearn.preprocessing importStandardScaler
fromsklearn.datasets importmake_moons, make_circles, make_classification
fromsklearn.neighbors importKNeighborsClassifier
fromsklearn.svm importSVC
fromsklearn.tree importDecisionTreeClassifier
fromsklearn.ensemble importRandomForestClassifier, AdaBoostClassifier
fromsklearn.naive_bayes importGaussianNB
fromsklearn.lda importLDA
fromsklearn.qda importQDA
h = .02# step size in the mesh
names = [ “Nearest Neighbors”, “Linear SVM”, “RBF SVM”, “Decision Tree”,
“Random Forest”, “AdaBoost”, “Naive Bayes”, “LDA”, “QDA”]
classifiers = [
KNeighborsClassifier( 3),
SVC(kernel= “linear”, C= 0.025),
SVC(gamma= 2, C= 1),
DecisionTreeClassifier(max_depth= 5),
RandomForestClassifier(max_depth= 5, n_estimators= 10, max_features= 1),
AdaBoostClassifier(),
GaussianNB(),
LDA(),
QDA()]
X, y = make_classification(n_features= 2, n_redundant= 0, n_informative= 2,
random_state= 1, n_clusters_per_class= 1)
rng = np.random.RandomState( 2)
X += 2* rng.uniform(size=X.shape)
linearly_separable = (X, y)
datasets = [make_moons(noise= 0.3, random_state= 0),
make_circles(noise= 0.2, factor= 0.5, random_state= 1),
linearly_separable
]
figure = plt.figure(figsize=( 27, 9))
i = 1
iterate over datasets
fords indatasets:
preprocess dataset, split into training and test part
X, y = ds
X = StandardScaler().fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= .4)
x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
np.arange(y_min, y_max, h))
just plot the dataset first
cm = plt.cm.RdBu
cm_bright = ListedColormap([ ‘#FF0000’, ‘#0000FF’])
ax = plt.subplot(len(datasets), len(classifiers) + 1, i)
Plot the training points
ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright)
and testing points
ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright, alpha= 0.6)
ax.set_xlim(xx.min(), xx.max())
ax.set_ylim(yy.min(), yy.max())
ax.set_xticks(())
ax.set_yticks(())
i += 1
iterate over classifiers
forname, clf inzip(names, classifiers):
ax = plt.subplot(len(datasets), len(classifiers) + 1, i)
clf.fit(X_train, y_train)
score = clf.score(X_test, y_test)
Plot the decision boundary. For that, we will assign a color to each
point in the mesh [x_min, m_max]x[y_min, y_max].
ifhasattr(clf, “decision_function”):
Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
else:
Z = clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]
Put the result into a color plot
Z = Z.reshape(xx.shape)
ax.contourf(xx, yy, Z, cmap=cm, alpha= .8)
Plot also the training points
ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright)
and testing points
ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright,
alpha= 0.6)
ax.set_xlim(xx.min(), xx.max())
ax.set_ylim(yy.min(), yy.max())
ax.set_xticks(())
ax.set_yticks(())
ax.set_title(name)
ax.text(xx.max() - .3, yy.min() + .3, ( ‘%.2f’% score).lstrip( ‘0’),
size= 15, horizontalalignment= ‘right’)
i += 1
figure.subplots_adjust(left= .02, right= .98)
plt.show()
结果:
欢迎大家加入小编创建的Python行业交流群,有大牛答疑,有资源共享,有企业招人!是一个非常不错的交流基地!群号:683380553
这里随机生成了三个样本集,分割面近似为月形、圆形和线形的。我们可以重点对比一下决策树和随机森林对样本空间的分割:
1)从准确率上可以看出,随机森林在这三个测试集上都要优于单棵决策树,90%>85%,82%>80%,95%=95%;
2)从特征空间上直观地可以看出,随机森林比决策树拥有更强的分割能力(非线性拟合能力)。
九,解决问题:在调用sklearn时出现 Unknown label type: ‘unknown’
在sklearn模型训练出现如下错误:
‘ValueError: Unknown labeltype: ‘unknown’
解决方法:以GBDT为例:train_y后加上astype(‘int’)即可
gbdt.fit(train_x,train_y. astype(‘int’))