基于自行车租赁需求的预测随机森林与多元线性回归
内蒙古大学的
本文要求结合历史使用模式用天气数据预测自行车租赁需求
this paper proposes a random forest model and a GBM packet to
improve the decision tree. The results and the accuracy of multiple
regression analysis are greatly improved when use of random forest
这提出了一个随机森林模型和一个GBM数据包。
改进决策树。多重结果与精度
随机森林的回归分析有了很大的改进。
然而,很少有人研究天气因素对气候变化的影响。迄今为止公共自行车租赁的数量。本文对我国的租赁需求进行了预测。
根据数据的特点,我们采用多元线性的方法回归分析与随机森林两种预测方法
Date time - hourly date+ timestamp
season - 1 = spring, 2 = summer, 3 = fall, 4 = winter
天气
1:清澈,少云,多云,多云。
2:雾+阴,雾+碎云,雾+少
云雾
3:小雪、小雨+雷雨+散落
云,微雨+散云
摄氏温度
ATEMP -“感觉像”摄氏温度
湿度相对湿度
风速-风速
总数租金总数
天气、温度、ATEMP、湿度、风速和计数均为
数值变量、日期时间、季节和天气是离散的。
不连续变量
随机森林的构建
因为随机森林不是决策树修剪,
一种典型的单分类器,训练集的第一步是
递归分析,生成倒置树等形状
结构;从根节点对树的第二步分析
对于叶节点路径,产生一系列规则;最后,根据
这些规则,分类或预测新数据。这个
以下是随机森林模型过程的结构:
(1)从样本集中随机选取n个样本;
采样;
(2)从所有特征中随机选择K特征;
利用这些特征构造决策树;
(3)重复上述两步M次,生成M决策
树形模型,随机森林的形成;
(4)对于新的数据,在每个树决策之后,最后做出预言;
GBM提高随机决策树的容量
森林
在具有随机森林的决策树结构中,在
为了提高效率,我们使用GBM软件包〔12〕。
提高决策树的容量、每一损失函数
在以前的梯度下降模型中建立了模型。
在GBM封装中,重要参数设置如下:
?分布
?N.树
?收缩率
?袋馏份
?交互作用深度
收缩率为0.005,N.树为5000。