那么这一节来说一种特殊的自变量----分类变量,以及简单介绍什么是多元非线性关系。
目录
一、分类变量
1.定义与表示:
2.更复杂的分类变量与哑变量
二、多元非线性回归
二次回归很简单:就是自变量有二次项
分段线性回归模型(折点回归):
考虑交互作用:
三、子集的选择
一、分类变量
1.定义与表示:
分类变量(categorical variable)是说明事物类别的一个名称,其取值是分类数据。
那么这个变量的特殊之处就在于,这个值是一个用于区分事物的逻辑值,而不是真实的数值。
其变量值是定性的,表现为互不相容的类别或属性。
那么分类变量在多元回归中怎么用呢?
假设我们有一个关于是否双休的实验,0代表不双休,1代表双休
不双休情况下,我们分析问题:
双休情况下我们分析问题:
2.更复杂的分类变量与哑变量
如果一个分类变量有k个级别,则需要k - 1个哑变量,每个哑变量对应于分类变量的其中一个级别,编码为0或1。
听的不是很明白?
没事,举个栗子:
例题:假设一个自动售货机制造商将一个特定省份的销售区域分成为三个小的代理区域:A、B和C。管理人员希望使用回归分析来帮助预测每周售出的自动售货机数量。假设经理认为销售区域是预测销售数量的重要因素之一。
哑变量个数:3-1=2
x1=1是表示B区域,x2 = 1时表示C区域
注意:这不是二进制,你不要以为这是二进制 00 01 10 11.
这是哑变量,一个哑变量只能表示一个类。
如果4类 A,B,C,D
那就是
x1 | x2 | x3 | |
A | 0 | 0 | 0 |
B | 1 | 0 | 0 |
C | 0 | 1 | 0 |
D | 0 | 0 | 1 |
一定不要当成二进制。
之后我们就正常进行多元回归就行了。
二、多元非线性回归
当你看到一些不是很像线性关系的图像,你很难用线性回归来达到一个你想要的结果:
那么此时就出现了非线性回归的概念
比如:二次回归,折点回归等等
那么我们简单说一说非线性回归:
当你看到这个图的时候,你想通过回归拟合一个模型,那么你可能就会想到二次回归
二次回归很简单:就是自变量有二次项
那么一元二次回归的一些常见形态如下:
分段线性回归模型(折点回归):
这个模型将允许我们将关系拟合为两个或多个线性回归。
结点:自变量的值,因变量与自变量之间的关系在该点发生变化。
那么如何分段呢?
还记得哑变量么?哑变量不是可以分类,那么分段就类似于分类
我们可以定义哑变量:
考虑交互作用:
相互作用:当因变量和一个自变量之间的关系在第二个自变量的不同值时发生变化。
评估模型:
三、子集的选择
两种标准:
1.递归选择,每次添加或移除一个要素,并重新评判模型好坏。
2.最佳选择:直接将所有情况的子集分好,并验算所有的模型,找到最好的使用。