目录
一、前言
二、二分类逻辑回归与多元逻辑回归
1.定义与例子:
2.二分类回归的解法
3.多元逻辑回归
三、逻辑回归的优势
四、逻辑回归的一些验证
结果判定要注意的问题:
其他问题:
结果有效性理论:
一、前言
我们上一讲说了什么是分类变量,而且我们举的例子都是自变量是分类变量,那么如果因变量是分类变量我们应该怎么做回归呢?常规的线性回归肯定是不行的,因为因变量是分类变量,所以这并不能够成连续的回归结果,那么就有人研究出了一种专门为分类因变量定制的回归模型,逻辑回归,所以逻辑回归回归的是什么?是逻辑,不是值,所谓的逻辑就是分类,这也是为什么逻辑回归会在机器学习中被当做分类算法的原因,逻辑回归是和值回归(线性回归,非线性回归)不相同的回归方法。
二、二分类逻辑回归与多元逻辑回归
1.定义与例子:
正如我们之前讲分类变量一样,我们从二分类开始讲。
什么是二分类逻辑回归呢?
指因变量为二分类变量时的回归分析。这个在生活中很常见,就是是与否的问题,0与1的问题。最常见的比如:性别(男,女),是否患病(患病,健康),高低电压(高电压,低电压)等等。
例如:评价某新疗法的疗效,某研究者随机抽查了40名某病患者,治疗后一定时间内观察其康复状况,其中变量Y为康复状况(Y=0表示未康复,Y=1表示康复) ,X1表示病情严重程度(1表示严重,0表示不严重) ,X2表示疗法(0表示新疗法,1表示传统疗法) 。目的研究评价不同疗法对康复状况的作用有无差别?
2.二分类回归的解法
二分类,众所周知,二分类符合概率论中的伯努利分布也就是0-1分布,那么在此基础上我们可以构建一种函数,当x在某一范围内为0,在剩余范围内为1,但是这样我们的函数是割裂的。我们先用一种更好的,更丝滑的函数来进行二分类回归,那么就是sigmoid函数。
sigmoid函数:
图像为:
那么在这个里面由于符合0-1分布,所以一定不符合正态分布,我们就基本不会使用最小二乘法来进行求解,从而转向最大似然估计的方法,这个方法我们前面有提过:
首先构造:
之后:我们构造损失函数并化简:
最后求解就是老生常谈了,使用梯度下降法求解即可。
当然,如果你是用SPSS或者R语言,甚至一些python框架,这些都不需要你操心,所以我们就暂时当作黑盒去处理就行了,要先抛出一个结果,在想办法去解释他。
3.多元逻辑回归
那么。分类问题不可能只有二分类。多分类问题更加的常见。比如问你职业,可能会有学生,老师,工人,等等。问你天气可能会有晴天,雨天,阴天等等。所以多分类问题也是非常的常见的。
多元逻辑回归有次序多元逻辑回归和无序多元逻辑回归之分,是比较复杂的问题,我们今天点到为止。
在多元回归中,我们一般会使用softmax函数,这个softmax函数是玻尔兹曼函数的特例,用处非常的大,我么的求解步骤依然是,构造softmax函数,构造损失函数loss,梯度下降,得到参数值。
我会在机器学习与深度学习章节详细讲,这几篇是关于量化分析的,我们不展开。
我们给个无序多元逻辑回归的例子:
例:研究者随机抽取了三个不同的中学,研究不同课程计划对学生学习方式偏好的影响,本例有两个自变量,中学和课程计划;一个因变量:学习方式。其中学校变量有3个水平(1、2、3),课程计划有2个水平(1常规,2附加),学习方式变量有3个水平(1自修、2小组、3上课)。列出主要的模型拟合的结果;列出主要的参数估计的结果,并给出合理的解释,
三、逻辑回归的优势
- 判别分析假设群体间存在多元正态性和等方差-协方差矩阵,而这些假设往往不满足。逻辑回归不需要面对这些严格的假设,当这些假设不满足时,逻辑回归更加稳健,使其适用于许多情况。
- 逻辑回归简便,方便操作,复杂的不一定是最好的,所以我们再建立新的算法时,往往会和逻辑回归或者线性回归这类基础方法做比较,如果你连最基础的方法都比不过,那么基本就能确定你的算法需要改进了。
- 二分类变量的方差不是恒定的,这也产生了异方差的实例。
- 正态性和异方差性的违反都不能通过对因变量或自变量的转换来补救。逻辑回归是专门用来处理这些问题的。
- 逻辑回归的优点主要是由于一般缺乏假设。
- 不需要因变量和自变量之间的线性关系。
- 逻辑回归是二组(二元)因变量的首选方法,因为它的稳健性,易于解释和诊断。
四、逻辑回归的一些验证
- 估计一个空模型——作为比较模型拟合改进的“基线”
- 估计拟建模型-包含将纳入逻辑回归的自变量的模型。
- 评估- 2LL差异:模型显著性检验采用两模型间对数似然值差(-2LL)的卡方检验
-2LL:
结果判定要注意的问题:
- 系数的显著性检验-基于Wald统计量
- 解读系数
- 关系的方向性:正相关关系意味着自变量的增加与预测概率的增加有关,反之亦然。系数符号表示关系的方向。指数系数有不同的解释,因为它们是原始系数的对数,没有负值。因此,指数大于1.0的系数表示正相关,小于1.0的值表示负相关。
- 度量自变量关系的大小:(1)原始逻辑系数-在确定关系的大小方面用处不大,因为它反映了logit(记录的odds)值的变化。(2)指数系数-直接反映优势值变化的幅度。但它们的影响是乘性的,系数为1.0表示没有变化(1.0乘以自变量=没有变化)。数量级最好用指数系数来评估,因变量的变化百分比表示为:变化百分比=(指数系数- 1.0)* 100
- 解释非度量自变量
其他问题:
- 对logistic回归的样本大小的考虑主要集中在每组的大小,这应该有10倍的估计模型系数(变量的数量)。
- 系数有两种形式:原始和取幂,以协助解释。
结果有效性理论:
- 包括确保结果的内部和外部有效性。
- 估计外部有效性的最常见形式是创建一个拒绝样本或验证样本,并计算命中率。
- 第二种方法是交叉验证,通常通过jackknife 或“leave-one-out”的方法来计算命中率。