数据挖掘方法（7）：解读逻辑回归

一. 数据描述

来源：数据集合（http://download.csdn.net/detail/huangxia73/7059709）

描述：电信数据，有多个属性，用来预测客户流失。

载入数据如下：

> call_consumer<-read.table(file="d:/LabData/RData/churn.txt",header=TRUE,sep=",")Warning message:In read.table(file = "d:/LabData/RData/churn.txt", header = TRUE,  :  incomplete final line found by readTableHeader on 'd:/LabData/RData/churn.txt'> edit(call_consumer)

数据概况如下：

二 .解读逻辑回归模型

　　分三种：

　　　（１）一个两分预测变量的模型

　　　（２）多分预测变量

　　　（３）连续的预测变量

　２.１　两分预测变量模型

　　　假定唯一的预测变量是语音邮箱套餐（Ｉｎｔｌ．ｐｌａｎ），这是一个表示是否为套餐会员的标记变量。下表显示了语音邮箱套餐会员流失情况。

　似然函数可以表示为：

　　．使用语音邮箱套餐的客户流失的发生比＝π（１）／［１－π（１）］＝８０／８４２＝０．０９５

　　．没有使用语音邮箱套餐的客户流失的发生比＝π（０）／［１－π（０）］＝４０３／２００８＝０.２００７

　故：　

　　　　　　　　　　ＯＲ＝０.０９５／０.２００７＝０.４７

　　也即　使用语音邮箱套餐的客户与没有使用语音邮箱套餐的客户相比，流失概率只有４７％

　下图显示了语音套餐会员流失的逻辑回归结果

　　可以得到ｂ０＝－１．６０５９６和ｂ１＝－０．７４７７９５．所以用于语音邮箱套餐（ｘ＝１）的客户或者没有语音套餐（ｘ＝０）的客户流失的估计值为：

　　（１）对于一个拥有此套餐的客户，估计他的流失概率为：上式子中ｘ＝１得：π（１）＝０．０８６８（也可以直接计算　Ｐ（流失｜语音邮箱计划）＝８０／９２２＝０．０８６８），这一概率比数据集中给出的客户流失的总比例１４．５％要小，说明开通语音邮箱套餐有利于减少客户流失。

　　（２）对于一个没有拥有此套餐的客户，估计他的流失概率为：上式子中ｘ＝０得：π（０）＝０．１６７１５（也可以直接计算　Ｐ（流失｜语音邮箱计划）＝４０３／２４１１＝０．１６７１５），这一概率比数据集中给出的客户流失的总比例１４．５％要高，说明没有开通语音邮箱套餐对于客户流失不大。

　进一步地，可以利用Ｗａｌｄ检验法检验语音邮箱套餐参数的显著性。这里，ｂ１＝－０．７４７７９５，ＳＥ（ｂ１）＝０．１２９１０１得：

　　　　　　　　　Ｚｗａｌｄ＝－０．７４７７９５／０．１２９１０１＝－５．７９

　　Ｐ值为Ｐ（｜Ｚ｜＞－５．７９）－－＞＝０，表明显著性很强。

２.２　多分预测变量模型

　　假定将客户服务电话数（ｃｕｓｔｏｍｅｒｓ　ｓｅｒｖｉｃｅｓ　ｃａｌｌｓ）看做一个新的变量－ＣＳＣ，分类如下：

　　　（１）０个或１个客户服务电话：ＣＳＣ＝低

　　　（２）２个或３个客户服务电话：ＣＳＣ＝中

　　　（３）４个以上客户服务电话：ＣＳＣ＝高

　此时，分析人员需要用指示变量（虚拟变量）和参考单元编码法来给数据集编码，假定选择“ＣＳＣ＝低”作为参考单元，则可把指示变量值分配给另外两个变量。使用指示变量之后：

　　使用ＣＳＣ展示客户流失情况列表汇总如下：

　此时再对数据进行逻辑回归分析，得到的结果如下（注意：没有ＣＳＣ－低）：

　　　　．对于ＣＳＣ－中：ＯＲ＾＝ｅ＾ｂ１＝ｅ＾－０．０３６９８＝０．９６

　　　　．对于ＣＳＣ－高：ＯＲ＾＝ｅ＾ｂ２＝ｅ＾２.１１８４４＝８.３２

　这里，ｂ０＝－２．５０１，ｂ１＝－０．０３６９８，ｂ２＝２．１１８４４，所以客户流失概率的估计量为：

　　（１）对于那些很少拨打客服电话的客户：

　　　　　　ｇ（ｘ）＝－２．５０１－０．０３６９８９（０）＋２．１１８４４（０）＝－２．０５１

　　　故概率为：π（ｘ）＝ｅ＾－２．０５１／１＋ｅ＾－２．０５１＝０．１１４

　　　此概率比全部数据样本集中客户流失的概率１４．５％要小。这表明这一类客户的流失率一定程度上比总体客　　户的流失率要小

　　（２）对于拨打客服电话处于中等水平的客户，同上，此时

　　　　　ｇ（ｘ）＝－２．５０１－０．０３６９８９（１）＋２．１１８４４（０）＝－２．０８８

　　（３）对于经常拨打客服电话的客户，同上，此时：

　　　　　ｇ（ｘ）＝－２．５０１－０．０３６９８９（０）＋２．１１８４４（１）＝０.０６７４４

　Ｗａｌｄ检验

　（１）对于ＣＳＣ－中　的参数进行Ｗａｌｄ检验，ｂ１＝－０．０３６９８９，ＳＥ（ｂ１）＝０.１１７７０１

　　　　故而，Ｚｗａｌｄ＝－０．０３６９８９／０.１１７７０１＝－０．３１４２６

　　　　此时，Ｐ值Ｐ（｜Ｚ｜＞０．３１４２６）＝０．７５３，不显著，所以没有证据表明ＣＳＣ－中与ＣＳＣ　　　　－低　的差异能有效预测客户流失。

　（２）对于ＣＳＣ－高　的参数进行Ｗａｌｄ检验，ｂ１＝２.１１８４４，ＳＥ（ｂ１）＝０.１４２３８０

　　　　故而，Ｚｗａｌｄ＝２.１１８４４／０.１４２３８０＝１４.８８

　　　　此时，Ｐ值Ｐ（｜Ｚ｜＞１４.８８）＝０.０００，显著，表明ＣＳＣ－高与ＣＳＣ－低的差异能有效预测客户流失。

　【所以，对于多分预测变量模型，关键是指示变量和参照单元编码】

２.３　解读连续预测变量模型

　　假定我们考虑以客户日使用分钟数作为预测变量，则相应的逻辑回归分析结果如下：

　因此对于一个给定日使用分钟数的顾客，流失概率：

　（１）对于一个日使用分钟数为１００的顾客流失的概率估计为：

　　　　　　ｇ（ｘ）＝－３．９２９２＋０．０１１２７１７（１００）＝－２.８０２１２

　　　　概率π（１００）＝０．０５７２，比数据集中总比例１４．５％要小，表明低的日使用分钟数会在一定程　　度上防止顾客流失

　（２）对于一个日使用分钟数为３００的顾客流失的概率估计为：

　　　　　　ｇ（ｘ）＝－３．９２９２＋０．０１１２７１７（３００）＝－０.０５４７７８

　　　　概率π（３００）＝０．３６６４，比数据集中总比例１４．５％要大，表明日使用分钟数越多顾客流失越　多

　“日使用分钟数”，这一实例的偏差Ｇ为：

　　Ｇ＝偏差（没有预测变量的模型）－偏差（有预测变量的模型）

　　　＝－２ｌｎ［没有预测变量的似然值／有预测变　　　　量的似然值］

　　　＝２｛－１３０７.１２９－［４８３ｌｎ（４８３）＋２８５０ｌｎ（２８５０）－３３３３ｌｎ（３３３　　　　　　３）］｝

　　　＝１４４．０３５

　对Ｇ进行卡方检验，ｐ值为Ｐ（ｘ＾２）＞Ｇ观测值＝Ｐ（ｘ＾２）＞１４４．０３５＝０．０００，因此强有力的证据表明日使用分钟数有助于预测顾客的流失情况。

　对“日使用分钟数”进行Ｗａｌｄ检验，可以得到同样的结论。

３.　多元逻辑回归

　　　多元逻辑回归与简单逻辑回归十分相似，需要注意的是选择恰当的预测变量，其方法主要有
　　　（１）针对单个变量的挑选：　ｗａｌｄ检验某个变量是否有助于预测

　　　（２）针对多个变量总体挑选：总体显著性Ｇ

　下图一个简单示例：

　　　　　　　　　　　　　　　　　　　表１

　　　　　　　　　　　　　　　　　表２

　　由上面两幅图可以看出，其中的“账户时长”变量其Ｗａｌｄ检验的Ｐ值没有拒绝零假设检验，因而需要从全体预测变量中剔除。最后的Ｇ偏差，卡方检验虽然两幅图中都能表明，多元预测变量能显著预测结果（Ｇ检验的Ｐ值＝０），但是剔除账户长度后更好。

４.　逻辑回归中引入高阶项

　　　如果逻辑回归转换函数在连续变量中不是线性的，让步比的估计和置信区间的应用可能会有问题。原因在与估计的让步比在预测变量取值域上是一个常数。例如，不论是第２３分钟还是第３２３分钟，日使用分钟数每增加１个单位，让步比都是１.０１.这种让步比为常数的假设并不总是成立。

　　　此时，分析人员需要做一些非线性的调整，如使用指示变量（见多分预测变量模型）和高阶项（如：ｘ＾２，ｘ＾３．．）。

　　高阶项的引入可以作为惩罚函数，减少该变量不正常的分布。使用高阶项（和起始变量一起运用）的优势在于，高阶项可以是连续的并且可以提供更严格的估计。

４. 逻辑回归中引入高阶项

一. 数据描述

二 .解读逻辑回归模型

２.１ 两分预测变量模型

２.２ 多分预测变量模型

２.３ 解读连续预测变量模型

３. 多元逻辑回归

４. 逻辑回归中引入高阶项

４.　逻辑回归中引入高阶项

　２.１　两分预测变量模型

２.２　多分预测变量模型

２.３　解读连续预测变量模型

３.　多元逻辑回归

４.　逻辑回归中引入高阶项