对数似然回归(Logistic)对泰坦尼克号幸存者分类
Logistic Regression 即为对数似然回归,它可以看做是一个最简单的人工神经网络。它是通过对数据进行拟合,从而选择一条线(超平面)将数据集分成两个部分,从而实现分类。
文章目录
- 对数似然回归(Logistic)对泰坦尼克号幸存者分类
- 一、对数似然回归理论知识
-
- 1. 定义超平面 (Hyper-Plane)
- 2. 激活函数 (Active Function)
- 3. 损失函数(Loss Function)
- 4. 梯度下降 (Gradient Descent)
- 5. 计算步骤
- 二、数据(泰坦尼克号幸存者数据集)
-
- 1. 数据特征说明
- 2. 导入数据
- 3. 可视化
- 参考文献
一、对数似然回归理论知识
Logistic 回归的核心为下图所示,我们的目标是找到最优的w和b, w和b可以表示一条直线(超平面)用来将数据集划分为不同的部分。
1. 定义超平面 (Hyper-Plane)
我们要找到一条线(超平面)来讲数据集划分成两个部分,对超平面的定义如下(其中w0和b等价):
2. 激活函数 (Active Function)
对于分类问题,就是要分类出数据所在的类别。对于一个二分类问题,我们要引入一个二值化的分类输出函数。对于输入的数据它只能是0或者1。接下来会介绍两种激活函数:Sigmod 和 Tanh 他们的图像如下(蓝色为Sigmode,红色为Tanh)。
- 对于sigmod, 当我们输入一个值时,若带入sigmod函数>=0.5 我们则认为它为1,反之则为0。
- 对于tanh, 当我们输入一个值时,若带入tanh函数>=0 我们则认为它为1,反之则为0。
import numpy as np
# 激活函数# sigmoddef sigmod(x):return np.array(1.0/(1.0 + np.exp(-x)))# tanhdef tanh(x):return (np.exp(x) - np.exp(-x))/(np.exp(x) + np.exp(-x))
3. 损失函数(Loss Function)
由于要得到最优的超平面参数,我们需要定义一个损失函数,用来进行迭代,使得损失函数的值最小,获得最优的参数。损失函数的定义如下:
其中y为预测值,y_hat 为实际值,y中包含w和b参数 。
4. 梯度下降 (Gradient Descent)
沿着梯度的方向进行迭代是最快收敛的。在这里进行反向传播更新w和b 图中的alpha表示学习率
5. 计算步骤
根据以上所述,可以得到整个计算步骤(需要指定迭代的次数):
梯度下降求参数代码如下:
# 梯度下降求解def GD(input_data_x, input_data_y, alpha = 0.001, itera = 1000):[n, m] = input_data_x.shape# 初始化w,bw = np.ones((n, 1))b = np.ones(1)for i in range(itera):z = np.dot(w.T, input_data_x) + ba = sigmod(z)# errordz = a - input_data_y# print(w, b)# 更新 w 和 bb -= alpha * (np.sum(dz))/mw -= alpha * np.dot(input_data_x, dz.T)/m# print(w, b)return w, bw, b = GD(train_data.T, train_label.T)
对测试数据集测试:
def test(test_data, test_label, w, b):sigmod_result = sigmod(np.dot(w.T, test_data) + b)result = []# 判断分类for sr in sigmod_result[0]:if sr >= 0.5: result.append(1)else:result.append(0)error = 0for i in range(len(result)):if result[i] != test_label[0][i]:error += 1print(error/len(result))test(test_data.T, test_label.T, w, b)
本文实现的Logistic 回归对泰坦尼克号幸存者分类的错误率有0.23979591836734693
二、数据(泰坦尼克号幸存者数据集)
本文的数据集来自Kaggle/titanic
1. 数据特征说明
- age 乘客年龄
- fare 船票票价
- sex 性别
- pclass 社会经济地位 1(上层) 2(中层) 3(底层)
- survived 是否幸存 1(幸存) 0(死亡)
根据 乘客年龄, 票价, 性别, 社会经济地位等对幸存者进行分类。
2. 导入数据
我们需要对导入的数据进行划分,划分成两个部分训练集和测试集 训练集占总数据集的70%,其余为测试集。
import pandas as pd def load_csv_data():csv_file = pd.read_csv(r'F:\UCAS\Work\Course\2020\ML\ML-Learning\ML_action\4.LogicRegression\data\titanic\train_and_test2.csv')data_set = np.array(csv_file)# 分类 最后一行为是否幸存survived = data_set[:, [-1]]survived = survived.astype(np.int)# 特征 其中第1, 2, 3, 21列 分别为 年龄, 船票, 性别, 社会经济地位# input_data = data_set[:, [1,2,3,21]]input_data = data_set[:, [1,2]]return input_data, survived
数据划分
# 导入数据
input_data, label = load_csv_data()# ninput_data = normlize(input_data)
# print(input_data, label)
# 划分数据
m, n = input_data.shape
train_size = int(m*0.7)
# 训练集
train_data = input_data[0:train_size, :]
train_label = label[0:train_size]
# 测试集
test_data = input_data[train_size:-1, :]
test_label = label[train_size:-1]
3. 可视化
下图为使用Logisitic 进行划分后的可视化图像 其中红色表示死亡,绿色表示存活。 横轴代表年龄,纵轴代表船票价格。 大致可以得出年龄小,票价高的人存活率更高。还可以对性别或者其他的特征进行处理,这里不再赘述。
from matplotlib import pyplot as pltcolors = ['green' for x in range(0, train_size)]
for i in range(len(colors)):if train_label[i] == 0:colors[i] = 'red'
x = np.linspace(0, 88)
y = -(w[0]*x + b)/w[1]
plt.plot(x, y, color='blue')plt.scatter(train_data[:, 0], train_data[:, 1], color = colors)
plt.show()
参考文献
- Andrew Ng 深度学习课程
- 机器学习实战书籍
- 国科大机器学习2020课程PPT
- https://apachecn.gitee.io/ailearning/#/docs/ml/5