当前位置: 代码迷 >> 综合 >> 机器学习分类、标注、回归问题|15mins 入门 | 《统计学习方法》学习笔记(八)
  详细解决方案

机器学习分类、标注、回归问题|15mins 入门 | 《统计学习方法》学习笔记(八)

热度:51   发布时间:2023-12-21 14:18:07.0

一、分类问题

定义:在监督学习中,当输出变量Y去有限个离散值时,预测问题便成为分类问题。这是,输入变量X可以是离散的,也可以是连续的。

分类器(classifier):监督学习从数据中学习一个分类模型或分类决策函数

分类(classification):分类器对新的输入进行输出的预测

类(class):可能的输出。分类的类别为两个时,为二类分类问题,多个时,为多类分类问题

分类问题过程:图中 ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) (x_1,y_1),(x_2,y_2),...,(x_N,y_N) (x1?,y1?),(x2?,y2?),...,(xN?,yN?)是训练数据集,学习系统由训练数据学习一个分类器 P ( Y ∣ X ) P(Y|X) P(YX) Y = f ( X ) Y=f(X) Y=f(X);分类系统通过学到的分类器,对新的输入实例 x N + 1 x_{N+1} xN+1?进行分类,即预测其输出的类标记为 y N + 1 y_{N+1} yN+1?

在这里插入图片描述

评价分类性能的指标:分类精确率(accuracy),即对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是损失函数是0-1损失时测试数据集上的准确率。

二类分类问题常用评价指标:精确率(precision)与召回率(recall)。

用于分类的统计学习方法:k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯蒂回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、winnow等。

二、 标注问题

定义:标注问题是分类问题的一个推广,又是更复杂的结构预测问题(structure prediction)的简单形式。

形式:标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。

目标:学习一个模型,使它能够对观测序列给出的标记序列作为预测。注意,可能的标注个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数增长的。

过程:分为学习和标注两个过程。首先给定一个训练数据集
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} T={ (x1?,y1?),(x2?,y2?),...,(xN?,yN?)}
这里, x i = ( x i ( 1 ) , x i ( 2 ) , . . . , x i ( n ) ) T , i = 1 , 2 , . . . , N x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T,i=1, 2,...,N xi?=(xi(1)?,xi(2)?,...,xi(n)?)T,i=1,2,...,N,是输入观测序列, y i = ( y i ( 1 ) , y i ( 2 ) , . . . , y i ( n ) ) T y_i=(y_i^{(1)},y_i^{(2)},...,y_i^{(n)})^T yi?=(yi(1)?,yi(2)?,...,yi(n)?)T是相应的输出标记序列,n是序列的长度,对不同样本可以有不同的值。学习系统基于训练数据集健一个模型,表示为条件概率分布:
P ( Y ( 1 ) , Y ( 2 ) , . . . , Y ( n ) ∣ X ( 1 ) , X ( 2 ) , . . . , X ( n ) ) P(Y^{(1)},Y^{(2)},...,Y^{(n)}|X^{(1)},X^{(2)},...,X^{(n)}) P(Y(1),Y(2),...,Y(n)X(1),X(2),...,X(n))
这里,每一个 X ( i ) ( i = 1 , 2 , . . . , n ) X^{(i)}(i=1,2,...,n) X(i)(i=1,2,...,n)取值为所有可能的观测,每一个 Y ( i ) ( i = 1 , 2 , . . . , n ) Y^{(i)}(i=1,2,...,n) Y(i)(i=1,2,...,n)取值为所有可能的标记,一般 n < < N n<<N n<<N。标注系统按照学习得到的条件概率分布模型,对新的输入观测序列找到相应的输出标记序列。具体地,对一个观测序列 x N + 1 = ( x N + 1 ( 1 ) , x N + 1 ( 2 ) , . . . , x N + 1 ( n ) ) T x_{N+1}=(x_{N+1}^{(1)},x_{N+1}^{(2)},...,x_{N+1}^{(n)})^T xN+1?=(xN+1(1)?,xN+1(2)?,...,xN+1(n)?)T找到使条件概率 P ( ( y N + 1 ( 1 ) , y N + 1 ( 2 ) , . . . , y N + 1 ( n ) ) T ∣ ( x N + 1 ( 1 ) , x N + 1 ( 2 ) , . . . , x N + 1 ( n ) ) ) T P((y_{N+1}^{(1)},y_{N+1}^{(2)},...,y_{N+1}^{(n)})^T|(x_{N+1}^{(1)},x_{N+1}^{(2)},...,x_{N+1}^{(n)}))^T P((yN+1(1)?,yN+1(2)?,...,yN+1(n)?)T(xN+1(1)?,xN+1(2)?,...,xN+1(n)?))T最大的标记序列 y N + 1 = ( y N + 1 ( 1 ) , y N + 1 ( 2 ) , . . . , y N + 1 ( n ) ) T y_{N+1}=(y_{N+1}^{(1)},y_{N+1}^{(2)},...,y_{N+1}^{(n)})^T yN+1?=(yN+1(1)?,yN+1(2)?,...,yN+1(n)?)T

在这里插入图片描述
评价指标:标注准确率、精确率和召回率

标注的统计学习方法:隐马尔科夫模型、条件随机场

三、 回归问题

作用:回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。

回归模型:表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:学则一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。

过程:分为学习和预测。首先给定一个训练数据集:
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} T={ (x1?,y1?),(x2?,y2?),...,(xN?,yN?)}
这里, x i ∈ R n x_i \in R^n xi?Rn是输入, y ∈ R y\in R yR是对应的输出, i = 1 , 2 , . . . , N i=1,2,...,N i=1,2,...,N。学习系统基于训练数据构建一个模型,即函数 Y = f ( X ) Y=f(X) Y=f(X);对新的输入 x N + 1 x_{N+1} xN+1?,预测系统根据学习的模型 Y = f ( X ) Y=f(X) Y=f(X)确定相应的输出 y N + 1 y_{N+1} yN+1?
在这里插入图片描述
分类:

  • 按照输入变量的个数,分为一元回归和多元回归
  • 按照输入变量和输出变量之间关系的类型及模型的类型,分为线性回归和非线性回归。

评价指标:平方损失函数,在此情况下,回归问题可以由著名的最小二乘法(least squares)求解

  相关解决方案