一、分类问题
定义:在监督学习中,当输出变量Y去有限个离散值时,预测问题便成为分类问题。这是,输入变量X可以是离散的,也可以是连续的。
分类器(classifier):监督学习从数据中学习一个分类模型或分类决策函数
分类(classification):分类器对新的输入进行输出的预测
类(class):可能的输出。分类的类别为两个时,为二类分类问题,多个时,为多类分类问题
分类问题过程:图中 ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) (x_1,y_1),(x_2,y_2),...,(x_N,y_N) (x1?,y1?),(x2?,y2?),...,(xN?,yN?)是训练数据集,学习系统由训练数据学习一个分类器 P ( Y ∣ X ) P(Y|X) P(Y∣X)或 Y = f ( X ) Y=f(X) Y=f(X);分类系统通过学到的分类器,对新的输入实例 x N + 1 x_{N+1} xN+1?进行分类,即预测其输出的类标记为 y N + 1 y_{N+1} yN+1?。
评价分类性能的指标:分类精确率(accuracy),即对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是损失函数是0-1损失时测试数据集上的准确率。
二类分类问题常用评价指标:精确率(precision)与召回率(recall)。
用于分类的统计学习方法:k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯蒂回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、winnow等。
二、 标注问题
定义:标注问题是分类问题的一个推广,又是更复杂的结构预测问题(structure prediction)的简单形式。
形式:标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。
目标:学习一个模型,使它能够对观测序列给出的标记序列作为预测。注意,可能的标注个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数增长的。
过程:分为学习和标注两个过程。首先给定一个训练数据集
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} T={
(x1?,y1?),(x2?,y2?),...,(xN?,yN?)}
这里, x i = ( x i ( 1 ) , x i ( 2 ) , . . . , x i ( n ) ) T , i = 1 , 2 , . . . , N x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T,i=1, 2,...,N xi?=(xi(1)?,xi(2)?,...,xi(n)?)T,i=1,2,...,N,是输入观测序列, y i = ( y i ( 1 ) , y i ( 2 ) , . . . , y i ( n ) ) T y_i=(y_i^{(1)},y_i^{(2)},...,y_i^{(n)})^T yi?=(yi(1)?,yi(2)?,...,yi(n)?)T是相应的输出标记序列,n是序列的长度,对不同样本可以有不同的值。学习系统基于训练数据集健一个模型,表示为条件概率分布:
P ( Y ( 1 ) , Y ( 2 ) , . . . , Y ( n ) ∣ X ( 1 ) , X ( 2 ) , . . . , X ( n ) ) P(Y^{(1)},Y^{(2)},...,Y^{(n)}|X^{(1)},X^{(2)},...,X^{(n)}) P(Y(1),Y(2),...,Y(n)∣X(1),X(2),...,X(n))
这里,每一个 X ( i ) ( i = 1 , 2 , . . . , n ) X^{(i)}(i=1,2,...,n) X(i)(i=1,2,...,n)取值为所有可能的观测,每一个 Y ( i ) ( i = 1 , 2 , . . . , n ) Y^{(i)}(i=1,2,...,n) Y(i)(i=1,2,...,n)取值为所有可能的标记,一般 n < < N n<<N n<<N。标注系统按照学习得到的条件概率分布模型,对新的输入观测序列找到相应的输出标记序列。具体地,对一个观测序列 x N + 1 = ( x N + 1 ( 1 ) , x N + 1 ( 2 ) , . . . , x N + 1 ( n ) ) T x_{N+1}=(x_{N+1}^{(1)},x_{N+1}^{(2)},...,x_{N+1}^{(n)})^T xN+1?=(xN+1(1)?,xN+1(2)?,...,xN+1(n)?)T找到使条件概率 P ( ( y N + 1 ( 1 ) , y N + 1 ( 2 ) , . . . , y N + 1 ( n ) ) T ∣ ( x N + 1 ( 1 ) , x N + 1 ( 2 ) , . . . , x N + 1 ( n ) ) ) T P((y_{N+1}^{(1)},y_{N+1}^{(2)},...,y_{N+1}^{(n)})^T|(x_{N+1}^{(1)},x_{N+1}^{(2)},...,x_{N+1}^{(n)}))^T P((yN+1(1)?,yN+1(2)?,...,yN+1(n)?)T∣(xN+1(1)?,xN+1(2)?,...,xN+1(n)?))T最大的标记序列 y N + 1 = ( y N + 1 ( 1 ) , y N + 1 ( 2 ) , . . . , y N + 1 ( n ) ) T y_{N+1}=(y_{N+1}^{(1)},y_{N+1}^{(2)},...,y_{N+1}^{(n)})^T yN+1?=(yN+1(1)?,yN+1(2)?,...,yN+1(n)?)T
评价指标:标注准确率、精确率和召回率
标注的统计学习方法:隐马尔科夫模型、条件随机场
三、 回归问题
作用:回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。
回归模型:表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:学则一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。
过程:分为学习和预测。首先给定一个训练数据集:
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} T={
(x1?,y1?),(x2?,y2?),...,(xN?,yN?)}
这里, x i ∈ R n x_i \in R^n xi?∈Rn是输入, y ∈ R y\in R y∈R是对应的输出, i = 1 , 2 , . . . , N i=1,2,...,N i=1,2,...,N。学习系统基于训练数据构建一个模型,即函数 Y = f ( X ) Y=f(X) Y=f(X);对新的输入 x N + 1 x_{N+1} xN+1?,预测系统根据学习的模型 Y = f ( X ) Y=f(X) Y=f(X)确定相应的输出 y N + 1 y_{N+1} yN+1?。
分类:
- 按照输入变量的个数,分为一元回归和多元回归
- 按照输入变量和输出变量之间关系的类型及模型的类型,分为线性回归和非线性回归。
评价指标:平方损失函数,在此情况下,回归问题可以由著名的最小二乘法(least squares)求解