当前位置: 代码迷 >> 综合 >> 浙江大学《机器学习》 支持向量机SVM(一)
  详细解决方案

浙江大学《机器学习》 支持向量机SVM(一)

热度:98   发布时间:2024-02-25 14:00:22.0

线性可分定义

  • 线性:二维中的直线,三维中的平面……
  • 二分类问题{线性可分线性不可分二分类问题\left\{ \begin{aligned} &线性可分& \\ &线性不可分& \\ \end{aligned} \right. { ?线线??

问题描述

  • 支持向量机算法
    1.解决线性可分问题
    2.结论推广到线性不可分的情况

  • Q:如果一个数据集线性可分的,那么存在无限多个超平面可以对数据进行二分类,那么 哪一个超平面最好呢?

    在这里插入图片描述
    A:基于最优化理论,选取使间隔最大的超平面 在这里插入图片描述
    注意 SVM寻找的最优分类直线应满足:
    1.该直线分开了两类
    2.该直线最大化间隔(margin)
    3.该直线处于间隔的中间,到所有SVM的距离相等(确保唯一性)

优化问题

  • 调节系数倍数使得支持SVM处的∣wTxi+b∣=1|w^Tx_i+b|=1wTxi?+b=1,此时d=1∣w∣d=\frac{1}{|w|}d=w1?,故 最小化12∣∣w∣∣2\frac{1}{2}{||w||}^221?w2→最小化∣w∣|w|w→最大化ddd

在这里插入图片描述可以看到,这是凸优化问题(CONVEX OPTIMIZATION)中的二次规划问题。

  • 二次规划定义
    1.目标函数(Objective Function)是二次项
    在这里插入图片描述

    2.限制条件是一次项
    在这里插入图片描述
    这样的凸优化问题,要么无解,要么只有唯一最小值。
    凸优化问题只有一个全局最小值,总可以用梯度下降法求解,所以可以视为已经解决的问题。

线性不可分情况

线性不可分情况下不存在wwwbbb满足上面的限制条件
1.适当放松限制条件
在这里插入图片描述

2.增加新的限制
最小化:同时使得 δiδ_iδi?之和尽量小,比例因子CCC平衡两项,由人为设定
在这里插入图片描述

算法的超参数(HYPER PARAMETER): 人为事先设定的参数
{超参数很少的算法模型:SVM超参数很多的算法模型:人工神经网络、卷积神经网络\left\{ \begin{aligned} &超参数很少的算法模型:SVM& \\ &超参数很多的算法模型:人工神经网络、卷积神经网络& \\ \end{aligned} \right. { ?SVM??


在这里插入图片描述

低维到高维的映射

  • 扩大可选函数范围{直接产生更多可选函数eg.人工神经网络、决策树将特征空间由低维映射到高维eg.SVM(在高维空间仍然用线性超平面对数据分类)扩大可选函数范围\left\{ \begin{aligned} &直接产生更多可选函数 eg.人工神经网络、决策树& \\ &将特征空间由低维映射到高维 eg.SVM& \\ &(在高维空间仍然用线性超平面对数据分类)& \\ \end{aligned} \right. ???????eg.eg.SVM线??

  • Q:
    在这里插入图片描述

    A:在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    由人为指定二维到五维的映射?(X)\phi(X)?(X)后,可以将数据集分为≥0≥00<0<0<0两类

  • 定理
    假设:
    1.在一个M维空间上随机取N个训练样本,随机的对每个训练样本赋予标签+1或-1
    2.这些训练样本线性可分的概率为P(M)P(M)P(M)
    结论:
    M→∞M→∞M时,P(M)=1P(M)=1P(M)=1

这个定理说明,将训练样本由低维映射到高维,可以增加线性可分的概率。

  • 高维空间的SVM优化问题
    在这里插入图片描述XiX_iXi??(Xi)\phi(X_i)?(Xi?)
    www维度与XiX_iXi?维度相同→www维度与?(Xi)\phi(X_i)?(Xi?)维度相同。

核函数的定义

在这里插入图片描述不用具体知道?(Xi)\phi(X_i)?(Xi?)的值,只需知道K(X1,X2)K(X_1,X_2)K(X1?,X2?)(一个数值),就能够求解出结果。

  • 已知映射?\phi?求核函数KKK
    在这里插入图片描述

  • 已知核函数KKK求映射?\phi?
    在这里插入图片描述
    在这里插入图片描述

  • 核函数KKK和映射?\phi?是一一对应的关系
    Mercer定理:
    在这里插入图片描述
    →这个定理可以用于证明高斯核函数
    在这里插入图片描述

原问题(PRIME PROBLEM)和对偶问题(DUAL PROBLEM)

  • 定义

    Step.1原函数
    假设有K个不等式,m个等式
    在这里插入图片描述
    Step.2定义函数L(w,α,β)L(w,\alpha,\beta)L(w,α,β)
    在这里插入图片描述
    Step.3对偶函数

    L(w,α,β)L(w,\alpha,\beta)L(w,α,β)遍历所有定义域上的www,找到使L(w,α,β)L(w,\alpha,\beta)L(w,α,β)最小的,同时将这个最小的函数值赋值给θ(α,β)\theta(\alpha,\beta)θ(α,β) 在这里插入图片描述

  • 定理
    1.定理一:对偶定理(DUALITY THEOREM)在这里插入图片描述证明:
    在这里插入图片描述

引申:对偶差距(DUALITY GAP)
在这里插入图片描述
KKT条件
在这里插入图片描述

2.定理二:强对偶定理(STRONG DUALITY THEOREM)
在这里插入图片描述

  相关解决方案