iis新建网站无法浏览门户网站demo下载
- 作者: 多梦笔记
- 时间: 2026年02月17日 01:50
当前位置: 首页 > news >正文
iis新建网站无法浏览,门户网站demo下载,网站怎样做301跳转,网上订单管理系统机器学习周志华学习笔记-第6章支持向量机 卷王#xff0c;请看目录 6支持向量机6.1 函数间隔与几何间隔6.1.1 函数间隔6.1.2 几何间隔 6.2 最大间隔与支持向量6.3 对偶问题6.4 核函数6.5 软间隔支持向量机6.6 支持向量机6.7核方法 6支持向量机
支持向量机是一种经典…机器学习周志华学习笔记-第6章支持向量机 卷王请看目录 6支持向量机6.1 函数间隔与几何间隔6.1.1 函数间隔6.1.2 几何间隔 6.2 最大间隔与支持向量6.3 对偶问题6.4 核函数6.5 软间隔支持向量机6.6 支持向量机6.7核方法 6支持向量机
支持向量机是一种经典的二分类模型是一种监督学习算法。基本模型定义为特征空间中最大间隔的线性分类器其学习的优化目标便是间隔最大化因此支持向量机本身可以转化为一个凸二次规划求解的问题。
6.1 函数间隔与几何间隔
对于二分类学习假设现在的数据是线性可分的这时分类学习最基本的想法就是找到一个合适的超平面该超平面能够将不同类别的样本分开类似二维平面使用 a x b y c 0 axbyc0 axbyc0来表示超平面实际上表示的就是高维的平面如下图所示 对数据点进行划分时易知当超平面距离与它最近的数据点的间隔越大分类的鲁棒性越好即当新的数据点加入时超平面对这些点的适应性最强出错的可能性最小。因此需要让所选择的超平面能够最大化这个间隔Gap如下图所示 常用的间隔定义有两种一种称之为函数间隔一种为几何间隔下面将分别介绍这两种间隔并对SVM为什么会选用几何间隔做了一些阐述。
6.1.1 函数间隔
在超平面 ω ’ x b 0 \omega’xb0 ω’xb0确定的情况下 ∣ ω ’ x ∗ b ∣ |\omega’x^b| ∣ω’x∗b∣能够代表点 x ∗ x^ x∗距离超平面的远近易知当 ω ’ x ∗ b 0 \omega’x^b0 ω’x∗b0时表示 x ∗ x^ x∗在超平面的一侧正类类标为1而当 ω ’ x ∗ b 0 \omega’x^b0 ω’x∗b0时则表示 x ∗ x^ x∗在超平面的另外一侧负类类别为-1。因此 ω ’ x ∗ b y ∗ \omega’x^by^ ω’x∗by∗的正负性恰能表示数据点 x ∗ x^* x∗是否被分类正确。于是便引出了函数间隔的定义functional margin γ ^ y ( ω T x b ) y f ( x ) \hat{\gamma}y\left(\omega^{T} xb\right)y f(x) γ^y(ωTxb)yf(x) 而超平面 ω , b \omega,b ω,b关于所有样本点 X i Y i X_iYi XiYi的函数间隔最小值则为超平面在训练数据集T上的函数间隔 γ ^ min γ ^ i , ( i 1 , … , n ) \hat{\gamma}\min \hat{\gamma}{i},(i1, \ldots, n) γ^minγ^i,(i1,…,n) 可以看出这样定义的函数间隔在处理SVM上会有问题当超平面的两个参数 ω \omega ω和 b b b同比例改变时函数间隔也会跟着改变但是实际上超平面还是原来的超平面并没有变化。例如 ω 1 x 1 ω 2 x 2 ω 3 x 3 b 0 \omega_1x_1\omega_2x_2\omega_3x_3b0 ω1x1ω2x2ω3x3b0其实等价于 2 ω 1 x 1 2 ω 2 x 2 2 ω 3 x 3 2 b 0 2\omega_1x_12\omega_2x_22\omega_3x32b0 2ω1x12ω2x22ω3x32b0但计算的函数间隔却翻了一倍。从而引出了能真正度量点到超平面距离的概念–几何间隔geometrical margin。
6.1.2 几何间隔
几何间隔代表的则是数据点到超平面的真实距离对于超平面 ω ’ x b 0 \omega’xb0 ω’xb0 ω \omega ω代表的是该超平面的法向量设 x ∗ x^* x∗为超平面外一点 x x x在法向量 ω \omega ω方向上的投影点 x x x与超平面的距离为 γ \gamma γ则有 x ∗ x − γ ( ω / ∣ ∣ ω ∣ ∣ ) x^x-\gamma(\omega/||\omega||) x∗x−γ(ω/∣∣ω∣∣)又 x ∗ x^ x∗在超平面上即 ω ’ x ∗ b 0 \omega’x^*b0 ω’x∗b0代入即可得 γ ω T x b ∥ ω ∥ f ( x ) ∥ ω ∥ \gamma\frac{\omega^{T} xb}{|\omega|}\frac{f(x)}{|\omega|} γ∥ω∥ωTxb∥ω∥f(x) 为了得到 γ \gamma γ的绝对值令 γ \gamma γ乘上其对应的类别 y y y即可得到几何间隔的定义 γ ~ y γ γ ^ ∥ ω ∥ \tilde{\gamma}y \gamma\frac{\hat{\gamma}}{|\omega|} γ~yγ∥ω∥γ^ 从上述函数间隔与几何间隔的定义可以看出实质上函数间隔就是 ∣ ω ’ x b ∣ |\omega’xb| ∣ω’xb∣而几何间隔就是点到超平面的距离。
6.2 最大间隔与支持向量
通过前面的分析可知函数间隔不适合用来最大化间隔因此这里我们要找的最大间隔指的是几何间隔于是最大间隔分类器的目标函数定义为 max γ ~ y i ( ω T x i b ) γ ^ i ≥ γ ^ , i 1 , … , n \begin{array}{l} \max \tilde{\gamma} \ y{i}\left(\omega^{T} x{i}b\right)\hat{\gamma}{i} \geq \hat{\gamma}, \quad i1, \ldots, n \end{array} maxγ~yi(ωTxib)γ^i≥γ^,i1,…,n 一般地我们令 γ ^ \hat{\gamma} γ^为1这样做的目的是为了方便推导和目标函数的优化从而上述目标函数转化为 max 1 ∥ ω ∥ , s.t. y i ( ω T x i b ) ≥ 1 , i 1 , … , n \max \frac{1}{|\omega|}, \quad \text { s.t. } \quad y{i}\left(\omega^{T} x{i}b\right) \geq 1, i1, \ldots, n max∥ω∥1, s.t. yi(ωTxib)≥1,i1,…,n 对于 y ( ω ’ x b ) 1 y(\omega’xb)1 y(ω’xb)1的数据点即右图中位于 ω ’ x b 1 \omega’xb1 ω’xb1或 ω ’ x b − 1 \omega’xb-1 ω’xb−1上的数据点我们称之为支持向量support vector易知对于所有的支持向量它们恰好满足 y ∗ ( ω ’ x ∗ b ) 1 y^*(\omega’x^b)1 y∗(ω’x∗b)1而所有不是支持向量的点有 y ∗ ( ω ’ x ∗ b ) 1 y^(\omega’x^b)1 y∗(ω’x∗b)1
6.3 对偶问题
对于上述得到的目标函数求 1 / ∣ ∣ ω ∣ ∣ 1/||\omega|| 1/∣∣ω∣∣的最大值相当于求 ∣ ∣ ω ∣ ∣ 2 ||\omega||^2 ∣∣ω∣∣2的最小值因此很容易将原来的目标函数转化为 min 1 2 ∥ ω ∥ 2 , s.t. y i ( ω T x i b ) ≥ 1 , i 1 , … . , n \min \frac{1}{2}|\omega|^{2}, \quad \text { s.t. } \quad y{i}\left(\omega^{T} x{i}b\right) \geq 1, i1, \ldots ., n min21∥ω∥2, s.t. yi(ωTxib)≥1,i1,….,n 即变为了一个带约束的凸二次规划问题按书上所说可以使用现成的优化计算包QP优化包求解但由于SVM的特殊性一般我们将原问题变换为它的对偶问题接着再对其对偶问题进行求解。为什么通过对偶问题进行求解有下面两个原因
一是因为使用对偶问题更容易求解二是因为通过对偶问题求解出现了向量内积的形式从而能更加自然地引出核函数。
对偶问题顾名思义可以理解成优化等价的问题更一般地是将一个原始目标函数的最小化转化为它的对偶函数最大化的问题。对于当前的优化问题首先我们写出它的朗格朗日函数 上式很容易验证当其中有一个约束条件不满足时L的最大值为 ∞只需令其对应的 α \alpha α为 ∞即可当所有约束条件都满足时L的最大值为 1 / 2 ∣ ∣ ω ∣ ∣ 2 1⁄2||\omega||^2 1/2∣∣ω∣∣2此时令所有的 α \alpha α为0因此实际上原问题等价于 min ω , b θ ( ω ) min ω , b max α i ≥ 0 L ( ω , b , α ) p ∗ \min _{\omega, b} \theta(\omega)\min _{\omega, b} \max {\alpha{i} \geq 0} L(\omega, b, \alpha)p^{} ω,bminθ(ω)ω,bminαi≥0maxL(ω,b,α)p∗ 由于这个的求解问题不好做, 因此一般我们将最小和最大的位置交换一下(需满足 KKT 条件),变成原问题的对偶问题: max α i ≥ 0 min ω , b L ( ω , b , α ) d ∗ \max {\alpha{i} \geq 0} \min {\omega, b} L(\omega, b, \alpha)d^{*} αi≥0maxω,bminL(ω,b,α)d∗
这样就将原问题的求最小变成了对偶问题求最大 (用对偶这个词还是很形象), 接下来便可先求 L 对 ω \omega ω 和 b b b 的极小, 再求 L 对 α \alpha α 的极大。
首先求 L 对 ω \omega ω 和 b b b 的极小, 分别求 L 关于 ω \omega ω 和 b b b 的偏导, 可以得出: ∂ L ∂ ω 0 ⇒ ω ∑ i 1 n α i y i x i ∂ L ∂ b 0 ⇒ ∑ i 1 n α i y i 0 \begin{array}{l} \frac{\partial L}{\partial \omega}0 \Rightarrow \omega\sum{i1}^{n} \alpha{i} y{i} x{i} \ \ \frac{\partial L}{\partial b}0 \Rightarrow \sum{i1}^{n} \alpha{i} y{i}0 \end{array} ∂ω∂L0⇒ω∑i1nαiyixi∂b∂L0⇒∑i1nαiyi0 将上述结果代入 L 得到: L ( ω , b , α ) 1 2 ∑ i , j 1 n α i α j y i y j x i T x j − ∑ i , j 1 n α i α j y i y j x i T x j − b ∑ i 1 n α i y i ∑ i 1 n α i ∑ i 1 n α i − 1 2 ∑ i , j 1 n α i α j y i y j x i T x j → 现在只包含 α \begin{aligned} L(\omega, b, \alpha) \frac{1}{2} \sum{i, j1}^{n} \alpha{i} \alpha{j} y{i} y{j} x{i}^{T} x{j}-\sum{i, j1}^{n} \alpha{i} \alpha{j} y{i} y{j} x{i}^{T} x{j}-b \sum{i1}^{n} \alpha{i} y{i}\sum{i1}^{n} \alpha{i} \ \sum{i1}^{n} \alpha{i}-\frac{1}{2} \sum{i, j1}^{n} \alpha{i} \alpha{j} y{i} y{j} x{i}^{T} x{j} \rightarrow \text { 现在只包含 } \alpha \end{aligned} L(ω,b,α)21i,j1∑nαiαjyiyjxiTxj−i,j1∑nαiαjyiyjxiTxj−bi1∑nαiyii1∑nαii1∑nαi−21i,j1∑nαiαjyiyjxiTxj→ 现在只包含 α 接着 L 关于 α \alpha α 极大求解 α \alpha α 通过 SMO 算法求解此处不做深入。 max α ∑ i 1 n α i − 1 2 ∑ i , j 1 n α i α j y i y j x i T x j s.t. α i ≥ 0 , i 1 , … , n ∑ i 1 n α i y i 0 \begin{aligned} \max {\alpha} \sum{i1}^{n} \alpha{i}-\frac{1}{2} \sum{i, j1}^{n} \alpha{i} \alpha{j} y{i} y{j} x{i}^{T} x{j} \ \text { s.t. } \alpha{i} \geq 0, i1, \ldots, n \ \sum{i1}^{n} \alpha{i} y{i}0 \end{aligned} αmax s.t. i1∑nαi−21i,j1∑nαiαjyiyjxiTxjαi≥0,i1,…,ni1∑nαiyi0 最后便可以根据求解出的 , 计算出 ω \omega ω 和 b b b , 从而得到分类超平面函数。 ω ∗ ∑ i 1 n α i y i x i b ∗ − max i : y i − 1 ω ∗ T x i min i : y i 1 ω ∗ T x i 2 \begin{aligned} \omega^{} \sum{i1}^{n} \alpha{i} y{i} x{i} \ b^{} -\frac{\max {i: y{i}-1} \omega^{* T} x_{i}\min {i: y{i}1} \omega^{* T} x{i}}{2} \end{aligned} ω∗b∗i1∑nαiyixi−2maxi:yi−1ω∗Tximini:yi1ω∗Txi 在对新的点进行预测时, 实际上就是将数据点 x ∗ x^* x∗ 代入分类函数 f ( x ) ω ′ x b f(x)\omega^{\prime} xb f(x)ω′xb 中, 若 f ( x ) 0 f(x)0 f(x)0 ,则为正类, f ( x ) 0 f(x)0 f(x)0 , 则为负类, 根据前面推导得出的 ω \omega ω 与 b b b , 分类函数如下所示, 此时便出现了上面所提到的内积形式。 f ( x ) ( ∑ i 1 n α i y i x i ) T x b ∑ i 1 n α i y i ⟨ x i , x ⟩ b \begin{aligned} f(x) \left(\sum{i1}^{n} \alpha{i} y{i} x{i}\right)^{T} xb \ \sum{i1}^{n} \alpha{i} y{i}\left\langle x{i}, x\right\rangleb \end{aligned} f(x)(i1∑nαiyixi)Txbi1∑nαiyi⟨xi,x⟩b
这里实际上只需计算新样本与支持向量的内积, 因为对于非支持向量的数据点, 其对应的拉格朗日乘子一定为 0 , 根据最优化理论 K-T 条件对于不等式约束 y ( ω ′ x b ) − 1 ⩾ 0 \mathrm{y}\left(\mathrm{\omega}^{\prime} \mathrm{x}\mathrm{b}\right)-1 \geqslant 0 y(ω′xb)−1⩾0 满足 ∂ i ( y i ( ω T x i b ) − 1 ) 0 ⇒ 即总有一个为 0 \partial{i}\left(\mathrm{y}{i}\left(\omega^{T} \mathrm{x}{i}\mathrm{b}\right)-1\right)0 \Rightarrow \text { 即总有一个为 } 0 ∂i(yi(ωTxib)−1)0⇒ 即总有一个为 0
6.4 核函数
由于上述的超平面只能解决线性可分的问题, 对于线性不可分的问题, 例如: 异或问题, 我们需要使用核函数将其进行推广。一般地, 解决线性不可分问题时, 常常采用咉射的方式, 将低维原始空间映射到高维特征空间, 使得数据集在高维空间中变得线性可分, 从而再使用线性学习器分类。如果原始空间为有限维, 即属性数有限, 那么总是存在一个高维特征空间使得样本线性可分。若 ∅ \varnothing ∅ 代表一个映射, 则在特征空间中的划分函数变为: f ( x ) ω T ϕ ( x ) b f(\boldsymbol{x})\boldsymbol{\omega}^{\mathrm{T}} \phi(\boldsymbol{x})b f(x)ωTϕ(x)b
按照同样的方法, 先写出新目标函数的拉格朗日函数, 接着写出其对偶问题, 求 L 关于 ω \omega ω 和 b的极大, 最后运用 SOM 求解 α \alpha α 。可以得出: (1) 原对偶问题变为: max α ∑ i 1 n α i − 1 2 ∑ i , j 1 n α i α j y i y j ⟨ ϕ ( x i ) , ϕ ( x j ) ⟩ s.t. α i ≥ 0 , i 1 , … , n ∑ i 1 n α i y i 0 \begin{aligned} \max {\alpha} \sum{i1}^{n} \alpha{i}-\frac{1}{2} \sum{i, j1}^{n} \alpha{i} \alpha{j} y{i} y{j} \left\langle\phi\left(x{i}\right), \phi\left(x{j}\right)\right\rangle \ \text { s.t. } \alpha{i} \geq 0, i1, \ldots, n \ \sum{i1}^{n} \alpha{i} y{i}0 \end{aligned} αmax s.t. i1∑nαi−21i,j1∑nαiαjyiyj⟨ϕ(xi),ϕ(xj)⟩αi≥0,i1,…,ni1∑nαiyi0 等价于 (2) 原分类函数变为 f ( x ) ∑ i n α i y i ⟨ ϕ ( x i ) , ϕ ( x ) ⟩ b \begin{aligned} f(x)\sum{i}^{n} \alpha{i}y{i} \left\langle\phi\left(x{i}\right), \phi\left(x\right)\right\rangle b \end{aligned} f(x)i∑nαiyi⟨ϕ(xi),ϕ(x)⟩b 等价于
求解的过程中只涉及到了高维特征空间中的内积运算由于特征空间的维数可能会非常大例如若原始空间为二维映射后的特征空间为5维若原始空间为三维映射后的特征空间将是19维之后甚至可能出现无穷维根本无法进行内积运算了此时便引出了核函数Kernel的概念。 因此核函数可以直接计算隐式映射到高维特征空间后的向量内积而不需要显式地写出映射后的结果它虽然完成了将特征从低维到高维的转换但最终却是在低维空间中完成向量内积计算与高维特征空间中的计算等效低维计算高维表现从而避免了直接在高维空间无法计算的问题。引入核函数后原来的对偶问题与分类函数则变为 (1) 对偶问题: max α ∑ i 1 n α i − 1 2 ∑ i , j 1 n α i α j y i y j K ( x i , x j ) s.t. α i ≥ 0 , i 1 , … , n ∑ i 1 n α i y i 0 \begin{array}{ll} \max {\alpha} \sum{i1}^{n} \alpha{i}-\frac{1}{2} \sum{i, j1}^{n} \alpha{i} \alpha{j} y{i} y{j} \red{K\left(x{i}, x{j}\right) }\ \text { s.t. } \alpha{i} \geq 0, i1, \ldots, n \ \sum{i1}^{n} \alpha{i} y{i}0 \end{array} maxα s.t. ∑i1nαi−21∑i,j1nαiαjyiyjK(xi,xj)αi≥0,i1,…,n∑i1nαiyi0
(2) 分类函数: f ( x ) ∑ i 1 n α i y i K ( x i , x ) b f(x)\sum{i1}^{n} \alpha{i} y{i} \red{K\left(x{i}, x\right)}b f(x)i1∑nαiyiK(xi,x)b 因此在线性不可分问题中核函数的选择成了支持向量机的最大变数若选择了不合适的核函数则意味着将样本映射到了一个不合适的特征空间则极可能导致性能不佳。同时核函数需要满足以下这个必要条件 由于核函数的构造十分困难通常我们都是从一些常用的核函数中选择下面列出了几种常用的核函数
6.5 软间隔支持向量机
前面的讨论中我们主要解决了两个问题当数据线性可分时直接使用最大间隔的超平面划分当数据线性不可分时则通过核函数将数据映射到高维特征空间使之线性可分。然而在现实问题中对于某些情形还是很难处理例如数据中有噪声的情形噪声数据outlier本身就偏离了正常位置但是在前面的SVM模型中我们要求所有的样本数据都必须满足约束如果不要这些噪声数据还好当加入这些outlier后导致划分超平面被挤歪了如下图所示对支持向量机的泛化性能造成很大的影响。
为了解决这一问题我们需要允许某一些数据点不满足约束即可以在一定程度上偏移超平面同时使得不满足约束的数据点尽可能少这便引出了“软间隔”支持向量机的概念
允许某些数据点不满足约束 y ( ω ′ x b ) ≥ 1 y(\omegaxb)≥1 y(ω′xb)≥1同时又使得不满足约束的样本尽可能少。 这样优化目标变为 如同阶跃函数0/1损失函数虽然表示效果最好但是数学性质不佳。因此常用其它函数作为“替代损失函数”。 图像如下所示 支持向量机中的损失函数为hinge损失引入“松弛变量”目标函数与约束条件可以写为 书中描述如下
其中C为一个参数控制着目标函数与新引入正则项之间的权重这样显然每个样本数据都有一个对应的松弛变量用以表示该样本不满足约束的程度将新的目标函数转化为拉格朗日函数得到 按照与之前相同的方法先让L求关于 ω b \omegab ωb以及松弛变量的极小再使用SMO求出 α \alpha α有 将 ω \omega ω代入 L L L化简便得到其对偶问题 将“软间隔”下产生的对偶问题与原对偶问题对比可以发现新的对偶问题只是约束条件中的 α \alpha α多出了一个上限C其它的完全相同因此在引入核函数处理线性不可分问题时便能使用与“硬间隔”支持向量机完全相同的方法。
6.6 支持向量机
对样本 ( x , y ) (\boldsymbol{x}, y) (x,y) , 传统回归模型通常直接基于模型输出 \(f(\boldsymbol{x}) \) 与真实输出 \(y \) 之间的差别来计算损失, 当且仅当 f ( x ) f(\boldsymbol{x}) f(x) 与 y y y 完全相同时, 损失才为零. 与此不同,支持向量回归(Support Vector Regression, 简称 SVR) 假设我们能容忍 f ( x ) f(\boldsymbol{x}) f(x) 与 y y y之间最多有 ϵ \epsilon ϵ的偏差, 即仅当 f ( x ) f(\boldsymbol{x}) f(x) 与 y y y 之间的差别绝对值大于 ϵ \epsilon ϵ 时才计算损失. 如下图所示, 这相当于以 f ( x ) f(x) f(x) 为中心, 构建了一个宽度为 2 ϵ \epsilon ϵ 的间隔带, 若训练样本落入此间隔带, 则认为是被预测正确的。 与之前类似根据拉格朗日与对偶问题的最终转换可得
6.7核方法 表示定理对损失函数没有限制对正则化项Ω仅要求单调递增甚至不要求几是凸函数意味着对于一般的损失函数和正则化项优化问题(6.57)的最优解 h ∗ ( x ) h*(x) h∗(x)都可表示为核函数 κ ( x x i ) κ(xx_i) κ(xxi)的线性组合这显示出核函数的巨大威力。人们发展出一系列基于核函数的学习方法统称为“核方法”(内核 方法)。最常见的是通过“核化”(即引入核函数)来将线性学习器拓展为非线性学习器。
相关文章
-
iis为网站子目录绑定二级域名全国公路建设市场信用信息管理系统网站
iis为网站子目录绑定二级域名全国公路建设市场信用信息管理系统网站
- 站长
- 2026年02月17日
-
iis网站管理助手手机如何开发软件程序
iis网站管理助手手机如何开发软件程序
- 站长
- 2026年02月17日
-
iis网站管理助手圣诞节网页设计模板图片
iis网站管理助手圣诞节网页设计模板图片
- 站长
- 2026年02月17日
-
iis怎么搭建asp网站2017做那些网站致富
iis怎么搭建asp网站2017做那些网站致富
- 站长
- 2026年02月17日
-
iis做的网站如何添加播放器在线域名ip查询
iis做的网站如何添加播放器在线域名ip查询
- 站长
- 2026年02月17日
-
iis做的网站手机怎么访问大连 手机网站案例
iis做的网站手机怎么访问大连 手机网站案例
- 站长
- 2026年02月17日
