【數(shù)之道】支持向量機(jī)SVM是什么,八分鐘直覺(jué)理解其本質(zhì)

【數(shù)之道】SVM第一節(jié):SVM直覺(jué)理解與軟間隔&升維轉(zhuǎn)換及核技巧概述

一、SVM直覺(jué)理解與軟間隔
尋找最佳決策邊界線(xiàn)的問(wèn)題可以轉(zhuǎn)化為求解兩類(lèi)數(shù)據(jù)的最大間隔問(wèn)題。間隔的正中就是決策邊界。當(dāng)有新數(shù)據(jù)需要判斷時(shí),根據(jù)其與決策邊界的相對(duì)位置,就可以進(jìn)行分類(lèi)。
間隔的上下邊界所經(jīng)過(guò)的數(shù)據(jù)點(diǎn)叫“支持向量”。這也是我們將本方法命名為“支持向量機(jī)”的原因。

將等式兩邊同時(shí)除以c,分別用w1',w2',和b'替代原方程中的w1,w2,和b,同時(shí)方程右邊變?yōu)?1、0和-1。這樣就方便將第一個(gè)和第三個(gè)方程定義為正負(fù)超平面。

因?yàn)閣1',w2',和b'只是求解的代號(hào),替換成w1,w2和b也不影響運(yùn)算。所以把w1',w2',和b'替換回w1,w2和b:


為了防止異常點(diǎn)的影響,引入“損失因子”的概念。每個(gè)異常點(diǎn)都有對(duì)應(yīng)的損失值:

把間隔距離想象成經(jīng)營(yíng)收入,損失值想象成經(jīng)營(yíng)成本,于是目標(biāo)就可以轉(zhuǎn)換為“最大化利潤(rùn)”。該最優(yōu)解下形成的間隔叫“軟間隔”。
二、升維轉(zhuǎn)換和核技巧

升維轉(zhuǎn)換:
①通過(guò)合適的維度轉(zhuǎn)換函數(shù),將低維數(shù)據(jù)進(jìn)行升維
②在高維度下求解SVM模型,找到對(duì)應(yīng)的決策邊界超平面
當(dāng)有新數(shù)據(jù)需要進(jìn)行分類(lèi)預(yù)測(cè)時(shí),可先對(duì)其進(jìn)行升維轉(zhuǎn)換,再根據(jù)高維度下的決策邊界超平面進(jìn)行判斷。

但提升維度需要明確的維度轉(zhuǎn)換函數(shù),以及海量的數(shù)據(jù)存儲(chǔ)和計(jì)算需求。為了避免將數(shù)據(jù)送入高維度計(jì)算,同時(shí)保證同樣的分類(lèi)效果,就要運(yùn)用Kernel Trick核技巧:

由于SVM本質(zhì)是量化兩類(lèi)數(shù)據(jù)差異的方法,而核函數(shù)Kernel function能提供高維度向量相似度的測(cè)量,通過(guò)選取合適的核公式,我們就可以不用知曉具體的維度轉(zhuǎn)換函數(shù),直接獲得數(shù)據(jù)的高維度差異度,并以此進(jìn)行分類(lèi)判斷。