機器學習——分類問題
2023-06-14 23:23 作者:Vector永遠的神 | 我要投稿
分類問題可以視為離散的二分類問題,logistic回歸算法可以很好的解決這類問題,其中一個簡化的模型函數就Sigmoid函數。

對于二分類問題,輸入的若干特征值區(qū)間范圍可能會很大,但是輸出值/預測值一般可以表示為0或1,那么就需要通過中間函數將輸入區(qū)間壓縮成[0,1]區(qū)間進行輸出,根據距離0,1的距離來決定輸出的概率大小。這個過程中平滑的sigmoid函數通常會成為首選。
在特征點所構成的空間內,如果決策邊界是線性邊界的畫,通常是自變量的一次項即可完成分割目標。但是當決策邊界是非線性的時候,就得添加高次自變量項來完成非線性決策邊界。
由于輸出的概率大小與距離有關,那么預測的損失函數是必不可少的。離散型分類問題,損失函數就分成兩種情況來分別說,距離正確值越遠就代表偏差越大,代價肯定不是隨著偏差線性變化的,而是爆炸性變化的,指數函數在靠近0的時候恰好滿足這個要求。

關于求最值的問題,一般是讓損失函數最小的情況就是目標收斂,通常就是梯度下降的方式,可能會陷入局部最優(yōu)解,可以調用一些其他算法來解決這個問題,這里就不多贅述了。
對于離散值的多分類問題,可以使用多個二分類模型來進行解決,在最后綜合所有的輸出模型之后,選擇概率最大的那個結果輸出即可。