常見(jiàn)回歸和分類損失函數(shù)比較

代碼

https://www.cnblogs.com/massquantity/p/8964029.html

損失函數(shù)的一般表示為 $L (y, f (x))$ ，用以衡量真實(shí)值 $y$ 和預(yù)測(cè)值 $f (x)$ 之間不一致的程度，一般越小越好。為了便于不同損失函數(shù)的比較，常將其表示為單變量的函數(shù)，在回歸問(wèn)題中這個(gè)變量為 $y - f (x)$ ，在分類問(wèn)題中則為 $y f (x)$ 。下面分別進(jìn)行討論。

回歸問(wèn)題的損失函數(shù)

回歸問(wèn)題中 $y$ 和 $f (x)$ 皆為實(shí)數(shù) $\in R$ ，因此用殘差 $y - f (x)$ 來(lái)度量二者的不一致程度。殘差 (的絕對(duì)值) 越大，則損失函數(shù)越大，學(xué)習(xí)出來(lái)的模型效果就越差（這里不考慮正則化問(wèn)題）。

常見(jiàn)的回歸損失函數(shù)有：

平方損失 (squared loss) ： $(y - f (x))^{2}$
絕對(duì)值 (absolute loss) : $| y - f (x) |$
Huber損失 (huber loss) : ${\begin{matrix} \frac{1}{2} [y - f (x)]^{2} & | y - f (x) | \leq δ \\ δ | y - f (x) | - \frac{1}{2} δ^{2} & | y - f (x) | > δ \end{matrix}$

其中最常用的是平方損失，然而其缺點(diǎn)是對(duì)于異常點(diǎn)會(huì)施以較大的懲罰，因而不夠robust。如果有較多異常點(diǎn)，則絕對(duì)值損失表現(xiàn)較好，但絕對(duì)值損失的缺點(diǎn)是在

y - f (x) = 0

處不連續(xù)可導(dǎo)，因而不容易優(yōu)化。
Huber損失是對(duì)二者的綜合，當(dāng)

| y - f (x) |

小于一個(gè)事先指定的值

δ

時(shí)，變?yōu)槠椒綋p失，大于

δ

時(shí)，則變成類似于絕對(duì)值損失，因此也是比較robust的損失函數(shù)。三者的圖形比較如下：

分類問(wèn)題的損失函數(shù)

對(duì)于二分類問(wèn)題， $y \in {- 1, + 1}$ ，損失函數(shù)常表示為關(guān)于 $y f (x)$ 的單調(diào)遞減形式。如下圖：

$y f (x)$ 被稱為margin，其作用類似于回歸問(wèn)題中的殘差 $y - f (x)$ 。

二分類問(wèn)題中的分類規(guī)則通常為 $sign (f (x)) = {\begin{matrix} + 1 if y f (x) \geq 0 \\ - 1 if y f (x) < 0 \end{matrix}$

可以看到如果 $y f (x) > 0$ ，則樣本分類正確， $y f (x) < 0$ 則分類錯(cuò)誤，而相應(yīng)的分類決策邊界即為 $f (x) = 0$ 。所以最小化損失函數(shù)也可以看作是最大化 margin 的過(guò)程，任何合格的分類損失函數(shù)都應(yīng)該對(duì) margin<0 的樣本施以較大的懲罰。

1、 0-1損失 (zero-one loss)

L (y, f (x)) = {\begin{matrix} 0 if y f (x) \geq 0 \\ 1 if y f (x) < 0 \end{matrix}

0-1損失對(duì)每個(gè)錯(cuò)分類點(diǎn)都施以相同的懲罰，這樣那些“錯(cuò)的離譜“ (即 $m a r g i n \to - \infty$ )的點(diǎn)并不會(huì)收到大的關(guān)注，這在直覺(jué)上不是很合適。另外0-1損失不連續(xù)、非凸，優(yōu)化困難，因而常使用其他的代理?yè)p失函數(shù)進(jìn)行優(yōu)化。

2、Logistic loss

L (y, f (x)) = l o g (1 + e^{- y f (x)})

logistic Loss為L(zhǎng)ogistic Regression中使用的損失函數(shù)，下面做一下簡(jiǎn)單證明：

Logistic Regression中使用了Sigmoid函數(shù)表示預(yù)測(cè)概率：

g (f (x)) = P (y = 1 | x) = \frac{1}{1 + e^{- f (x)}}

而

P (y = - 1 | x) = 1 - P (y = 1 | x) = 1 - \frac{1}{1 + e^{- f (x)}} = \frac{1}{1 + e^{f (x)}} = g (- f (x))

因此利用 $y \in {- 1, + 1}$ ，可寫為 $P (y | x) = \frac{1}{1 + e^{- y f (x)}}$ ，此為一個(gè)概率模型，利用極大似然的思想：

m a x (\prod_{i = 1}^{m} P (y_{i} | x_{i})) = m a x (\prod_{i = 1}^{m} \frac{1}{1 + e^{- y_{i} f (x_{i})}})

兩邊取對(duì)數(shù)，又因?yàn)槭乔髶p失函數(shù)，則將極大轉(zhuǎn)為極小：

m a x (\sum_{i = 1}^{m} l o g P (y_{i} | x_{i})) = - m i n (\sum_{i = 1}^{m} l o g (\frac{1}{1 + e^{- y_{i} f (x_{i})}})) = m i n (\sum_{i = 1}^{m} l o g (1 + e^{- y_{i} f (x_{i})})

這樣就得到了logistic loss。

如果定義 $t = \frac{y + 1}{2} \in {0, 1}$ ，則極大似然法可寫為：

\prod_{i = 1}^{m} (P (t_{i} = 1 | x_{i}))^{t_{i}} ((1 - P (t_{i} = 1 | x))^{1 - t_{i}}

取對(duì)數(shù)并轉(zhuǎn)為極小得：

\sum_{i = 1}^{m} {- t_{i} \log P (t_{i} = 1 | x_{i}) - (1 - t_{i}) \log (1 - P (t_{i} = 1 | x_{i}))}

上式被稱為交叉熵?fù)p失 (cross entropy loss)，可以看到在二分類問(wèn)題中l(wèi)ogistic loss和交叉熵?fù)p失是等價(jià)的，二者區(qū)別只是標(biāo)簽y的定義不同。

3、Hinge loss

L (y, f (x)) = m a x (0, 1 - y f (x))

hinge loss為svm中使用的損失函數(shù)，hinge loss使得 $y f (x) > 1$ 的樣本損失皆為0，由此帶來(lái)了稀疏解，使得svm僅通過(guò)少量的支持向量就能確定最終超平面。

hinge loss被翻譯為“合頁(yè)損失”，那么合頁(yè)究竟長(zhǎng)啥樣？如圖，確實(shí)有點(diǎn)像hinge loss的形狀：

來(lái)看下 hinge loss 是如何推導(dǎo)出來(lái)的，帶軟間隔的svm最后的優(yōu)化問(wèn)題可表示為：

\begin{aligned} (1) & \underset{w, b, ξ}{m i n} \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{m} ξ_{i} \\ (2) & s . t . y_{i} (w^{T} x_{i} + b) ⩾ 1 - ξ_{i} \\ (3) & ξ_{i} ⩾ 0, i = 1, 2, . . ., m \end{aligned}

$(2)$ 式重新整理為 $ξ_{i} ⩾ 1 - y_{i} (w^{T} x_{i} + b)$ 。若 $1 - y_{i} (w^{T} x_{i} + b) < 0$ ，由于約束 $(3)$ 的存在，則 $ξ_{i} ⩾ 0$ ；若 $1 - y_{i} (w^{T} x_{i} + b) ⩾ 0$ ，則依然為 $ξ_{i} ⩾ 1 - y_{i} (w^{T} x_{i} + b)$ 。所以 $(2), (3)$ 式結(jié)合起來(lái)：

ξ_{i} ⩾ m a x (0, 1 - y_{i} (w^{T} x_{i} + b)) = m a x (0, 1 - y_{i} f (x_{i}))

又由于 $(1)$ 式是最小化問(wèn)題，所以取 $ξ_{i}$ 的極小值，即令 $ξ_{i} = m a x (0, 1 - y f (x))$ 代入 $(1)$ 式，并令 $λ = \frac{1}{2 C}$ ：

m i n C \sum_{i = 1}^{m} m a x (0, 1 - y_{i} f (x_{i})) + \frac{1}{2} | | w | |^{2} \propto m i n \sum_{i = 1}^{m} \underset{h i n g e l o s s}{\underset{⏟}{m a x (0, 1 - y_{i} f (x_{i}))}} + λ | | w | |^{2}

另外可以看到 svm 這個(gè)形式的損失函數(shù)是自帶參數(shù) $w$ 的 $L 2$ 正則的，而相比之下Logistic Regression的損失函數(shù)則沒(méi)有顯式的正則化項(xiàng)，需要另外添加。

4、指數(shù)損失(Exponential loss)

L (y, f (x)) = e^{- y f (x)}

exponential loss為AdaBoost中使用的損失函數(shù)，使用exponential loss能比較方便地利用加法模型推導(dǎo)出AdaBoost算法 (具體推導(dǎo)過(guò)程)。然而其和squared loss一樣，對(duì)異常點(diǎn)敏感，不夠robust。

5、modified Huber loss

L (y, f (x)) = {\begin{matrix} m a x (0, 1 - y f (x))^{2} i f y f (x) \geq - 1 \\ - 4 y f (x) i f y f (x) < - 1 \end{matrix}

modified huber loss結(jié)合了hinge loss和logistic loss的優(yōu)點(diǎn)，既能在 $y f (x) > 1$ 時(shí)產(chǎn)生稀疏解提高訓(xùn)練效率，又能進(jìn)行概率估計(jì)。另外其對(duì)于 $(y f (x) < - 1)$ 樣本的懲罰以線性增加，這意味著受異常點(diǎn)的干擾較少，比較robust。scikit-learn中的SGDClassifier同樣實(shí)現(xiàn)了modified huber loss。

最后來(lái)張全家福：

從上圖可以看出上面介紹的這些損失函數(shù)都可以看作是0-1損失的單調(diào)連續(xù)近似函數(shù)，而因?yàn)檫@些損失函數(shù)通常是凸的連續(xù)函數(shù)，因此常用來(lái)代替0-1損失進(jìn)行優(yōu)化。它們的相同點(diǎn)是都隨著 $m a r g i n \to - \infty$ 而加大懲罰；不同點(diǎn)在于，logistic loss和hinge loss都是線性增長(zhǎng)，而exponential loss是以指數(shù)增長(zhǎng)。

值得注意的是上圖中modified huber loss的走向和exponential loss差不多，并不能看出其robust的屬性。其實(shí)這和算法時(shí)間復(fù)雜度一樣，成倍放大了之后才能體現(xiàn)出巨大差異：

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

代碼