機(jī)器學(xué)習(xí)：Kullback

今天，我們介紹機(jī)器學(xué)習(xí)里非常常用的一個(gè)概念，KL 散度，這是一個(gè)用來(lái)衡量?jī)蓚€(gè)概率分布的相似性的一個(gè)度量指標(biāo)。我們知道，現(xiàn)實(shí)世界里的任何觀(guān)察都可以看成表示成信息和數(shù)據(jù)，一般來(lái)說(shuō)，我們無(wú)法獲取數(shù)據(jù)的總體，我們只能拿到數(shù)據(jù)的部分樣本，根據(jù)數(shù)據(jù)的部分樣本，我們會(huì)對(duì)數(shù)據(jù)的整體做一個(gè)近似的估計(jì)，而數(shù)據(jù)整體本身有一個(gè)真實(shí)的分布（我們可能永遠(yuǎn)無(wú)法知道），那么近似估計(jì)的概率分布和數(shù)據(jù)整體真實(shí)的概率分布的相似度，或者說(shuō)差異程度，可以用 KL 散度來(lái)表示。

KL 散度，最早是從信息論里演化而來(lái)的，所以在介紹 KL 散度之前，我們要先介紹一下信息熵。信息熵的定義如下：

H = - \sum_{i = 1}^{N} p (x_{i}) \log p (x_{i})

$p (x_{i})$ 表示事件 $x_{i}$ 發(fā)生的概率，信息熵其實(shí)反映的就是要表示一個(gè)概率分布需要的平均信息量。

在信息熵的基礎(chǔ)上，我們定義 KL 散度為：

D_{K L} (p | | q) = \sum_{i = 1}^{N} p (x_{i}) \cdot (\log p (x_{i}) - \log (q (x_{i}))

或者表示成下面這種形式：

D_{K L} (p | | q) = \sum_{i = 1}^{N} p (x_{i}) \cdot \log \frac{p (x_{i})}{q (x_{i})}

$D_{K L} (p | | q)$ 表示的就是概率 $q$ 與概率 $p$ 之間的差異，很顯然，散度越小，說(shuō)明概率 $q$ 與概率 $p$ 之間越接近，那么估計(jì)的概率分布于真實(shí)的概率分布也就越接近。

KL 散度可以幫助我們選擇最優(yōu)的參數(shù)，比如 $p (x)$ 是我們需要估計(jì)的一個(gè)未知的分布，我們無(wú)法直接得知 $p (x)$ 的分布，不過(guò)我們可以建立一個(gè)分布 $q (x | θ)$ 去估計(jì) $p (x)$ ，為了確定參數(shù) $θ$ ，雖然我們無(wú)法得知 $p (x)$ 的真實(shí)分布，但可以利用采樣的方法，從 $p (x)$ 中采樣 $N$ 個(gè)樣本，構(gòu)建如下的目標(biāo)函數(shù)：

D_{K L} (p | | q) = \sum_{i = 1}^{N} {\log p (x_{i}) - \log q (x_{i} | θ)}

因?yàn)槲覀円A(yù)估的是參數(shù) $θ$ ，上面的第一項(xiàng) $\log p (x_{i})$ 與參數(shù) $θ$ 無(wú)關(guān)，所以我們要優(yōu)化的其實(shí)是 $- \log q (x_{i} | θ)$ ，而這個(gè)就是我們熟悉的最大似然估計(jì)。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶(hù)發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频