在各種算法相關的paper中,經??吹街笖?shù)分布族這個概念。博主作為一個好奇心很強喜歡打破砂鍋問到底的人,看到一個東西老在眼前晃來晃去卻又似懂非懂,心里非常難受,于是想好好了解一下這個指數(shù)分布族到底是個什么鬼。。。
指數(shù)分布族是指可以表示為指數(shù)形式的概率分布。wiki上的定義如下:
A single-parameter exponential family is a set of probability distributions whose probability density function (or probability mass function, for the case of a discrete distribution) can be expressed in the form
其中,為自然參數(shù)(nature parameter),是充分統(tǒng)計量(sufficient statistic)。當參數(shù)A,h,T都固定以后,就定義了一個以為參數(shù)的函數(shù)族。
伯努利分布是對0,1分布的問題進行建模。對于,其概率密度函數(shù)如下:
將其華為指數(shù)分布族的形式:
將上面轉化以后的表達式與指數(shù)分布族對比,可以看出:
由此可見,伯努利分布也是指數(shù)分布族的一種。細心的小伙伴發(fā)現(xiàn)了,的形式與logistic函數(shù)的形式一致。(logistic函數(shù)的詳解請參考 http://blog.csdn.net/bitcarmanlee/article/details/51154481)。這是因為 logistic模型對問題的前置概率估計其實就是伯努利分布。(貌似沒有特別理解,以后再來慢慢琢磨)
關于高斯分布的來龍去脈,足足可以寫厚厚一本書。后面有時間回來詳細整理高斯分布的相關資料。
關于高斯分布的詳細推導過程如下(為了方便起見,將方差設為1):
將其與指數(shù)分布族對比,可知:
伯努利分布與高斯分布是兩個典型的指數(shù)分布族
通過上面兩個例子我們可以看出,在伯努利的指數(shù)分布族形式中, 與伯努利分布中的參數(shù)是一個logistic函數(shù)。而在高斯分布的指數(shù)分布族形式中,是與相等的一個 表達式 (前提是我們假設了)。通過以上的例子,以不同的映射函數(shù)與其它概率分布函數(shù)中的參數(shù)發(fā)生聯(lián)系,從而得到不同的模型,廣義線性模型正是將指數(shù)分布族中的所有成員(每個成員正好有一個這樣的聯(lián)系)都作為線性模型的擴展,通過各種非線性的連接函數(shù)將線性函數(shù)映射到其他空間,從而大大擴大了線性模型可解決的問題。
下面我們看 GLM 的形式化定義,GLM 有三個假設:
(1) 給定樣本與參數(shù),樣本分類 服從指數(shù)分布族中的某個分布;
(2) 給定一個,我們需要的目標函數(shù)為;
(3)。
根據(jù)伯努利分布推導logistic模型的過程如下:
總之,廣義線性模型通過擬合響應變量的條件均值的一個函數(shù)(不是響應變量的條件均值),并假設響應變量服從指數(shù)分布族中的某個分布(不限于正態(tài)分布),從而極大地擴展了標準線性模型。模型參數(shù)估計的推導依據(jù)是極大似然估計,而非最小二乘法。
本博文主要參考了以下內容,感謝大牛們的無私分享:
http://www.aliog.com/83492.html