廣義線性模型(generalized linear model, GLM)是簡(jiǎn)單最小二乘回歸(OLS)的擴(kuò)展,在OLS的假設(shè)中,響應(yīng)變量是連續(xù)數(shù)值數(shù)據(jù)且服從正態(tài)分布,而且響應(yīng)變量期望值與預(yù)測(cè)變量之間的關(guān)系是線性關(guān)系。而廣義線性模型則放寬其假設(shè),首先響應(yīng)變量可以是正整數(shù)或分類數(shù)據(jù),其分布為某指數(shù)分布族。其次響應(yīng)變量期望值的函數(shù)(連接函數(shù))與預(yù)測(cè)變量之間的關(guān)系為線性關(guān)系。因此在進(jìn)行GLM建模時(shí),需要指定分布類型和連接函數(shù)。
在R中通常使用glm函數(shù)構(gòu)造廣義線性模型,其中分布參數(shù)包括了binomaial(兩項(xiàng)分布)、gaussian(正態(tài)分布)、gamma(伽馬分布)、poisson(泊松分布)等。和lm函數(shù)類似,glm的建模結(jié)果可以通過(guò)下述的泛型函數(shù)進(jìn)行二次處理,如summary()、coef()、confint()、residuals()、anova()、plot()、predict()
一、Logistic回歸
Logistic回歸中假設(shè)響應(yīng)變量服從二項(xiàng)分布,參數(shù)family設(shè)置為binomial,連接函數(shù)link設(shè)置為logit,我們以AER包中的Affairs數(shù)據(jù)集作為例子。該數(shù)據(jù)集是關(guān)于婚姻出軌,其中affairs變量表示出軌次數(shù),數(shù)據(jù)集中還包括結(jié)婚時(shí)間、教育、宗教等其它變量。由于affairs為正整數(shù),為了進(jìn)行Logistic回歸先要將其轉(zhuǎn)化為二元變量。
1 | data (Affairs, package= 'AER' ) |
2 | Affairs$ynaffair[Affairs$affairs < 0] <- 1 |
3 | Affairs$ynaffair[Affairs$affairs < 0] <- 0 |
4 | Affairs$ynaffair <- factor (Affairs$ynaffair, |
5 | levels= c (0,1), |
6 | labels= c ("No","Yes")) |
7 | model.L <- glm (ynaffair ~ age + yearsmarried + religiousness +rating, data=Affairs, family= binomial ()) |
8 | summary (model.L) |
若樣本觀測(cè)值變異性過(guò)大,即出現(xiàn)了過(guò)度離散現(xiàn)象,此時(shí)仍使用二項(xiàng)分布假設(shè)就會(huì)影響系數(shù)檢測(cè)的顯著性。那么補(bǔ)救的方法是使用準(zhǔn)二項(xiàng)分布(quasibinomial)。首先要檢測(cè)樣本是否存在過(guò)度離散現(xiàn)象,方法是用殘差除以殘差自由度,若超過(guò)1則意味著過(guò)度離散。那么將family參數(shù)改為quasibinomial。
其它和Logistic回歸相關(guān)的函數(shù)還包括:robust包中的glmRob函數(shù)實(shí)施穩(wěn)健GLM;mlogit包中的mlogit函數(shù)對(duì)多分類變量進(jìn)行l(wèi)ogistic回歸;rms包中的lrm函數(shù)對(duì)順序變量進(jìn)行Logistic回歸。
二、Poisson回歸
泊松回歸假設(shè)響應(yīng)變量服從泊松分布,而連接函數(shù)為log函數(shù)。仍以前面未轉(zhuǎn)化的Affairs數(shù)據(jù)集為例。建立模型后通過(guò)coef函數(shù)來(lái)提取模型系數(shù),因?yàn)椴此苫貧w中響應(yīng)變量經(jīng)過(guò)了log函數(shù)變換,所以對(duì)系數(shù)進(jìn)行指數(shù)變換可更好的對(duì)結(jié)果進(jìn)行解釋。從中觀察到,在其它變量不變前提下,結(jié)婚時(shí)間增長(zhǎng)1年,那么出軌次數(shù)期望值則變?yōu)橹暗?.11倍。
1 | model.P <- glm (affairs ~ age + yearsmarried + religiousness +rating, data=Affairs, family= poisson ()) |
2 | exp ( coef (model.P)) |
(Intercept) age yearsmarried religiousness rating 15.6175253 0.9733061 1.1163656 0.6971279 0.6691823
同樣,在進(jìn)行泊松分布也要考慮過(guò)度離散現(xiàn)象。其檢測(cè)方法同樣是殘差除以其自由度。若確定過(guò)度離散存在,則要將family參數(shù)設(shè)置為準(zhǔn)泊松分布(quasipoisson)。
本文來(lái)自:http://xccds1977.blogspot.com/2012/01/blog-post.html
聯(lián)系客服