大家好,我是鄧飛,雖然,我早就知道GWAS分析中的effect值,就是數(shù)量遺傳學(xué)的基因中的替換效應(yīng),但是一直沒(méi)有仔細(xì)閱讀相關(guān)材料。今天通過(guò)閱讀數(shù)量遺傳學(xué)的教程,理解了這個(gè)概念,真好。并且通過(guò)R語(yǔ)言模擬數(shù)據(jù),驗(yàn)證了這個(gè)結(jié)論,紙上得來(lái)終覺(jué)淺,絕知此事要躬行!
同時(shí),根據(jù)公式推導(dǎo),可以更貼切的知道BLUP育種值的含義,我們?yōu)楹我鶕?jù)育種值進(jìn)行選擇,選擇后會(huì)發(fā)生什么,加性效應(yīng),顯性效應(yīng)對(duì)于單位點(diǎn)SNP如何計(jì)算,對(duì)于PRS,MAS,GS的理解都是非常重要的。
這里,GWAS中的回歸系數(shù),effect,beta,都是一個(gè)意思。
因?yàn)镚WAS分析中,單點(diǎn)檢測(cè),類(lèi)似回歸分析,effect就是SNP回歸系數(shù)beta,p值就是SNP的P-value。
比如數(shù)據(jù):
mod_M7 = lm(phe.V3 ~ M7_1,data=dd)
summary(mod_M7)
這里的M7位點(diǎn),effect是1.394,p值是0.29。
首先,先看一下加性效應(yīng)和顯性效應(yīng)的定義:
那么:
假定一個(gè)位點(diǎn)的次等位基因頻率是p,主等位基因頻率是q,而且該位點(diǎn)滿足哈溫平衡,所以:
整體均值為:
?一種定義等位基因效應(yīng)的方法,是利用后代群體的平均表現(xiàn)與隨機(jī)交配群體均值的離差進(jìn)行計(jì)算。以等位基因A1為例,把它視為配子,與群體中其他配子隨機(jī)結(jié)合產(chǎn)生一個(gè)后代群體,其他配子基因型既有A1也有A2,它們的頻率分別為p和q。因此,配子A1產(chǎn)生后代群體中的基因型有A1A1和A1A2兩種,頻率也分別為p和q。根據(jù)配子A1后代群體的基因型頻率,就能得到后代群體的均值為pa+qd,從中減去隨機(jī)交配群體的均值μ,就得到等位基因A1的效應(yīng) 。類(lèi)似地,我們還可以得到等位基因A2平均效應(yīng) 。對(duì)于復(fù)等位基因,可用同樣的方法定義它們的平均效應(yīng)。
?
?育種過(guò)程中,當(dāng)選擇有利于某個(gè)等位基因時(shí),常意味著有利等位基因?qū)α硪粋€(gè)不利等位基因的替換。因此,有必要研究等位基因的替代效應(yīng)(effect of an allele substitution)。假定我們可以把隨機(jī)挑選的等位基因A2變?yōu)锳1,中選個(gè)體的基因型可能是A1A2也可能是A2A2,頻率分別為p和q。把A1A2變?yōu)锳1A1后,基因型值從d變?yōu)閍,替換前后的效應(yīng)變化為a-d;把A2A2變?yōu)锳1A2后,基因型值從-a變?yōu)閐,替換前后的效應(yīng)變化為a+d。因此得到平均基因替換效應(yīng)的表達(dá)式。
?
「基因平均效應(yīng)和替換效應(yīng)的關(guān)系:」
?上面資料來(lái)源王健康老師的PPT內(nèi)容:第8章 隨機(jī)交配群體的遺傳分析
?
首先,看一下基因頻率:
這里,用AA,AT,TT平均表型值計(jì)算:
注意,如果要手動(dòng)計(jì)算的替換效應(yīng)和回歸分析計(jì)算的回歸系數(shù),需要滿足哈溫平衡。這里位點(diǎn)不符合哈溫平衡,所以手動(dòng)計(jì)算的替換效應(yīng)和回歸分析的beta值有差別。
下面介紹一下相關(guān)的推導(dǎo)。
把SNP的分型轉(zhuǎn)為0-1-2的X變量,將表型數(shù)據(jù)為Y變量,那么回歸系數(shù)的公式可以推導(dǎo)為替換效應(yīng)的組成。
上圖中,X是編碼為0-1-2的SNP,Y是每個(gè)基因型0-1-2的表型值。比如:
如果我們對(duì)value為Y,SNP為x,計(jì)算回歸系數(shù):b = cov(X,Y)/var(X),就可以推導(dǎo)為:b = alpha,截距為:u - 2palpha
結(jié)論:回歸系數(shù)就是替換效應(yīng)。
計(jì)算公式:
我們模擬一個(gè)符合哈溫平衡的位點(diǎn),p=0.5,q=0.5,n=12個(gè):
那么加性效應(yīng)和顯性效應(yīng)為:
替換效應(yīng)為:a + (p - q)d = 10.15 截距為:u = 19.5 截距 = 19.5 - 20.5*10.15 = 9.35
可以看出,計(jì)算出的回歸系數(shù)為:10.16,截距為9.33,結(jié)果基本一致。
# 假定p為0.8,q為0.2,a=10,m =30,d=5,
# 那么分型為0的為20,分型為1的為35,分型為2的為40
# 那么分型為0的頻率為0.64,分型為1的頻率為0.32,分型為2的頻率為0.04
# 總模擬個(gè)數(shù)為1000,標(biāo)準(zhǔn)差為5
rm(list=ls())
set.seed(123)
AA = data.frame(SNP = rep(0,640),y = rnorm(640,20,5))
AT = data.frame(SNP = rep(1,320),y = rnorm(320,35,5))
TT = data.frame(SNP = rep(2,40),y = rnorm(40,40,5))
dd = rbind(AA,AT,TT)
head(dd)
str(dd)
table(dd$SNP)
mod = lm(y ~ SNP,data=dd)
summary(mod)
## 手動(dòng)計(jì)算
mu = mean(dd$y);mu
a=10;d=5;p=0.8;q=0.2
beta = a + (p-q)*d;beta
beta_0 = mu - 2*q*beta;beta_0
回歸計(jì)算的回歸系數(shù)和截距為:
手動(dòng)計(jì)算基因的替換效應(yīng):
一個(gè)個(gè)體的育種值,就是他的后代群體,相對(duì)于整個(gè)親本群體的差異。比如一個(gè)個(gè)體的育種值是0.5,那就是說(shuō)他的后代會(huì)比群體的整體平均值高0.3,如果育種值是0,那就是后代的平均值和群體一致。所以,我們要選擇blup值大的個(gè)體,因?yàn)樗暮蟠鷷?huì)高于群體的平均值。
因此,基因型A1A1、A1A2和A2A2的育種值分別為A11=2α1, A12=α1 +α2和A22=2α2 。統(tǒng)一起來(lái),各種基因型的育種值表示為:
所以,這里,就可以理解為數(shù)量遺傳學(xué)的替換效應(yīng)就和GWAS分析的效應(yīng)值聯(lián)系到了一起。
聯(lián)系客服