前言
當大多數人考慮疾病的遺傳基礎時,他們可能會想到罕見的單基因疾病,如囊性纖維化(CF),苯丙酮尿癥或血友病,甚至可能是具有明顯遺傳成分的癌癥(例如遺傳的乳腺癌)。雖然遺傳性疾病個別罕見,但它們約占罕見疾病的80%。罕見疾病的絕對數量意味著每17個人中約有1人受新生影響。此外,由于我們DNA的多種差異,我們的遺傳構成在包括常見疾病的所有疾病過程中或多或少地發(fā)揮作用。這些差異中的一些,無論是單獨的還是組合的,可能使個體更容易患一種疾?。ɡ缫环N癌癥),但也可能使同一個體不易患上無關疾病(例如糖尿?。?。環(huán)境(包括生活方式)在許多條件下(例如,與糖尿病相關的飲食和運動)起著重要作用,但我們對環(huán)境的細胞和身體反應可能因我們的DNA而異。免疫系統(tǒng)的遺傳學在人群中存在巨大差異,決定了我們對病原體感染的反應。此外,大多數癌癥是由個體一生中發(fā)生的遺傳變化積累造成的,這可能受到環(huán)境因素的影響。顯然,理解遺傳學和基因組作為一個整體及其在人類群體中的變異,對于理解疾病過程是不可或缺的,而這種理解為治療、有益的治療和補救措施提供了基礎。
由于存在如此多的遺傳性疾病,因此在本次審查中不可能包含一些以上的例子來說明原則。有關特定條件的更多信息,有許多可搜索的互聯網資源,這些包括遺傳學家庭參考(https://ghr.nlm.nih.gov/),基因評論(https://www.ncbi.nlm.nih.gov/books/NBK1116/),部分國家人類基因組研究所(https://www.genome.gov/education/)和人類在線孟德爾遺傳(https://www.omim.org/)。在本綜述中,將對分子生物學的基本原理和技術進行理解和認識,例如DNA結構和PCR,DNA學習中心可提供PCR的解釋和動畫(https://www.dnalc.org/resources/)。這里的重點將放在人類疾病上,盡管定義我們理解的大部分研究都來自對具有相似或相關基因的動物模型的研究。
人類基因組和變異
人類基因組和人類基因組參考序列
產生人類的完整編碼信息儲存在我們細胞中存在的DNA中:人類基因組包含大約30億bp的DNA。來自世界各地的科學家們在“人類基因組”計劃中合作,生成了整個人類基因組的第一個DNA序列(2001年出版),并在接下來的幾年中進行了許多補充和修正。人類和許多其他物種的基因組序列信息可通過多個門戶網站免費獲取,包括國家生物技術信息中心(NCBI; https://www.ncbi.nlm.nih.gov/)和Ensembl(http:// www.ensembl.org/)。
我們的大多數DNA以染色體的形式(核DNA或核基因組)存在于細胞核內,但線粒體(mtDNA或線粒體基因組)中也存在少量DNA。大多數人擁有23對染色體(圖2),因此大部分DNA以兩個拷貝存在,一個來自我們的母親,一個來自我們的父親。
圖2 (G-banding)形成核型
(A)秋水仙素處理中期停滯的培養(yǎng)細胞,然后進行吉姆薩染色以產生特征性的明暗帶。通常,暗帶代表富含AT和基因貧乏的區(qū)域。(B)來自擴散的染色體成對排列以查看核型,通常使用Cytovision等專業(yè)軟件。(C.)G-banding模式的圖解表示,稱為表意文字,用作參考。表意文字已經在著絲點(虛線)對齊;藍色陰影區(qū)域變化很大。例如(B)中染色體13,14和15的p臂之間的差異。事實上,近端著絲粒染色體(13,14,15,21,22)的p臂都具有非常相似的含量,新生包括核仁組織區(qū)或NORs。每個NOR含有核糖體DNA(rDNA)的串聯重復序列,新生編碼rRNA。
人類核基因組編碼大約20000個蛋白質編碼基因,通常由蛋白質編碼(外顯子)和非編碼(內含子)序列組成。我們的基因組還包含大約22000個僅編碼RNA分子的基因;這些RNA中的一些形成翻譯機制的組分(rRNA,tRNA),還有許多在細胞內發(fā)揮作用,包括調節(jié)其他基因的表達。事實上,現在人們認為,多達80%的基因組具有可能影響結構和功能的生物活性。人類基因組還包含超過14000個'假基因';這些是蛋白質編碼基因的不完美拷貝,它們已經失去了編碼蛋白質的能力。雖然最初被認為是進化遺物,現在有證據表明,有些假基因可能參與調節(jié)蛋白質編碼。另外,假基因與正?;蛑g的序列相似性可以促進使正??截愂Щ畹闹亟M,如在圍產期致死戈謝病的一些病例中可見。此外,一些假基因有可能在基因治療中被利用以通過基因編輯方法產生功能基因。染色體之間的基因分布不相等:19號染色體基因密集,而三體可存活的常染色體(13,18,21)相對基因貧乏(表1)。
表格1 人類染色體的DNA和基因含量
染色體
近似長度(bp)
蛋白質編碼基因
非蛋白質編碼基因
假基因
1
248956422
2047
1964
1233
2
242193529
1303
1605
1033
3
198295559
1075
1160
768
4
190214555
753
984
732
五
181538259
881
1200
710
6
170805979
1041
989
803
7
159345973
989
977
893
8
145138636
670
1041
629
9
138394717
778
786
678
10
133797422
728
880
568
11
135086622
1312
1053
815
12
133275309
1036
1197
627
13
114364328
321
586
378
14
107043718
820
857
519
15
101991189
613
986
513
16
90338345
867
1033
467
17
83257441
1185
1198
531
18
80373285
269
608
246
19
58617616
1474
895
514
20
64444167
543
594
250
21
46709983
231
403
183
22
50818468
492
513
332
X
156040895
843
640
872
?
57227415
63
108
392
線粒體
16569
13
24
請注意,盡管這些數字看起來非常精確,但它們應僅作為指示,因為(i)每個個體的染色體將與參考序列不同,并且(ii)人類參考基因組序列不斷更新并進行校正(此處的數據為來自GRCh38.p12,它代表了人類基因組的特定“構建”。注意,近端著絲粒染色體13,14,15,21,22的數據不包括p臂上存在的共有核糖體DNA陣列重復序列(參見圖2)。來自Ensembl的數據,2018年6月。
從人類基因組計劃的最開始,人們就認識到健康個體之間存在大量的DNA序列變異,因此沒有所謂“正?!钡娜祟怐NA序列。但是,如果我們要描述DNA序列的變化,我們需要根據某些標準描述這些變化;該標準是人參考基因組序列。
變異與突變
遺傳學家對突變的定義是“對DNA序列的任何遺傳變化”,其中可遺傳指的是體細胞分裂(組織中細胞的增殖)和種系遺傳(從父母到兒童)。DNA的這種改變可能沒有影響,但有時可能會導致個體的可觀察到的差異(“表型”)。因此,在過去,人群中的這種改變,特別是當它們與疾病狀態(tài)相關時,被稱為“突變”。然而,對于許多人來說,這個術語具有負面含義,并且讓人聯想到科幻小說和僵尸電影中出現的“突變體”!因此,現代實踐,特別是在醫(yī)療服務的背景下的醫(yī)學遺傳學,是指將參考序列的差異稱為“變異”。變異可以進一步分類為良性(與疾病無關)或致病性(與疾病相關),盡管已經鑒定出越來越多的人類DNA變異,我們仍然不確定其效果;這些被稱為“具有不確定意義的變種”或VUS(表2)。
表2國際癌癥研究機構變種分類
變異類型
描述
監(jiān)督建議
預測測試
5
絕對致病
根據現行指南進行全面高風險監(jiān)測
為有風險的家庭成員提供基因檢測
4
可能致病
根據現行指南進行全面高風險監(jiān)測
為有風險的家庭成員提供基因檢測
3
不確定
基于家族史和新生他已知風險因素的監(jiān)測
沒有提供基因檢測
2
可能不致病
視為檢測到“無突變”
沒有提供基因檢測
1
不致病
視為檢測到“無突變”
沒有提供基因檢測
盡管該系統(tǒng)設計用于與癌癥易感性中的潛在作用相關的變異分類,但它也可用于在新生他情況下對變異進行分類。
當群體中存在兩個(或更多個)不同版本的DNA序列時,它們被稱為“等位基因”:每個等位基因代表該序列的一個特定版本(或變異)。通過分析許多人類基因組,我們可以計算出特定變異在群體中發(fā)生的頻率,通常表示為“次要等位基因頻率”或MAF。在MAF值至少為1%的情況下,變異可稱為“多態(tài)性”,盡管這是一個相當隨意的標準。
單核苷酸變異:我們基因組中最常見的變異是僅影響一個堿基對(bp)的取代,稱為單核苷酸變異(SNV)或單核苷酸多態(tài)性(SNP)(圖1),取決于MAF。據估計,人類基因組中至少有1100萬個SNP(平均每300bp約1個)。如果我們對地球上每個人的基因組進行測序,對于我們基因組中的大多數位置,我們也會發(fā)現至少一個具有SNV的個體。
圖1 在人類基因組中發(fā)現的某些類型的變異
涉及一個或幾個核苷酸的變異顯示在染色體圖標上方,以及下面的結構變異;在每種情況下,相對于參考序列描述變異。為了描述結構變異,A,B,C和D代表大的DNA片段;Y和Z代表來自不同染色體的DNA片段。
插入和缺失(插入缺失):小于1000bp的插入或缺失在人類基因組中也相對常見,越小的插入缺失越多。
結構變異:結構變異定義為影響大于1000bp(1kb)的DNA區(qū)段的變異。它們包括易位,倒位,大缺失和拷貝數變異(CNV)。CNV是我們基因組的片段,其大小范圍從1000到數百萬bp,并且在健康個體中,拷貝數可以從零到幾個拷貝變化(圖1)。通過對許多人類基因組的分析,顯然CNV存在約12%的人類基因組序列。最大的CNV可能包含幾個完整的基因。當CNV的群體頻率達到1%或更多時,可以將新生稱為拷貝數多態(tài)性(CNP)。
重復變異:人類基因組包含大量重復序列。這些包括構成我們基因組大約45%的“散布重復序列”,并代表移動DNA元素(轉座子)的殘余。還有幾類'串聯重復',其中重復單元以頭對尾的方式并排形成相同(或非常相似)序列的重復陣列。每個陣列中的重復數可以變化,產生多個等位基因,使得這些基因座在群體內具有高度可變性,并且可以用于鑒定個體(參見下文)。串聯重復包括小衛(wèi)星和微衛(wèi)星(圖1 / 表3))。雖然從父母到孩子一般都是穩(wěn)定遺傳(即重復次數相同),但某些微衛(wèi)星的擴張與疾病有關。
表3小衛(wèi)星和微衛(wèi)星的比較
小衛(wèi)星
微衛(wèi)星
人類基因組中的數字
大約1500
大約500000
我們基因組中的位置
大部分接近染色體末端(端粒)
散布在所有染色體的整個長度上
單位重復長度
大約10-100 bp
2-6 bp
數組中的重復單元數
通常從大約60到> 1000
通常~6到~14
用于
DNA指紋識別
DNA分析;遺傳連鎖研究
也稱為
可變數目串聯重復序列(VNTR)
VNTR,短串聯重復序列(STR),簡單序列重復序列(SSR)
參考文獻
Maria Jackson, Leah Marks, Gerhard H.W. May, Joanna B. Wilson.The genetic basis of disease[J]Essays In Biochemistry,2018,62(5):643-723;