近年來聯(lián)合多組學分析已經(jīng)成為表觀領域的研究熱點,利用單一組學數(shù)據(jù)分析致病因子的局限性愈發(fā)顯著。通過對多種層次和來源的高通量組學數(shù)據(jù)的整合分析,系統(tǒng)地研究臨床發(fā)病機理、確定最佳疾病靶點已經(jīng)成為精準醫(yī)學研究的重要發(fā)展方向。
多組學聯(lián)合分析將有助于人們更加系統(tǒng)全面的認識腫瘤的生物學行為,進一步為尋找有價值的腫瘤標志物和探討腫瘤相關機制提供新的線索。今年來多組學在肺癌,胃癌等癌癥的研究當中取得了不錯的研究進展隨著組學分析技術的不斷發(fā)展,整合基因組,表觀組,轉(zhuǎn)錄組等組學分析,可以多層級全面的了解腫瘤的發(fā)生發(fā)展機制。。這篇NC文章聚焦在了肝癌這個腫瘤上面,看看組學分析能夠得到什么有意思的發(fā)現(xiàn)呢?
簡單介紹一下今天的主角:HCC,肝細胞癌(Hepatocellular carcinoma HCC)是常見的惡性腫瘤類型之一,在全球癌癥死亡原因中排名第二,大約90%的原發(fā)肝癌都屬于肝細胞癌。中國是HCC患病率最高的地區(qū),每年約50%以上的新診斷和死亡的病例都發(fā)生在中國,并且我國被診斷為肝癌的患者平均年齡為55-59歲,比國外肝癌低發(fā)率國家要早近20年[1,2,3]。肝細胞癌(Hepatocellularcarcinoma,HCC),全球惡性癌癥死因“惡名榜”第二。中國是HCC的重災區(qū),不僅“貢獻”50%的全球HCC新發(fā)和死亡病例,且平均年齡55-59歲比國外HCC低發(fā)國家早近20年。
? 作者從以轉(zhuǎn)錄組的數(shù)據(jù)入手,結合基因組數(shù)據(jù)和表觀數(shù)據(jù)進行差異分析??茨懿荒苷业?/ins>與肝癌的發(fā)生發(fā)展密切相關的異常基因或者是通路。
?這篇文章主要關注)肝癌轉(zhuǎn)錄組學基因和表觀遺傳的差異[1] [2]
主要研究思路是:1.分析64個肝癌病人樣本中,DNA甲基化(METcor)和DNA拷貝數(shù)變異(CNVcor),探究兩者是否在肝癌發(fā)病上存在“共調(diào)控”作用(這里增加用到的技術手段,如富集分析、熱圖分析,下面亦然,讀者一開始看到這里會介紹不同工具的實際應用才有繼續(xù)讀下去的欲望,反正我是這個樣子的)
2.進一步研究,能否根據(jù) MET cor和CNV cor進行肝癌分型,在TCGA數(shù)據(jù)庫中進行驗證(NMF算法)
3.篩選對HCC侵襲性影響最大的基因變異BAP1,用Huh7細胞轉(zhuǎn)染實驗進行驗證.
In this paper abstract, the author gives theseresults:
??1: The frequencies of the aberrancies of the DNA copy-number-correlated(CNV cor)expression genes and the methylation-correlated expression(METcor)genes are co-regulated significantly.
??(異常的MET和CNV的基因有些顯著的共調(diào)控作用)
??2:Multi-omics integration of the CNVcor and METcor genesreveal three prognostic subtypes of hepatocellular cacinoma. which can bevalidated by an independent data.
??(多組學整合分析異常的CNV/DNA甲基化相關基因揭示了肝癌的三個亞型,并且得到了獨立數(shù)據(jù)的驗證)
??3:The most aggressive subtype expression stemness genes has frequent BAP1mutations, implying its pivotal role in the aggressive tumorprogression.
??(在三個亞型中侵襲性最高的亞型中發(fā)現(xiàn)BAP1基因突變,對腫瘤的侵襲有著至關重要的作用)
帶著問題去思考:
1:Why they choose HCC?
為什么選擇肝癌?
2:How to find the high correlation between CNVcor andDNAcor?
作者是找到這些異常的DNA甲基化基因和拷貝數(shù)變異的基因的?
3:How to prove this correlation mechanism?
如何去如何起證明這些基因的共調(diào)控作用呢?既然共調(diào)控,調(diào)控機制是什么?(或者是說如何去聯(lián)系DNA甲基化和拷貝數(shù)變異的?)
4:How to classify the carcinoma subtype? andhow to show the result?
對肝癌進行分型是如何分的?分類結果如何顯示呢?怎么驗證我的結果(畢竟自己的樣本量很小)
5:How to find the most significant gene which has thepivotal role in tumor aggression?
如何篩選功能最顯著表達差異的基因(如何篩選到BAP1?)既然我根據(jù)變異進行了分型,那么在這當中貢獻最大是哪個基因,怎么篩選
1:DNA methylation and CNV aberrationormutation occur in cancer progression.
(DNA甲基化和拷貝數(shù)變異發(fā)生在腫瘤的侵襲中)
2:As HCC, genomic profiling studies demonstratedthe enormous heterogeneity of genomic and epigenomicderegulation.
(肝癌是重大公共衛(wèi)生問題,中國尤甚;同時對于肝癌來說,基因組和表觀組的異質(zhì)性大)
3:In previous study, several key cancer-relatedgene such as IGF2 UHRF1 regulation function by DNAmethylation
(在之前的研究中,一些癌癥相關的基因通過DNA甲基化去發(fā)揮功能作用,如 IGF2 UHRF1這些基因)
4:The transcription has influenced by the CNVand DNA methylation , whether it has co-correlation is unclear .
(轉(zhuǎn)錄受到DNA甲基化和拷貝數(shù)變異的影響,既然都可以影響轉(zhuǎn)錄,那么他們之間有沒有協(xié)同作用呢?這方面的研究還不是很清楚)
5:Genomic and epigenomic profiles of DNAcopy-number variation (CNV), DNA methylation (MET), and gene expression (EXP)were obtained from 64 HCC patients
(一共用了64個肝癌的CNV,MET,EXP樣本信息)[3] [4]
(DNA甲基化和拷貝數(shù)變異會導致轉(zhuǎn)錄失調(diào))
Transcriptome deregulation by DNA copy number or methylation.png
a. 分別計算DNA甲基化MET[5] 和mRNA表達的相關性(藍色的),CNV和mRNA表達的相關系(紅色的),然后發(fā)現(xiàn)DNA甲基化(MET)是和表達呈負相關的,而CNV和表達呈正相關(因為DNA甲基化MET相關性系數(shù)分布偏左邊為-0.153,反之~)
a圖關注的點
b.在a圖的基礎上,需要找到差異顯著的那些基因,然后|r|>0.5,也就是紅圈圈的位置,然后發(fā)現(xiàn)了CNVcor有813個,METcor有321個。把這幾個基因集進行求交集發(fā)現(xiàn)了只有24個overlap基因.
ps:拿到這些基因做了一個富集分析,發(fā)現(xiàn)CNV差異基因富集在蛋白相關的信號通路上,MET的差異主要富集在炎癥反應等上面(感覺富集到的結果可能做不出什么文章。然后繼續(xù)往下看)
富集分析結果
c. CNV基因顯示出了它的一個基因組偏好性,比較集中在8號染色體上。DNA甲基化的基因在全基因組上分布沒有偏好性。
d.(左圖) 發(fā)現(xiàn)DNA甲基化的基因一般都分布在inter-genic(基因間區(qū))而不是CpG島。(右圖)發(fā)現(xiàn)DNA甲基化更偏向于發(fā)生在基因body區(qū)域,推測開放區(qū)域的甲基化可能會導致轉(zhuǎn)錄異常,芯片中CpG島的表達方式N_shore,N_shelf等。[6] [7]
e:因為已經(jīng)拿到了60多個病人樣本,計算每個病人樣本的CNVcor上調(diào)和下調(diào)的基因個數(shù),METcor上調(diào)和下調(diào)的個數(shù)。然后畫出e的柱狀圖。(不同顏色代表上下調(diào)的基因)下面那個熱圖的意思就是說紅色的上調(diào)的,藍色的是下調(diào)的基因位點。
f:去尋找CNVcor上調(diào)和下調(diào)基因和METcor上調(diào)和下調(diào)的相關性。每個點代表著一個病人樣本。橫縱坐標代表這個病人的差異基因的個數(shù),然后做了一個相關性分析。(但是這個相關性系數(shù)值不大,最大的0.86,CNV_DOWN和MET_DOWN有正相關,其他的都是弱相關了)
Q:這整個一個大Figure說明了什么?
A:個人認為是確定DNA甲基化和拷貝數(shù)變異適合轉(zhuǎn)錄組異常相關的,至于有多么相關,數(shù)據(jù)給出信息。
對于CNV和MET差異表達基因可以用于肝癌的分子分型
Identification of molecular subtypes of HCC using CNVcor andMETcor genes.
a,b:非負矩陣分解(Non-negativeMatrix Factorization,NMF)算法【這是無監(jiān)督學習算法的一種,和k-mean,分層聚類等目的一樣,為了把這些樣本進行分類。感興趣的可以看看:https://blog.csdn.net/google19890102/article/details/51190313】對CNV和MET基因進聚類,然后得到的結果,OS 是overall survival(總體生存時間),TTR是time to tumor recurrence(腫瘤復發(fā)時間)。發(fā)現(xiàn)對于CNV分類來說可以把這些樣本分成3類,用MET分類的話可以分成4類。而且從分類效果OS,TTR來看CNV的分類效果更好。
[iCluster,:一種可以利用R包進行分類的分類方法,詳情可以見:http://www.bioconductor.org/packages/devel/bioc/html/iClusterPlus.html]
c:熱圖顯示了iCluster分析鑒定的亞型表達模式。使用NMF聚類方法鑒定的CNVcor或METcor基因的亞型的比較,每個亞型鑒定的結果用彩色條形標記。每個亞型中CNVcor-up、CNVcor-down、METcor-up、METcor-down基因的異常表達頻率如圖(最底下)所示。中間的是熱圖。
d:用K-Mean的方法畫出利用icluster方法分類的這種類型的OS,TTR曲線,看看分類效果。
【我們還比較了iCl1,iCl2和iCl3亞組的臨床病理特征,發(fā)現(xiàn)iCl1腫瘤比iCl2或iCl3的侵襲性更強(P =0.002,表1)。 其他臨床特征在亞組之間沒有差異。 這些結果與分子亞型的獨特侵襲性特征一致。基于這些發(fā)現(xiàn),我們建議CNVcor和METcor基因的綜合分析可以識別分子亞型,每個分子亞型具有與轉(zhuǎn)錄失調(diào)相關的基因組和表觀基因組特征的不同組合,與不同的預后結果相關?!?/span>
Q:得到了這個分類結果,相當于一個訓練集,那么如何驗證這個訓練集的分類效果呢?
A:利用數(shù)據(jù)庫,大樣本庫的數(shù)據(jù)進行驗證
Validation of the molecular subtypes in an TCGA data set.png
這個目的就是為了在大樣本庫中重復他們之前結果,用的數(shù)據(jù)是TCGA的數(shù)據(jù)
a:觀察到CNV和轉(zhuǎn)錄組之間的相關系數(shù)的總體分布向右偏,MET左偏,
b,c:尋找差異的基因,求交集,發(fā)現(xiàn)CNVcor基因在8號染色體進行富集和之前一致
d.e: METcor基因在open sea區(qū)域和gene body域比在CpG島和TSS區(qū)域富集更頻繁 此外,異常CNVcor和METcor基因的頻率之間的相關性也得到驗證,相關性0.82.
f,g :分類效果,C1組DNA拷貝數(shù)和DNA甲基化畸變率最高,C3組最低
h:OS,RFS分析圖
Q:發(fā)現(xiàn)利用CNV和DNA甲基化是可以用作分子分型的,大樣本也重復出來了結果,接下來如何分析呢?如何去找DNA甲基化和拷貝數(shù)變異的關系呢?
我們接下來看看作者如何借助統(tǒng)計學去試圖尋找答案
整合DNA甲基化數(shù)據(jù)和拷貝數(shù)變異數(shù)據(jù)
Coordinated aberrations of DNA copy numbers and methylation
圖a,b整合了TCGA的數(shù)據(jù)和他們自己已有的數(shù)據(jù)進行分析。
CNVgain的頻率與CNVloss的頻率顯著正相關(r = 0.43,P = 1.5×10-20,圖4a)。 相反,MET gain的頻率與MET loss的頻率呈負相關。
在C圖中,我們可以看到橫坐標是CNV頻率,縱坐標是MET頻率,可以看出他們有顯著的相關性
在圖d,e,f,g中,分別以CNV gain ,CNVlose,MET gain ,METloss進行坐標變換。然后都發(fā)現(xiàn)他們的之間的相關性與橫縱坐標軸的變量變化無關。
(雖然不太明白它這么比的目的是啥)
[8] 總之,我們認為頻繁的DNA拷貝數(shù)異常的HCC患者更可能經(jīng)常出現(xiàn)DNA甲基化異常。 異常CNVcor和METcor基因的這些相關頻率可能意味著DNA拷貝數(shù)和DNA甲基化的異常之間的密切關系。[9] [10]
Identification of genomic key features in the HCC subtypes
a:TCGA中肝癌的數(shù)據(jù)樣本分析,剔除了同義突變后,篩選出在189個發(fā)生10次以上突變的重復突變基因,我們鑒定出37個差異突變基因,其中>5 %的突變頻率在C1、C2、C3亞型之間存在差異(其中有2個肝癌樣本沒有基因組突變數(shù)據(jù)),發(fā)現(xiàn)了BAP1是C1突變的最頻繁的基因。CTNB1是C2,C3當中突變最頻繁的基因,而且和腫瘤的發(fā)展高度相關。
b:GeneMania軟件做的圖(基因間相互作用的,可以在cytocsape里面裝這個插件,也可以去分析網(wǎng)站GeneMANIA,網(wǎng)址: http://genemania.org),為了找到亞型的功能決定區(qū)域,利用SNU和TCGA數(shù)據(jù)交集CNVcorgenes (n?=?95) and METcor genes (n?=?179)進行分析,發(fā)現(xiàn)了UBC 這個基因在CNV基因集中相關系數(shù)很高。(越靠中心說明了越重要。)
c:先對這兩個基因集求一下交集,找到相同的差異的上調(diào)或者下調(diào)的基因。舉個例子來說:CA9是iCl1/C1腫瘤中上調(diào)表達差異最大的基因。(在文獻中,CA9是缺氧的一個標志物,其過表達在HCC19中是一個不好的預后標志物。此外,與其他亞型相比,侵襲性iCl1和C1腫瘤表達了高水平的干細胞相關基因,如KRT19、EPCAM和PROM1。與Rhee, H等人.報道的CA9的表達與HCC中干細胞相關表型相關[11] [12] 的結果符合[4]。)
??基于這個可能和干性[13] 有關的特性,進一步評估已知的和干性相關的基因集(即, ESC、Nanog、Oct4、Sox2、Myc1、Myc2等已知的和細胞干性相關的基因集)。在熱圖中,黃色代表高表達,藍色代表低表達,發(fā)現(xiàn)在IC1,C1中這些干性的基因集高表達了。說明和這些差異表達的基因和腫瘤干性有關系。
??我們還將我們的分類與之前定義HCC亞型分子分型分類器的研究進行了比較。Kim_65genes (34 out of 65), Yamashita_EpCam_DOWN (7 out of 18), Woo_CLHCC_DOWN (203out of 374), and Boyault_G123_DOWN (26 out of 50) 展現(xiàn)出來和篩選出來差異基因有overlap。這也意味著這些以前的分類器的表達可能與CNVcor和METcor基因畸變的頻率有關。
(PS:腫瘤干細胞(CsC)理論認為腫瘤的發(fā)生、發(fā)展、轉(zhuǎn)移和復發(fā)與CsC密切相關,對CSC的研究已成為腫瘤研究的熱點。自我不斷的更新復制以及保持分化的潛能是干細胞的特性。Sox2、Nanog等轉(zhuǎn)錄因子是維持干細胞干性的核心轉(zhuǎn)錄因子,那么有關于這些轉(zhuǎn)錄因子的表達情況是作者探究肝癌細胞是否具有干性的核心關注點。)
??綜上所述,這些發(fā)現(xiàn)提示,與DNA拷貝數(shù)和DNA甲基化相關的HCC分子亞型也與BAP1和CTNNB1突變有關,這可能在HCC亞型進展中發(fā)揮調(diào)控作用。對于分類結果來說,我們認為C1和iCl1腫瘤可能具有這些亞型的共同功能特征,如侵襲性或干性。我想知道為什么這里分析出兩個突變,后面只驗證了一個:因為C1是惡性程度最高的HCC,所以更關注BAP1,另外一個就不詳細研究
d:展示了BAP1抑制對肝癌細胞干細胞基因表達的影響。Huh7細胞通過轉(zhuǎn)染以BAP1 shrna,下調(diào)BAP1的表達,發(fā)現(xiàn)了包括CA9、KRT19、EPCAM、PROM1在內(nèi)的stemness基因的顯著上調(diào)表達。這些結果有力地支持了我們的發(fā)現(xiàn),即BAP1突變可能至少在一定程度上促進了一種侵襲性HCC亞型表達。
這篇文獻的主圖基本上就講到這里了??赐曛笏伎贾暗膯栴}:
回到之前的問題:
1:Why they choose HCC?
為什么選擇肝癌?
因為肝癌在全球的發(fā)病率死亡率非??壳?ins datetime="2019-03-04T11:04">,而且CNV和MET異質(zhì)性比較大。研究既有實際意義又有可行性
2:How to find the varient and highcorrelation CNVcor and DNAcor?
作者是找到這些異常的DNA甲基化基因和拷貝數(shù)變異的基因的?
通過表達譜,找到|r|>0.5的那些位點,進行分析。同時通過TCGA的樣本分析,也找到很多這種差異表達基因。
3:How to prove this correlation mechanism?
如何去如何起證明這些基因的共調(diào)控作用呢?既然共調(diào)控,調(diào)控機制是什么?(或者是說如何去聯(lián)系DNA甲基化和拷貝數(shù)變異的?)
通過尋找相關性,畫線形圖,找到相關性系數(shù)最大的進行比較。總體來說,通過自己的64個肺癌樣本+TCGA數(shù)據(jù)庫驗證,證明了CNVcor和METcor基因的頻率之間的相關性。
4:How to classcify the carcinoma subtype? and how toshow the result?
對肝癌進行分型是如何分的?分類結果如何顯示呢?
利用了非負矩陣分解,對CNVcor和METcor的基因進行分類得到結果C1,C2,C3。并且比較了這幾類的總體生存率和轉(zhuǎn)移率。
5:How to find the most significant gene which has thepivotal role in tumor aggression?
如何篩選功能最顯著表達差異的基因(如何篩選到BAP1?)
通過找到基因的突變頻率,然后發(fā)現(xiàn)了BAP1這個基因在C1里面突變的頻率是最多的,然后CTNB1在C3里面突變頻率更高。(ps:通過求兩個基因集的overlap進行熱圖分析,可以發(fā)現(xiàn)一些和干性相關的基因,并且進了實驗驗證)
文獻thinking:
1:首先樣本的數(shù)量60多對,感覺不是很多。而且作者在文章中也承認樣本量的問題會造成結果的偏差。(雖然TCGA數(shù)據(jù)庫驗證可以部分找補)
2:對于采取聚類的方式,用icluster這個是當reference嗎?目的沒太明白
3:還有一些點可以深挖掘,比如說找到了一下表達差異相關的基因,那么這些基因在表觀上有沒有其他的作用,(雖然有討論Bap1和H3K27me3的關系)比如說是不是還有其他和組蛋白修飾或者是ncRNA有關?
4:找到的這些significant基因當診斷的marker是否可行(或者治療靶點)?
5:DNA甲基化和CNV的相關性問題,既然找到了CNV_DOWN和MET_DOWN有正相關,圖一f中,是不是可以繼續(xù)挖下去呢?進一步解釋一下DNA甲基化和CNV之間的是如何影響的呢?畢竟文章只是說存在相關性。
本文首發(fā)于 ”百味科研芝士“ 微信公眾號