2021-03-24
在分子水平注釋人類疾病仍然是一個挑戰(zhàn),因為93%與疾病相關(guān)的突變位點位于基因組的非編碼區(qū)域,而這些區(qū)域如何調(diào)控基因的轉(zhuǎn)錄和翻譯仍然未知。為此,來自麻省理工學(xué)院的研究人員基于多個大型合作基因組圖譜項目(包括ENCODE、Roadmap Epigenomics、Genomics of Gene Regulation)的數(shù)據(jù),提出了一個新的人類表觀基因組圖譜,命名為EpiMap(Epigenome Integration across Multiple Annotation Projects)。這項研究結(jié)果以 “Regulatory genomic circuitry of human disease loci by integrative epigenomics”為題于近日發(fā)表在Nature上。
文章發(fā)表于Nature
利用EpiMap,研究人員:
基于多個表觀遺傳修飾信號注釋了染色質(zhì)狀態(tài)(chromatin states),同時結(jié)合DNA可及性注釋增強子;
將增強子分為不同的模塊(enhancer modules),并根據(jù)轉(zhuǎn)錄因子motif和GO富集結(jié)果推斷每個模塊的上游調(diào)控轉(zhuǎn)錄因子和下游遠程調(diào)控基因;
整合增強子位置,增強子和基因的遠程交互作用和GWAS SNP結(jié)果,預(yù)測SNP的靶基因和組織特異性;
將GWAS性狀劃分為“單因子”和“多因子”性狀,揭示了它們與疾病的關(guān)系;
區(qū)分了“單效”和“多效”位點,并發(fā)現(xiàn)得分最高的位點通常有多個驅(qū)動突變,通過不同的方式發(fā)揮“多效”功能:多個增強子和一個共同的靶基因、調(diào)控單個組織中的多個基因或多個組織中發(fā)揮功能。
研究內(nèi)容與結(jié)果
研究人員使用統(tǒng)一的數(shù)據(jù)處理流程分析了來自859個樣本的3,030個數(shù)據(jù)集,并另外使用算法推算出了14,952個數(shù)據(jù)集,極大地擴展了數(shù)據(jù)集的覆蓋范圍。
接著研究人員使用表觀基因組數(shù)據(jù)注釋了18中不同的染色質(zhì)狀態(tài)(chromatin states),并結(jié)合其中的活躍增強子狀態(tài)與DNase-seq數(shù)據(jù)注釋了210萬個活躍的增強子區(qū)域。這些區(qū)域累積覆蓋13%的基因組區(qū)域,單個生物樣本平均覆蓋率達到了0.8%,這相對于ENCODE 2020版本增加了兩倍以上。
圖1. EpiMap資源概述,來源:Nature
研究人員在833個生物樣本中定義了基于H3K27ac的局部活性水平,并基于此將增強子分為300個增強子模塊(enhancer modules),包括290個組織特異性模塊和10個廣泛活躍的模塊。
結(jié)合表觀基因組-轉(zhuǎn)錄組的相關(guān)性以及增強子與鄰近基因的距離,研究人員預(yù)測了330萬個組織特異性的增強子-基因交互(enhancer-gene links),這在預(yù)測的交互數(shù)量上和生物學(xué)相關(guān)性上都超越了以前的方法。
研究人員預(yù)測了其中273個模塊的上游調(diào)控轉(zhuǎn)錄因子,涉及1,175個motifs,分為160個原型(archetypes),包括152個組織特異性原型和8個通用原型。組織特異性的轉(zhuǎn)錄因子motif包括:血液和免疫樣本中的GATA和SPI1;大腦和周圍神經(jīng)系統(tǒng)中的NEUROD2和RFX4;消化組織中的KLF4;胎盤、肌衛(wèi)星和上皮細胞中的TEAD3。通用的motif包括肝,腎和胰腺中的HNF1A(與NR5A2共同作用);免疫,骨骼和癌癥樣本中的AP-1(也稱為JUN)或JDP2;TEAD3在不同的組織中與不同的轉(zhuǎn)錄因子協(xié)作:MYF6(肌球蛋白),TFAP2A(胎盤)和AP-1(基質(zhì))。
Motif富集將組織分類為不同的亞組,比如心臟被劃分為胚胎心臟(NFIX和E2F1)、主動脈和動脈(SRF和PAX5)以及心腔(MEF2D和ESRRG);大腦被細分為胚胎(NFIX和NEUROD2),成人大腦(RFX2和SOX10)和星形膠質(zhì)細胞(NFE2L2和JDP2);造血細胞被細分為為自然殺傷細胞(ETV2)、B細胞(NFKB2和SPIB)和多能祖細胞(GATA1和NFE2L2)。
圖2. 增強子模塊回路,來源:Nature
接下來,研究人員使用210萬個增強子注釋及其組織特異性來解釋與復(fù)雜性狀相關(guān)的GWAS位點。研究人員匯總了了一份來自803項GWAS研究的GWAS位點數(shù)據(jù)集,捕獲了70,000 多個GWAS位點。研究人員發(fā)現(xiàn)了17,658個顯著的性狀-組織富集,覆蓋了245個性狀中的27,000多個候選GWAS SNP。
研究人員結(jié)合表觀基因組學(xué)的注釋和增強子-基因的遠程交互作用,對疾病相關(guān)的位點產(chǎn)生了新的認識。例如乳腺癌GWAS富集在上皮細胞和癌細胞樣本中,其中SNP rs17356907位于靠近USP44基因的增強子內(nèi)部,但與另一個基因NTN4交互,而NTN4與腫瘤發(fā)生和血管生成有關(guān)。精神分裂癥GWAS在中額葉皮質(zhì)樣本中富集,其中SNP rs2007044位于一組靠近DCP1B啟動子的增強子內(nèi)部,所有這些增強子都與CACNA1C交互,已知CACNA1C編碼與神經(jīng)精神疾病有關(guān)的鈣通道蛋白,提示多種變異可能共同導(dǎo)致其失調(diào)。研究人員已經(jīng)提供了一個交互式網(wǎng)站(http://compbio.mit.edu/epimap),用于探索與500多個性狀相關(guān)的超過30,000個額外的GWAS位點。
圖3. 基于增強子活性距離的833個生物樣本的層次聚類,來源:Nature
然后,研究人員研究了性狀-組織、性狀-性狀和組織-組織表觀基因組GWAS共富集模式,以了解它們之間復(fù)雜的相互作用。
首先,研究人員使用在每個性狀中富集的組織數(shù)量來將性狀劃分為兩類:56個“單因子”性狀(22%)在一個組織中具有最多富集(例如,心臟的QT間期、腦的受教育程度和免疫細胞的甲狀腺功能減退),而192個“多因子”性狀(79%)平均富集在五個組織類別中(例如,免疫細胞和大腦中的阿爾茨海默病;脂肪、肌肉、腎臟和消化組織中的腰臀比),其中26個“多因子”性狀(11%)平均富集在14個組織類別中(包括冠狀動脈疾病(CAD)在19個組織組中,包括肝臟、心臟、脂肪、肌肉和內(nèi)分泌樣本)。
根據(jù)組織的共富集特性來區(qū)分每個GWAS性狀的“主要”組織(例如免疫細胞,肝臟,心臟,大腦和脂肪組織)與“伙伴”組織(例如,消化、肺、肌肉和上皮組織),“主要”組織和“伙伴”組織相比始終表現(xiàn)出更高的富集,這表明它們具有驅(qū)動作用而不是輔助作用。特定的主要-伙伴組織共同發(fā)生的頻率比預(yù)期的要高,并且揭示了它們可能在性狀上共同發(fā)揮作用,包括:肝臟與脂肪組織(膽固醇特征)、消化組織(膽結(jié)石)和血細胞(血清蛋白水平);以及脂肪組織與內(nèi)皮細胞(腰臀比)、心臟組織(心房顫動)和肌肉組織(血壓)。
圖4. 性狀-性狀網(wǎng)絡(luò),來源:Nature
最后,研究人員將“多因子”性狀的SNPs劃分為組織特異性的組分。例如,339個與CAD相關(guān)的SNPs劃分為:195個富含動脈、心臟和血管形態(tài)發(fā)生的心臟增強子SNPs;171個脂質(zhì)穩(wěn)態(tài)的內(nèi)分泌增強子SNPs;169個膽固醇和脂質(zhì)代謝和轉(zhuǎn)運的肝臟增強子SNPs;軸突導(dǎo)向和局灶粘附中122個脂肪增強子SNPs,與脂肪組織神經(jīng)支配過程一致;112個胚胎干細胞衍生的肌肉增強子SNPs,富含中隔形態(tài)發(fā)生、腔和主動脈發(fā)育。
這些分區(qū)也顯示出不一樣的協(xié)同關(guān)系。例如:心臟,肌肉和內(nèi)皮細胞增強子中的CAD SNPs均與與高血壓和心房顫動相關(guān);肝臟和內(nèi)分泌增強子中的CAD SNPs與收縮壓相關(guān);脂肪增強CAD SNP與腰臀比相關(guān);以及肝臟,脂肪和內(nèi)分泌CAD SNPs與HDL膽固醇相關(guān)。
從單個多因子性狀位點來看,既有在單個組織中富集的,也有在多個組織中富集的。一些CAD SNP位點僅與心臟增強子重疊(例如EDNRA、TCF21和ADAMTS7),一些僅與肝臟增強子重疊例如PCSK9),一些不位于任何增強子中,許多位于廣泛活躍的增強子中(例如,LDLR、APOE、SH2B3和COL4A1),這表明即使在單個SNP位點水平上也存在多種調(diào)控機制。
即使看似單一的SNP也會在其他組織里:rs17114046在肝臟中有很強的信號,同時它位于多個增強子中,并調(diào)控基因PLPP3,肝臟特異性PLPP3缺失會增加動脈粥樣硬化;然而這個SNP也同時連接到另一個肝臟產(chǎn)生的補體因子C8A,并通過心臟特異性和肌肉特異性的交互連接到PRKAA2。這說明單個SNP也可能具有多種功能,這一特性存在與許多高度富集的SNP中。
圖5. 多因子性狀的劃分,來源:Nature
小結(jié)
該研究結(jié)果證明了高通量、豐富多維、高分辨率的表觀基因組和調(diào)控回路注釋在研究基因調(diào)控、復(fù)雜性狀和疾病位點機制研究中的實用性,使得生物空間和疾病復(fù)雜性的規(guī)模、范圍和覆蓋面達到較大的程度。