2017-09-20
可變剪切事件的發生增加了后生動物的轉錄組和蛋白組的多樣性。但是,對于可變剪切在單細胞中的活躍程度和功能,目前還知之甚少。美國遺傳醫學研究所的主任Jef D. Boeke教授帶領團隊利用單分子全長測序技術,通過一個開放性軟件SpliceHunter來發掘裂殖酵母減數分裂時期的轉錄組特征,發表在《Genome Research》,影響因子11.922。測序發現在裂殖酵母的減數分裂時期,發現17,669個異構體,其中發生了14,353個可變剪切事件。另外檢測到了770個新轉錄本和53個預測蛋白,表明與其他物種的同源性和理論的穩定結構遺傳。并且報告了異構體中可變剪切的復雜性,包含683個分子間區共同聯系的內含子對。對這些因素的評估表明主要的新異構體并不都是特殊條件下形成的可譯轉錄本,但是這些評估結果和生物學功能性新轉錄本是一致的。研究結果突出了裂殖酵母的性發育過程中異構體水平的多樣性和動態變化。
實驗發現4h之后,裂殖酵母的減數分裂開始,在6h的時候完成減數分裂。實驗選取0-10h的時間段,每兩個小時取樣一次,每個時間點兩次重復。對AS事件類型定義為8種:外顯子跳躍,包含外顯子,內含子保留,外顯子包含內含子,可變受體,可變供體,可變受體/供體,新外顯子。示例圖見圖1。
圖1 PacBio測序的轉錄組分析總結
三代測序共獲得2,266,791個CCSreads,其中包含1,322,840個FL CCSreads。過濾后鑒定出424,511個Iso-seq reads (Read of insert)(圖2A)。CCSreads的平均長度是1285bp,比之前的文章結果要略長。FL CCS reads和Iso-seq reads的平均長度是1,094bp和1,178bp,長度分布不隨時間點發生變化(圖2B)。PacBio測序發現了裂殖酵母的6,199個基因(所有基因的90%左右)。每個基因的FL CCS reads的平均覆蓋次數是71(圖2C),許多基因覆蓋次數超過100,有利于對新轉錄本進行深入研究。利用PomBase定義(非)編碼RNA和假基因,發現了4,993(97.1%)個編碼蛋白基因,1,121(73%)個非編碼RNA基因和18(62.1%)個假基因。對于FL CCSreads來說,97.4%比對到了編碼蛋白基因,這代表了所有獲得基因的80%,表明編碼蛋白基因的高覆蓋率(圖2D)。有趣的是,發現編碼蛋白的基因和ncRNA趨勢相反,RNA分子比例在減數分裂中期先減少,在后期又增加(圖E)。盡管大部分的reads含有0或者1個內含子,但是還有190,101個reads有多重內含子(圖2F)。另外統計了reads的5’或者3’端與對應的基因轉錄本起始位置(TSS)或者轉錄本終止位置的距離(TES)。從平均水平看,Reads在注釋基因的5‘端的上游延伸了232bp(圖2G),3’端的下游延伸了188bp(圖2H),暗示可變的5’和3’UTRs。
圖2 PacBio reads的一般特性
研究發現SPAC12B10.05(icp55)有59個明顯的聚腺苷酸mRNA異構體,包含了不同的AS剪切事件類型(圖3A)。在S.pombe中發現的AS類型的實例如下:可變剪切受體類型,SPCC1281.08(wtf11);包含外顯子類型,SPBC1703.10(ypt1);多重外顯子跳躍類型,SPCC1235.11(mpc1);外顯子包含內含子類型,SPAC144.02(iec1);內含子保留類型,SPAPB8E5.05(mfm1)和新外顯子類型,SPAC1296.03c(sxa2)(圖3B)。還發現,一些新轉錄本對應的reads數不比注釋轉錄本少,甚至更多(圖3C)。很多新異構體的剪切模式和相應的注釋異構體有密切關系,一些新的異構體和相應的注釋異構體相比,展現出明顯的時間進程模式。表明新異構體可能被暫時性差異調控。
圖3 S.pombe減數分裂時期可變剪切事件的實例分析
在S.pombe中主要的可變剪切類型是內含子保留,這可能是由于跳過了個體剪切位點引起的(圖4A)。保留的內含子的分布和所有注釋內含子的長度分布類似(圖4G)。結果發現只有1,300個基因有單獨的異構體,1,432個基因有兩個異構體,每個異構體至少覆蓋一次FL CCS read(圖4B)。超過3000個基因有2個以上的異構體,這表明S.pombe中轉錄組和AS介導的蛋白調控的普遍復雜性。另外,第一次對擁有單一AS事件的異構體(8,739,77.8%)和擁有多重AS事件的異構體(22.2%)進行了區分(圖4C)。為了檢驗AS事件的分析相關性,驗證了1708對可變的保留內含子,發現683個極相關的內含子對。相關性用基因間分子關聯值表示,相關聯的內含子對表現出了較高的關聯值,這表示他們的保留比互相排斥更加互相關聯(圖4J)。盡管在S.pombe中AS是普遍存在的,注釋異構體在大多數的基因中是占優勢的(3,677個基因有超過90%的reads比對上注釋異構體)。但是有648個基因,在已注釋異構體占的比例比可變異構體的reads總數更少,(圖4D)。大體上,匹配上注釋異構體的FL CCS reads幾乎比匹配上新異構體的reads要多8倍。除了AS型異構體,我們還發現mRNAs還明顯編碼770個新TUs和大約3,800個至少覆蓋一次read的反義異構體。支持新反義異構體的reads的數量通常比匹配已注釋反義異構體的reads數要少很多(圖4E)。在已注釋的剪切位點中,99.94%的二核苷酸是GU-AG,只有3個例外。但是GU-AG只在新剪切位點中出現了69.67%,或者在新內含子的87.5%的reads中(圖4I)。標準剪切位點的新內含子和注釋內含子長度相似,但是非常規剪切位點的新內含子大體上更長些(圖4H)。將套索測序和PacBio測序進行比較,發現外顯子跳躍,新剪切位點和新內含子三種AS事件只有少數是重疊的(圖4F),可能是因為兩種研究中的條件是獨特的,還和捕獲不同RNA分子的技術有關。
圖4 S.pombe減數分裂期可變剪切事件的描述
首先總結了不同AS事件的的總體變化趨勢,用每種類型對應的異構體數和reads數表示(圖5A)。發現大部分的AS類型在減數分裂期是增加的趨勢,但是外顯子跳躍事件在減數分裂早期是減少的,在后期卻是增加的;內含子保留相對沒有變化。下一步,檢測基因水平異構體的動態變化。多數個體AS異構體的豐度在減數分裂期是增加的,和總體趨勢一致(圖5B)。計算基因的注釋異構體和可變異構體對應的reads數之間的皮爾森系數(圖5C),表明大多數的可變異構體的豐度和注釋異構體是相關的。為了檢測反相關異構體,挑選了28個超多100個FL CCS reads的覆蓋度基因,以做后續分析。新異構體和注釋異構體的時間進程模式進行比較,見熱圖(圖5D)。在減數分裂的中期到后期,注釋異構體的表達增加,同時發現一個在減數分裂早期表達的48bp內含子保留異構體(圖5E,F)。圖5E是外顯子-內含子結構的實例,圖5F是注釋異構體和可變異構體的時間進程模式。
圖5 減數分裂期可變剪切的動態變化
可變剪切的主要作用之一就是形成同一基因的獨特功能的蛋白質。翻譯預測通常是從注釋的啟動子開始,會在第一個終止密碼子停止。測序分析共預測了18,166個異構體是可譯的,其他的異構體或是屬于非編碼蛋白的基因或是缺少終止密碼子或是已注釋的起始密碼子(圖6A)。在4,990個基因中,有14,292個獨特的可譯序列被預測。這些基因中,2,116個基因被預測形成專一的注釋蛋白,2,852個基因被預測編碼注釋蛋白序列和新蛋白序列。還有22個基因編碼和注釋蛋白序列不同的蛋白序列。大體上,新蛋白序列比注釋蛋白序列要短(圖6B)。我們發現編碼新蛋白序列的異構體的主模式是長度和注釋蛋白相似,編碼新蛋白序列的異構體次模式是長度小于注釋蛋白的20%(圖6C)。還有,預測蛋白序列的改變是因為可變剪切通常發生在一個編碼序列的開始位置(圖6D)。整體上講,40.3%的帶有AS事件的可譯異構體編碼和注釋異構體一樣的蛋白。超過半數的其他編碼新蛋白序列異構體至少部分和對應的注釋異構體是不同的閱讀框(圖6E)。大約33.9%編碼新蛋白序列的異構體和注釋異構體是同樣的閱讀框,其他大約4.07%的異構體隨閱讀框轉移變化而第二改變修復閱讀框。47.9%的AS異構體的翻譯終止于注釋的終止密碼子(圖6F)。只有2.32%的AS異構體的翻譯終止于下游但離注釋的終止密碼子很近(圖6G)。
圖6 預測檢測到的異構體的翻譯產物
新序列的保守性通過用BLAST和裂殖酵母,真菌和真核生物比對尋找序列相似的蛋白的方法被評估。二級和三級結構以及他們的特性使用RaptorX預測。對于53個新Tus,大部分和其他裂殖酵母有同源染色體,并沒有明顯的偏好(圖7A)。另外,檢測了550個AS異構體的新氨基酸序列的C端的保守性,reads覆蓋了>2CCS FL reads,長度至少是19aa。177個AS異構體和其他物種有同源染色體(圖7B)。下面,系統評估了新蛋白的二級結構形成。注釋蛋白一致表現出低水平的失序,和注釋ncRBA的最長ORFs對應的假設蛋白表現出完全的失序(圖7C)。研究在插入(內含子保留)和缺失(外顯子中內含子)氨基酸序列中的失序殘留物的模式,發現低水平失序的主要模式和完全失序的次模式(圖7D)。然后,研究AS異構體中可變的C端氨基酸如何影響二級結構。圖7E表明大多數改變的C端維持α-helix (H), β-sheet (E). and coil (C)的比例。
圖7 保守性和二級結構分析
參考文獻:
Kuang Z, Boeke JD, Canzar S. The dynamic landscape of fission yeast meiosis alternative-splice isoforms[J]. Genome Research, 2017, 27(1):145.