2017-12-06
越來越多的研究成果表明非編碼RNA(lncRNAs)和環狀RNA(circRNAs)參與胚細胞的發育。但是鮮少有研究lncRNAs和circRNAs在胚胎生殖細胞的自我更新和細胞分化中的功能和機制。因此,本文通過高通量測序,研究mRNAs,lncRNAs和circRNAs在雄性和雌性小鼠胚胎生殖細胞中的表達分析。在胚胎生殖細胞中鑒定了18,573個新lncRNAs和18,822個circRNA,并通過RT-PCR手段驗證了這些lncRNAs和circRNAs的存在。結果表明雄性和雌性小鼠的胚胎生殖細胞有著相似的GDNF(神經膠質細胞源性的神經營養因子)信號傳導機制。隨后發現8,115個mRNAs,3,996個lncRNAs和921個circRNAs表現有性別偏向的表達方式,這可能和生殖細胞獲得獨特性別屬性需要分化成配子有關系。基因本體論(GO)和KEGG通路富集分析揭示了這些性別偏向的lncRNAs和circRNAs的不同功能。之后利用生物信息構建了關聯表達網絡圖,包括編碼-非編碼的共表達競爭內源性RNAs。共表達分析表明數百的lncRNAs和老鼠的胚胎生殖細胞的性別差異有關,包括lncRNA Gm11851,lncRNA Gm12840,lncRNA 4930405022Rik,和lncRNAAtp 10d。ceRNA網絡圖推測lncRNA Meg3和circRNA Igf1r會競爭性結合miRNA-15a-5p,增加靶基因Inha,Acsl3,Kif21b和Igfbp2的表達。這些發現為lncRNAs和circRNAs的研究提供了新視角,也為以后對胚胎生殖細胞中lncRNAs和circRNAs的調控機制的研究奠定了基礎。
使用熒光活化細胞分選法分離SSCs和FGSCs。(圖1A-1D)評估胚胎生殖細胞的方法如下:首先通過RT-PCR檢測SSCs和FGSCs中的Mvh,Dazl,Fragilis,Otc4,Stella和Blimp1的基因表達。結果表明細胞中表達Mvh,Dazl,Fragilis,Otc4,Stella和Blimp1。然后,免疫熒光分析驗證Mvh,Otc4和Dazl的表達。隨后,基于前面的結果,檢測18個生殖細胞基因表達,發現18個生殖細胞基因在SSCs和FGSCs中都有表達。最后,結合EdU的熒光免疫分析證明SSCs和FGSCs擁有繁殖能力,分離得到的SSCs和FGSCs中真正的胚胎生殖細胞占有相似的比例(>90%)(圖1E-1J)。通過Illumina(雙端)測序技術,分析兩種胚胎生殖細胞中mRNAs和非編碼RNAs的表達。SSC和FGSC文庫分別產生了249,912,216和216,924,516條raw reads,GC含量分別是53.5%和50.7%。過濾之后,得到233,978,622(93.6%)和246,157,442(94.0%)條clean reads,用以做后續分析。SSC和FGSC文庫比對上小鼠參考基因組(UCSC mm10)的比例分別是86.7%和91.1%,利用Scrupture和Cufflinks組裝了58,364個轉錄本。
圖1 FGSCs和SSCs的分離和純化
將6個樣本的數據在RefSeq,Ensembl,或者NoncodelncRNA數據庫中搜索以確認新lncRNA。為了將58,364個轉錄本中lncRNA的假陽性最小化,使用嚴格的過濾方法去掉沒有lncRNA所有特性的轉錄本。去除長度小于200bp,只有一個外顯子,少于3次覆蓋率的轉錄本,使用CPC和CNCI軟件對剩余的轉錄本進行編碼潛能預測,鑒定出18,573個新lncRNAs和5803個已知lncRNAs(圖2A)。新lncRNA的平均長度是1,427個核苷酸,和已知lncRNAs長度相似(圖2B)。lncRNAs和mRNAs的開放閱讀框(ORF)的平均大小分別是86.24bp和394.84bp,表明mRNA的ORFs要明顯長于lncRNA的ORF。LncRNA不能編碼蛋白質因為缺少重要的ORFs。在18,573個新lncRNAs中,我們發現4300個新lncRNAs表達量FPKM值>1,12,022個新lncRNAs表達量FPKM值>0.5。隨機挑選SSCs和FGSCs文庫中鑒定的6個新lncRNA轉錄本,通過RT-PCR驗證。圖2C中,6個lncRNA轉錄本進行擴增獲得預期大小的轉錄本。另外用RT-PCR擴增TCONS_00083536,通過RACE技術克隆基因序列,獲得了1163bp長度的序列。克隆得到的序列能和RNA-seq數據庫完全匹配。qRT-PCR結果表明兩組樣本中選擇的lncRNAs的表達模式和lncRNAs的FPKM值是一致的,測序結果合qRT-PCR結果是相關的(圖2D)。以上分析結果表明我們篩選lncRNA的方法是嚴謹的,大部分的lncRNA是在體內真正表達的。
圖2 新lncRNA的鑒定和驗證
LncRNA和mRNA轉錄本分布在所有的小鼠染色體上。分析結果表明新lncRNAs在所有染色體上廣泛分布,每條染色體上lncRNA的表達比率要比mRNA的表達比率高很多(圖3A)。這些分析結果證明在雄性和雌性小鼠胚胎生殖細胞中lncRNAs基因的轉錄與mRNA基因的轉錄一致性很好。依據lncRNA相對于最近的蛋白編碼基因的位置,將lncRNA分類:正向重合lncRNA,雙向lncRNA,反向lncRNA和基因區間lncRNA。測序得到的新lncRNAs中,主要是基因間區lncRNAs ,不同類型的lncRNAs在SSCs和FGSCs中數量是相似的(圖3B)。
圖3 新lncRNA染色體分布和分類
前期的芯片數據表明SSCs和FGSCs中所有的基因表達都是相似的。高通量測序數據驗證了這個結論。所有的基因表達模式分析表明在SSCs和FGSCs中有些基因的mRNA和lncRNA水平是有相似的表達模式(圖4A,4B)。對高度共表達的mRNAs和lncRNAs進行功能富集分析,發現主要富集在細胞周期,細胞增殖和細胞分裂相關的GO term上,意味著SSCs和FGSCs有著相似的胚胎生殖細胞維護機制,這和之前的芯片數據分析結果一致。
GDNF是促進SSC進行自我更新的第一優先級的外在因素,主要通過PI3K-Akt,Ras/ERK1/2和SFK通路促進SSC自我更新。為了驗證FGSCs是否和SSCs有相同的GDNF信號機制,在7天中去除培養基里面的GDNF,發現結果和SSCs類似。去除GDNF一個星期導致細胞數量嚴重減少(1.0× 105減少到0.4× 105)(圖4C-4E)。隨后,將GFRα1(GDNF家族受體alpha 1)通過免疫熒光染色觀察其在FGSCs表面的表達(圖4F)。之前有研究表明對GDNF響應最明顯的基因有Bc16b,Lhx1,Etv5和Egr3。基于以上信息,進一步發現去除GDNF一星期引起FGSCs中這些也和自我更新相關的基因表達水平減少。這些結果說明FGSCs和SSCs有著類似的GDNF信號傳導機制。
圖4 SSCs和FGSCs中mRNA和lncRNA的表達分析及共有的自我更新機制研究
鏈特異性高通量測序提供精準的基因表達分析,這有利于挑選在雄性和雌性胚胎生殖細胞中有性別偏向性表達的基因,以做特殊性性別表達分析。通過lncRNA和mRNA分析,發現有8,115個mRNAs和3,996個lncRNAs(包含3,695個新lncRNA)表現出性別偏向性表達。其中,1,500個lncRNAs(包含1,364個新lncRNAs)和4,221個mRNAs表現出雄性偏向性表達,2,496個lncRNAs(包含2,331個新lncRNAs)和3,894個mRNA表現出雌性偏向性表達(圖5A,5B)。雄性偏向性表達的lncRNAs優勢比是1.22(雄性偏向性表達的RNAs/非雄性偏向性表達的RNAs),說明雄性偏向性lncRNAs在常染色體中富集。mRNA也表現出類似的趨勢。SSC和FGSC比較發現雌性偏向性lncRNAs和mRNAs在X染色體上顯著過表達。
圖5 轉錄組學分析性別偏向性表達的mRNAs(A)和lncRNAs(B)的表達豐度
LncRNAs通常和關聯的mRNA同時轉錄組,可以調節重合或者鄰近的mRNAs的轉錄組。所以,lncRNAs的功能可以通過關聯的mRNAs順式調控或者反式調控作用反應出來。基于GO和KEGG通路注釋靶基因,進行預測性別偏向性表達的lncRNA功能分析。在GO分析中,lncRNAs最頻繁的預測功能主要是和行為,生物粘附,生物階段,和生物調節有關。功能聚類圖見圖6A。性別偏向表達的mRNAs和lncRNAs富集在和遺傳印記及遺傳印記的調控有關GO terms中,這表明遺傳印記的差異可能調控SSCs和FGSCs中性別偏向基因的表達。
和FGSC相比,SSC中總共有3,996個性別偏向表達的lncRNAs比對到204個KEGG通路(圖6B)。鑒定到的KEGG通路涉及糖代謝,蛋白代謝和脂質代謝通路,也包含類固醇合成,甘油磷脂代謝,脂肪酸代謝,三羧酸循環,甘油酯代謝,維生素A代謝,戊糖和葡萄糖醛酸轉換。SSCs和FGSCs主要差異是胚胎細胞分化需要的性別特異屬性;SSCs分化成精子,FGSCs分化成卵母細胞。結果提議糖代謝,蛋白質代謝和脂質代謝通路在細胞分化過程中占很大的比例,lncRNAs可能會通過這些信號通路影響性被特異屬性。
圖6 性別偏向性lncRNAs的GO和KEGG通路分析
基于性別偏向表達的lncRNAs和mRNAs的關聯分析,構建編碼-非編碼基因共表達網絡圖(CNC網絡圖)。選擇前10個意義重大的性別偏向表達的編碼基因建立CNC網絡圖(圖7)。這些mRNAs涉及很多的生物過程,包括生殖細胞分化的增殖,調控,遺傳印記調控,性分化和性染色質。網絡圖中可以看出上調的lncRNA Gm11851和參與遺傳印記過程的Eed,Ndn和Peg3負相關,而lncRNA Gm12840是正相關。這說明一個mRNA會和1-10個lncRNAs有關聯。
圖7 10個重要的mRNAs和關聯的lncRNAs的共表達網絡圖
使用CIRI分析RNA-seq reads,分析胚胎生殖細胞中circRNA。小鼠胚胎生殖細胞中從5,334個來源基因中衍生出18,822個circRNA。其中大部分是外顯子circRNAs,只有345個是內含子circRNAs。研究發現9,812(52.13%)個circRNAs來源于同義鏈,9,010(47.87%)個circRNAs來源于反義鏈。之前的研究表明circRNAs通常缺少來源基因的第一個和最后一個外顯子,在本研究中同樣發現類似的結論:18,822個circRNAs中有18,803(99.9%)個circRNAs缺少對應來源基因的第一個或者最后一個外顯子(圖8A)。
為了驗證circRNA的真實性,隨機引物反轉cDNA,設計多對外向引物,放大中cDNA鎖尾插接外顯子連接。通過RT-PCR,每對引物形成符合期望大小的單一條帶,表示在SSC和FGSC樣本中存在環狀連接(圖8B)。如果用oligo(dT)引物反轉cDNA,得到的是只有poly-A的RNAs(圖8B),不能得到circRNA。這說明circRNA沒有poly-A尾。
將SSCs和FGSCs中circRNA來源基因的表達量和其他基因比較,發現circRNA來源基因的平均表達水平要顯著高于非環狀轉錄本的基因(圖8C)。為了預測胚胎生殖細胞中這些circRNA來源基因的功能,進行GO和KEGG通路分析。結果表明circRNA來源基因在細胞中特異性表達。circRNA來源基因大多數的GO terms和KEGG通路主要是和胚胎生殖細胞的自我更新和分化有關,例如增殖,遺傳打印,生殖細胞維持,細胞分化等。
CircRNA的表達分析表明921個circRNA表現出性別偏向性,其中245個表現出雄性偏向表達和676個雌性偏向性表達(圖8D)。對有性別偏向性表達的circRNA來源基因做GO和KEGG通路分析,發現性別偏向性表達的circRNAs有不同的功能,這和分化成生殖細胞要求有性別特異屬性有關(圖8E和8F)。圖8E展示的是排名前10的GO terms,圖8F展示的是排名前10的KEGG通路。
圖8 胚胎生殖細胞中circRNAs的鑒定和功能分析
最近的研究表明RNAs利用miRNA應答元件(MREs)互相調控,這一機制叫做競爭內源性RNA(ceRNA)。通過整合高通量測序數據中的mRNAs,lncRNAs,circRNAs和miRNAs的表達分析和調控關系,構建ceRNA網絡圖(圖9)。挑選了性別偏向性表達的60個lncRNAs和29個circRNA,共有一個MRE結合位點。例如,lncRNA Meg3和circRNAIgflr預測共同競爭miRNA miR-15a-5p,其靶基因是mRNA Inha,Acsl3,Kif21b和Igfbp2。包含有mRNAs,miRNAs,lncRNAs和circRNAs的ceRNA調控網絡圖,可能是胚胎生殖細胞獲得分化為配子的性別特異性屬性的重要節點。
圖9 胚胎生殖細胞中競爭內源性RNA網絡圖
文獻來源:
Li X, Ao J, Wu J. Systematic identification and comparison of expressed profiles of lncRNAs and circRNAs with associated co-expression and ceRNA networks in mouse germline stem cells[J]. Oncotarget, 2017, 8(16):26573.