2019-01-10
轉錄組測序(RNA-Seq)作為研究基因表達的利器,是發掘基因功能的重要途徑。隨著RNA-Seq技術的普及,那么問題來了,很多不了解RNA-Seq的小伙伴,在點開結題報告的一瞬間,是不是滿腦子的問號,不知所措呢?
沒關系!我們懂你!不了解RNA-Seq?不會看結題報告?莫慌,我們來給大家理頭緒、劃重點!
首先,可將整個結題報告分成四個主要模塊。
圖 1 轉錄組測序結題報告主要模塊
差異基因的鑒定與功能富集分析是構成轉錄組文章的主體,數據挖掘與分析也是基于這兩個模塊進行,是結題報告的重心。接下來詳細告訴大家每個模塊需要關注的重點內容。
原始數據整理與質量評估
數據量的大小與測序質量的好壞是評判測序數據可靠性的重要標準。
? 數據量
一般用Bases或Raw data表示,對于絕大部分物種來說,轉錄組測序6G數據量即可,若想獲得更多低豐度基因的信息,可適當增加測序數據量。
? 數據質量
主要包括堿基質量與堿基含量。Illumina官方的堿基質量評價標準一般為Q30(即堿基錯誤識別率為0.1%),Q30的值越大越好,一般不能低于80%。堿基含量即ATGC四種堿基所占的比例,除了前幾個堿基位置之外,4種堿基的含量線條應平行且接近。
圖 2 測序質量評估
差異基因表達鑒定
看基因的表達量與鑒定差異基因是做轉錄組測序的主要目的,生物學重復之間的相關性高低與差異基因鑒定的準確性息息相關。
? 樣品相關性檢驗
一般以矩陣圖與PCA分析圖展示。在矩陣圖中基因表達相近的樣品會被聚到一起,生物學重復間相關系數越高越好,低于0.8表示相關性較差。PCA分析圖更加直觀,可以把基因表達相關性好的樣品展示到一起。
圖3 樣品相關性檢驗
? 差異表達基因的鑒定
在這里可以看到各個處理組與對照組之間基因的上、下調表達的信息。從中查找所關注基因的表達情況。顯著差異基因判定標準:|log2 Foldchange|>1;P value < 0.05。若差異基因數目太多或太少,可以適當調整閾值范圍,不過P value值要嚴格小于0.05才有意義哦!
圖 4 差異基因鑒定
? 基因表達量聚類分析
樣品間表達量相關性高的基因會被歸為一類,這些基因通常在某些生物過程、某個代謝或信號通路存在實際的聯系。
圖 5 差異基因heatmap圖
差異基因功能富集
功能富集分析將差異基因進行功能富集分類,找到顯著富集的功能類與通路,研究與生物學現象的關聯。
? GO(Gene Ontology)數據庫將功能基因定義為三大類:分子功能(Molecular Function),生物過程(biological process)和細胞組件(cellular component)。每個大類下的基本單元為GO terms。通過P value< 0.05篩選出差異基因顯著富集的terms,以期獲得差異基因的功能與生物學現象之間的聯系。
圖 6 GO功能富集分析
? KEGG(Kyoto Encyclopedia of Genes and Genomes)數據庫是系統分析基因產物在細胞中的代謝途徑以及這些基因產物功能的數據庫,有助于把基因及表達信息作為一個整體的網絡進行研究。用P <0.05篩選出顯著富集的通路,進而查找與研究相關的生物學途徑。在代謝通路圖中,差異基因映射的位置會用彩色標示出來(紅色:上調基因;綠色:下調基因;紫色:上調+下調基因)。
圖 7 KEGG代謝通路富集分析
基因結構分析
二代測序由于測序讀長較短,因此重點關注基因的表達量,結構分析為輔助分析,若要重點研究基因的結構信息,需要三代全長轉錄組測序哦~
以有參轉錄組為例,結構分析包括新轉錄位點分析、UTR(非翻譯區)優化、AS(可變剪切)、SNP(單核苷酸多態性)與InDel(插入或缺失)分析等。
? 新轉錄本位點分析
同一個基因由于剪切形式的不同,會形成多種轉錄本,以基因組為參考,對基因的已知與未知的轉錄本進行統計,基因的表達量與不同轉錄本的表達量有關。
? UTR分析
將 CDS 上下游的 Reads 覆蓋區域作為候選 UTR 。與已有的 UTR 注釋信息比較,新發現的 UTR 可以優化基因結構,完善基因注釋信息。
? AS分析
同一個基因存在不同的剪切模式,極大的增加了編碼基因的能力和容量。對可變剪切事件的類型與數量進行統計。不同的剪切方式可使同一個基因可以產生多個不同的成熟mRNA, 最終產生不同的蛋白質。
? SNP與InDel分析
前者為堿基的變異,后者為堿基的插入或丟失,都屬于遺傳變異,不同的基因分型,可以用來開發遺傳標記。
圖 8 轉錄本結構分析
希望此文可以幫助更多剛開始接觸轉錄組測序的小伙伴快速入手轉錄組數據的分析。有任何疑問都可以聯系我們哦,派森諾竭誠為您服務!