2017-08-10
近年來隨著二代測序的發展成熟和三代測序的興起、信息分析方法和工具的發展完善,基于全基因組測序進行動植物群體的進化研究、構建遺傳圖譜、檢測目標性狀相關基因已成為常用的策略。應注意到,基因組測序是一個物種研究的起點和基礎,更深入的研究通常涉及以下幾方面的分析:序列組裝、基因組特征、注釋效果功能基因和通路研究、進化分析、比較基因組學分析、全基因組復制事件(WGD)、物種起源、馴化、群體遺傳等。在這里,我們針對基于de novo測序的植物進化相關研究的最新進展和重要文獻作了簡要的梳理,以便為項目提供參考。
1. 植物基因組denovo測序技術概述
基因組從頭測序(de novo sequencing)是指對基因組序列未知或沒有近緣物種基因組的某個物種的全基因組序列的測序。不需要參考資料,測序后用生物信息學手段對測序序列進行拼接、組裝和注釋,從而獲得該物種的基因組序列圖譜。目前常用的測序平臺包括二代和三代,如Illumina HiSeq、Illumina MiSeq、PacBio RS、PacBio Sequel等。
植物基因組通常是多倍體,基因組大,雜合度高,具有高度重復序列和全部或部分的基因組重復片段,這些特點造成了其基因組測序組裝的難度。目前已發表的植物基因組大多是基于短讀長測序組裝,結果碎片化。對此,三代測序技術,即PacBio單分子實時(SMRT)測序技術的出現有助于可以解決這一問題。三代測序技術解決了二代測序高GC區域無法準確測定、高重復序列無法跨越、海量短序列組裝困難等幾大困擾,超長的讀長不僅給GC含量異常和高重復序列基因組組裝提供了很好的契機,而且能夠大幅度提高已有基因組的組裝指標。目前,三代結合二代測序技術是基因組從頭測序的選擇,大規模地物種全基因組denovo測序已漸入佳境。
測序流程如下:
2. 數據組裝
高等植物基因組常為高度雜合,為測序數據的組裝帶來一定挑戰。針對這一問題,常用的研究方法是通過選擇雙單倍體或構建高純合度的自交系進行測序來降低組裝難度。
2.1 組裝方法
常用組裝軟件有MaSuRCA、SOAPdenovo2、Opera、Platanus、SSPACE、GapCloser等。
其中,MaSuRCA軟件可對短序列和長序列聯合分析,通過產生superreads提高計算效率和容錯度。SOAPdenovo2軟件適用于大基因組,可減少構圖過程中的內存消耗,提高gap覆蓋度。SSPACE軟件特點是運行時間短,可實現雙端測序數據集的多重文庫輸入和contig延長。
2.2 組裝結果
組裝結果常用contig N50、scaffold N50、superscaffold、基因組覆蓋度等指標代表。
2.3 組裝效果評估
常用評估方法有:CEGMA、EST、BAC、RNA-Seq、EST+RNA-Seq等。
3. 基于Denovo測序的高等植物進化研究進展
3.1 核桃全基因組倍增事件驗證(The Plant Journal,2016年9月)
化石證據表明胡桃屬WGD發生于60百萬年前(Mya),利用核桃全基因組測序結果,采用自我比對的方法,鑒定基因組部分同源序列間的共線性保守區,識別到8459對旁系同源基因,其中4111對相關基因涉及轉錄調控蛋白和信號傳導蛋白的編碼,對這些基因(Ks<1)構建Ks直方圖,圖中主峰位置在Ks=0.33。研究結果與14對旁系同源基因的分歧時間一致(Ks = 0.274±0.09) (Luo et al., 2015),為WGD提供了有力支持。但還需通過種間比較精確確定系統發育的時間。
3.2 茄科植物進化與辣椒馴化(PNAS,2014年8月)
采用OrthoMCL方法進行基因家族的種間比較(辣椒、番茄、馬鈴薯、擬南芥)構建單拷貝同源基因的系統進化樹,發現在36Mya辣椒與番茄、馬鈴薯分離,即茄科辣椒屬形成,期間發生了辣椒染色體易位、倒位等變異,156Mya茄科出現,緊隨著單、雙子葉植物的分離。與葡萄比較發現了辣椒基因組三倍化,這可能是茄科的共同事件,但三倍化后出現了基因拷貝的丟失。通過4DTv方法計算WGD時間,WGD峰出現在0.3位置。
辣椒馴化研究選擇了18個栽培品種和2個野生/半野生品種,通過遺傳瓶頸法鑒定人工選擇標記,通過θπ、θω值檢測遺傳多樣性降低鑒定了115個人工選擇區域(含511個基因),其多態性水平顯著降低,相關基因功能涉及轉錄調節、脅迫與防御響應、蛋白-DNA復合物裝配、生長和果實發育等,與栽培種與野生種的形態和生理差異相關。
3.3 錦葵科植物基因組結構與多倍化(DNA Research,2017年2月)
MCScanX檢測共線性模塊,以可可樹基因組為模板,檢測木槿和雷蒙德氏棉的共線性模塊,發現木槿共線性模塊的數目是雷蒙德氏棉的4倍,大小為其2倍,表明木槿中出現過WGD。系統發育分析揭示基因組復制模式,GI、CONSTANS和SOC1等基因復制表明木槿中出現了3次WGD,但很多基因在第一次復制后出現丟失。
通過BEACT構建系統發育樹,計算Ks并估算錦葵科分離時間,結果表明91.1Mya錦葵科從十字花科-錦葵科共同祖先分化出來,木槿在物種形成前、物種形成后25.23~48.23Mya和4.61~21.15Mya的時間內分別出現3次WGD,WGD與隨后的二倍化導致基因量不均衡調節和基因家族CNV。
3.4 甜橙基因組進化(Nature Genetics,2013年1月)
旁系同源基因家族的累積大小和頻率可作為WGD的標記,通過自我比對鑒定了1296個旁系同源基因,復制基因的平均Ks值表明遠古WGD事件,沒有近期WGD。進一步基于種間共線性模塊,估算了至少49個染色體易位與融合為雙子葉植物共有,系統發育顯示甜橙、可可樹、擬南芥和番木瓜近緣,柑橘屬在85Mya從錦葵目分離。
雜交和多倍化是植物最重要的進化方式之一。總結以上文章的研究思路,我們可以看到通常一個植物基因組項目進化分析的關注點包括全基因組復制事件、同源比對以研究古多倍化、自身比對以研究近多倍化、系統發育樹構建以研究群體聚類和起源等。對于具體項目而言,可根據關心的問題和物種特性選擇相應的分析方法。
參考文獻
[1] Martínez-García P J, Crepeau M W, Puiu D, et al. The walnut (Juglans regia) genome sequence reveals diversity in genes coding for the biosynthesis of non-structural polyphenols[J]. Plant Journal for Cell & Molecular Biology, 2016, 87(5):507-532.
[2] Qin C, Yu C, Shen Y, et al. Whole-genome sequencing of cultivated and wild peppers provides insights into Capsicum domestication and specialization.[J]. Proceedings of the National Academy of Sciences of the United States of America, 2014, 111(14):5135-40.
[3] Kim Y M, Kim S, Koo N, et al. Genome analysis of Hibiscus syriacus provides insights of polyploidization and indeterminate flowering in woody plants[J]. Dna Research An International Journal for Rapid Publication of Reports on Genes & Genomes, 2017, 24(1):71-80.
[4] Xu Q, Chen L L, Ruan X, et al. The draft genome of sweet orange (Citrus sinensis).[J]. Nature Genetics, 2013, 45(1):59-66.