2017-06-01
與二代測序技術相比,三代測序技術具有讀長長、無GC偏好性的特點。雖然目前三代測序技術單條測序序列的錯誤率高于二代測序技術,但是由于這些錯誤都是隨機的,因此可以通過提高測序深度來有效地減少錯誤率。三代測序技術的這些特點,使其在基因組從頭組裝方面大顯身手,能夠有效地提高組裝序列contig N50的長度。但是想要得到染色體級別的基因組組裝序列,光靠三代測序技術還是不夠的,還需要借助其他的技術手段。比較常用的手段有遺傳圖譜、長插入片段文庫以及光學圖譜等技術手段。
長插入片段文庫能夠跨過較大的重復片段的區域,因而在以往的基因組組裝中都發揮著重要作用。與BAC庫等長插入片段文庫相比,fosmid庫具有構建時間短、花費較低、基因組覆蓋均勻等特點。將這些長片段文庫再構建小的subclone,然后利用一代測序技術測序能夠獲得精確的基因組信息(clone-based 組裝策略)。目前很多模式生物的基因組都是基于這種策略來構建的,比如人,水稻,擬南芥等。但是這種策略構建基因組序列費用非常高。直接對這種長片段文庫的兩端測序,獲得的序列能夠用于構建scaffold,提高全基因組鳥槍法測序策略的組裝片段長度。新興的光學圖譜技術根據內切酶酶切位點的信息,能夠提供幾百Kb到幾Mb范圍的基因組物理圖譜。此方法獲得的光學圖譜也可以用于構建scaffold,與fosmid庫相比,更加快速,而且花費低。但是由于短的contig(<100 Kb)上缺少酶切位點,因而使用此種方法無法錨定到scaffold上。遺傳圖譜則能夠將contig/scaffold錨定到linkage group上,使組裝水平達到染色體級別。需要注意的是,如果contig/scaffold組裝的效果不好,加上遺傳圖譜,雖然可以得到染色體級別的基因組組裝水平,但是序列中會含有大量的N。基于這種基因組序列的基因注釋水平等都比較低,不利于后續功能研究。
今年5月,Nature communications在線發表了一個迄今為止最高質量的植物基因組序列。該研究組裝的物種是水稻(Oryza sativa, 2n=2x=24),品種是Shuhui498,組裝策略綜合利用了三代單分子測序技術、fosmid文庫和Bionano光學圖譜,最終組裝的序列僅有1%的缺失。水稻現有的參考基因組為日本晴(Nipponbare),是基于clone-based的策略構建的。Shuhui498最終組裝的準確性和完整性都優于日本晴。下面小編就來分享一下這篇文章,看如果利用這些技術得到了如此高質量的基因組序列。
測序策略
本研究獲得了47 Gb的PacBio的序列,覆蓋基因組~118 X。同時構建了插入片段大小為~40 Kb 的fosmid文庫,564個fosmid pools,每個pools有~1,000個clone。對這些fosmid文庫,本研究采用了GBS的測序方法,每個tag的測序深度為~3 X,共獲得6.3 Gb的數據。本研究還構建了Shuhui498和Nipponbare的重組自交系。為了構建遺傳圖譜,作者挑選了F3群體中364個個體,采用GBS測序的方法,每個tag的測序深度為~4 X,每個個體平均測序數據為73 Mb,一共獲得26.9 Gb的數據。本研究獲得了99 Gb的光學圖譜數據,基因組覆蓋度為250 X。構建這些光學圖譜的分子片段>100 Kb, N50為202 Kb。這些數據組裝后共得到453個genome map,總長度為406 Mb,N50為2.48 Mb。此外,本研究也構建了插入片段為450 bp的二代測序文庫并獲得了38.7 GB的測序數據,覆蓋基因組~100 X。本研究還對多個組織進行了RNA-seq,用于更好的注釋基因組和評估組裝效果。具體的測序策略見下表。
測序的策略
組裝策略
1. Contig構建
首先,采用PBcR pipeline對原始的PacBio序列糾錯,獲得16.2 Gb的糾錯后序列。然后采用PBcR的low stringency (LS) 和high stringency (HS)模式、CANU和Falcon組裝糾錯后序列。同時,將fosmid測序的序列比對到糾錯后的序列上,挑選出含有fosmid測序序列的PacBio序列,并對每個fosmid pool的序列單獨組裝,獲得fosmid contig。contig組裝的詳細結果見下表:
Contig組裝的結果
2. 遺傳圖譜構建并將contig錨定到遺傳圖譜上
PBcR LS組裝的contig N50最長,因此被選為reference來構建遺傳圖譜。該遺傳圖譜共獲得12個linkage group (LG)。497個contig錨定到了該遺傳圖譜上,序列總長為355.9 Mb。
3. Super-contig構建
被錨定到遺傳圖譜上的497個contig,被進一步連成super-contig。原理就是如果fosmid contig與兩個contig有overlap,那么這兩個contig就被連成一個super-contig。全基因組組裝的時候,也會產生一些錯誤的contig。這些contig也能夠在super-contig構建的過程中被糾正。原理就是如果一個contig與周圍的contig有overlap,而且這個overlap也被fosmid contig驗證,那么這個contig就會在有overlap的地方分開,分成多個contig。具體的原理圖見下圖:
Super-contig構建的原理
4. Super-contig糾錯
Bionano構建的genome map被用于super-contig的糾錯。作者首先查看了著絲粒和近端粒區域,發現著絲粒區域與genome map完全一致,而24個近端粒區域中有21個與genome map一致。然后Quiver被用于來糾正≤2 Kb的組裝錯誤。
5. 組裝效果評估
將Illumina DNA的短序列,RNA-seq的數據比對到組裝的基因組上,評估出基因組組裝的堿基錯誤率<0.0017%。這個錯誤率低于水稻現有的參考基因組日本晴的序列。而存在于最終組裝序列的fosmid contig的堿基錯誤率為0.0017%,略高于其它區域,可能是以為這些區域含有高重復序列。基于這個比對結果和genome map的比對結果,大約有1%的序列未組裝到最終的基因組序列中。
Shuhui498與日本晴基因組比較
比較Shuhui498與日本晴基因組序列,發現Shuhui498的著絲粒區域更完整、含有更少的葉綠體和線粒體序列。并且,二者在染色體上的相似性非常高,不過也存在~250萬個SNP和很多的大片段結構變異(具體見下圖)。比較二者的基因序列發現,二者只有~27%的基因蛋白質序列完全一致。雖然二者的重復序列比例一致,但是重復序列的內容卻不一樣。
Shuhui498與其它水稻基因組比較
最后,本研究比較了Shuhui498基因組和其它17個 高覆蓋測序的水稻基因組序列。Shuhui498與同屬于秈稻的MH63 和 ZS97基因組更相似。同時,本研究鑒定了Shuhui498和日本晴基因組中相對于其它水稻基因組的presence variation (PV),發現PV廣泛存在。
總結
利用三代單分子測序技術,再結合長插入片段文庫、光學圖譜和遺傳圖譜數據,本研究構建了一個僅有1%缺失的基因組序列,是迄今為止質量最高的植物基因組。
參考文獻:
Du H, et al. Sequencing and de novo assembly of a near complete indica rice genome. Nat Commun. 2017, 8:15324. doi: 10.1038/ncomms15324.