国产青榴社区91精品,久久成人精品免费播放,久久精品人人做人人试看

首頁> 關于我們 >新聞中心>公司新聞>新聞詳情

三代單分子測序技術結合多種策略組裝出迄今最高質量的植物基因組

2017-06-01

與二代測序技術相比,三代測序技術具有讀長長、無GC偏好性的特點。雖然目前三代測序技術單條測序序列的錯誤率高于二代測序技術,但是由于這些錯誤都是隨機的,因此可以通過提高測序深度來有效地減少錯誤率。三代測序技術的這些特點,使其在基因組從頭組裝方面大顯身手,能夠有效地提高組裝序列contig N50的長度。但是想要得到染色體級別的基因組組裝序列,光靠三代測序技術還是不夠的,還需要借助其他的技術手段。比較常用的手段有遺傳圖譜、長插入片段文庫以及光學圖譜等技術手段。

長插入片段文庫能夠跨過較大的重復片段的區域,因而在以往的基因組組裝中都發揮著重要作用。與BAC庫等長插入片段文庫相比,fosmid庫具有構建時間短、花費較低、基因組覆蓋均勻等特點。將這些長片段文庫再構建小的subclone,然后利用一代測序技術測序能夠獲得精確的基因組信息(clone-based 組裝策略)。目前很多模式生物的基因組都是基于這種策略來構建的,比如人,水稻,擬南芥等。但是這種策略構建基因組序列費用非常高。直接對這種長片段文庫的兩端測序,獲得的序列能夠用于構建scaffold,提高全基因組鳥槍法測序策略的組裝片段長度。新興的光學圖譜技術根據內切酶酶切位點的信息,能夠提供幾百Kb到幾Mb范圍的基因組物理圖譜。此方法獲得的光學圖譜也可以用于構建scaffold,與fosmid庫相比,更加快速,而且花費低。但是由于短的contig(<100 Kb)上缺少酶切位點,因而使用此種方法無法錨定到scaffold上。遺傳圖譜則能夠將contig/scaffold錨定到linkage group上,使組裝水平達到染色體級別。需要注意的是,如果contig/scaffold組裝的效果不好,加上遺傳圖譜,雖然可以得到染色體級別的基因組組裝水平,但是序列中會含有大量的N。基于這種基因組序列的基因注釋水平等都比較低,不利于后續功能研究。

今年5月,Nature communications在線發表了一個迄今為止最高質量的植物基因組序列。該研究組裝的物種是水稻(Oryza sativa, 2n=2x=24),品種是Shuhui498,組裝策略綜合利用了三代單分子測序技術、fosmid文庫和Bionano光學圖譜,最終組裝的序列僅有1%的缺失。水稻現有的參考基因組為日本晴(Nipponbare),是基于clone-based的策略構建的。Shuhui498最終組裝的準確性和完整性都優于日本晴。下面小編就來分享一下這篇文章,看如果利用這些技術得到了如此高質量的基因組序列。


測序策略

本研究獲得了47 Gb的PacBio的序列,覆蓋基因組~118 X。同時構建了插入片段大小為~40 Kb 的fosmid文庫,564個fosmid pools,每個pools有~1,000個clone。對這些fosmid文庫,本研究采用了GBS的測序方法,每個tag的測序深度為~3 X,共獲得6.3 Gb的數據。本研究還構建了Shuhui498和Nipponbare的重組自交系。為了構建遺傳圖譜,作者挑選了F3群體中364個個體,采用GBS測序的方法,每個tag的測序深度為~4 X,每個個體平均測序數據為73 Mb,一共獲得26.9 Gb的數據。本研究獲得了99 Gb的光學圖譜數據,基因組覆蓋度為250 X。構建這些光學圖譜的分子片段>100 Kb, N50為202 Kb。這些數據組裝后共得到453個genome map,總長度為406 Mb,N50為2.48 Mb。此外,本研究也構建了插入片段為450 bp的二代測序文庫并獲得了38.7 GB的測序數據,覆蓋基因組~100 X。本研究還對多個組織進行了RNA-seq,用于更好的注釋基因組和評估組裝效果。具體的測序策略見下表。


測序的策略


組裝策略

1. Contig構建

首先,采用PBcR pipeline對原始的PacBio序列糾錯,獲得16.2 Gb的糾錯后序列。然后采用PBcR的low stringency (LS) 和high stringency (HS)模式、CANU和Falcon組裝糾錯后序列。同時,將fosmid測序的序列比對到糾錯后的序列上,挑選出含有fosmid測序序列的PacBio序列,并對每個fosmid pool的序列單獨組裝,獲得fosmid contig。contig組裝的詳細結果見下表:


Contig組裝的結果


2. 遺傳圖譜構建并將contig錨定到遺傳圖譜上

PBcR LS組裝的contig N50最長,因此被選為reference來構建遺傳圖譜。該遺傳圖譜共獲得12個linkage group (LG)。497個contig錨定到了該遺傳圖譜上,序列總長為355.9 Mb。


3. Super-contig構建

被錨定到遺傳圖譜上的497個contig,被進一步連成super-contig。原理就是如果fosmid contig與兩個contig有overlap,那么這兩個contig就被連成一個super-contig。全基因組組裝的時候,也會產生一些錯誤的contig。這些contig也能夠在super-contig構建的過程中被糾正。原理就是如果一個contig與周圍的contig有overlap,而且這個overlap也被fosmid contig驗證,那么這個contig就會在有overlap的地方分開,分成多個contig。具體的原理圖見下圖:


Super-contig構建的原理


4. Super-contig糾錯

Bionano構建的genome map被用于super-contig的糾錯。作者首先查看了著絲粒和近端粒區域,發現著絲粒區域與genome map完全一致,而24個近端粒區域中有21個與genome map一致。然后Quiver被用于來糾正2 Kb的組裝錯誤。


5. 組裝效果評估

將Illumina DNA的短序列,RNA-seq的數據比對到組裝的基因組上,評估出基因組組裝的堿基錯誤率<0.0017%。這個錯誤率低于水稻現有的參考基因組日本晴的序列。而存在于最終組裝序列的fosmid contig的堿基錯誤率為0.0017%,略高于其它區域,可能是以為這些區域含有高重復序列。基于這個比對結果和genome map的比對結果,大約有1%的序列未組裝到最終的基因組序列中。


Shuhui498與日本晴基因組比較

比較Shuhui498與日本晴基因組序列,發現Shuhui498的著絲粒區域更完整、含有更少的葉綠體和線粒體序列。并且,二者在染色體上的相似性非常高,不過也存在~250萬個SNP和很多的大片段結構變異(具體見下圖)。比較二者的基因序列發現,二者只有~27%的基因蛋白質序列完全一致。雖然二者的重復序列比例一致,但是重復序列的內容卻不一樣。



Shuhui498與其它水稻基因組比較

最后,本研究比較了Shuhui498基因組和其它17個 高覆蓋測序的水稻基因組序列。Shuhui498與同屬于秈稻的MH63 和 ZS97基因組更相似。同時,本研究鑒定了Shuhui498和日本晴基因組中相對于其它水稻基因組的presence variation (PV),發現PV廣泛存在。


總結

利用三代單分子測序技術,再結合長插入片段文庫、光學圖譜和遺傳圖譜數據,本研究構建了一個僅有1%缺失的基因組序列,是迄今為止質量最高的植物基因組。



參考文獻:

Du H, et al. Sequencing and de novo assembly of a near complete indica rice genome. Nat Commun. 2017, 8:15324. doi: 10.1038/ncomms15324.

主站蜘蛛池模板: 枝江市| 惠水县| 大名县| 吴江市| 千阳县| 儋州市| 达孜县| 息烽县| 镇雄县| 南部县| 长阳| 怀远县| 武强县| 海原县| 股票| 焦作市| 内丘县| 离岛区| 宜丰县| 安庆市| 宝应县| 奉新县| 梅州市| 凤冈县| 天长市| 乡宁县| 宜君县| 信宜市| 晴隆县| 龙陵县| 绥滨县| 盐源县| 大新县| 漾濞| 唐海县| 兴业县| 无棣县| 临江市| 廊坊市| 绥化市| 桐梓县|