2020-08-25
導讀
在農業科學中,為了提升作物農藝性狀,經常會遇到將與性狀相關的基因或位點在基因組上進行定位的需求,此時BSA作為一種簡便又高效的分析方法便有了大顯身手的機會。可是BSA究竟是怎樣的一種研究方法呢,適用于什么群體呢?跟著小編了解一下吧!
什么是BSA?
BSA(Bulked segregation analysis)即混合分組分析,也稱分離群體分組分析,是指利用目標性狀存在極端表型差異的兩個親本構建分離群體,在子代分離群體中,選取兩組表型差異極端的個體分別構建混合池 ,結合高通量測序技術對混合樣本測序,比較兩組群體在多態位點(SNP)的等位基因頻率(AF)是否具有顯著差異,定位與目標性狀相關聯的位點并對其進行注釋,研究控制目標性狀的基因及其分子機制。
相較于傳統的遺傳學研究方法(基因定位常用分析方法,小編已經安排上啦?。?,BSA最大的特點是不需要對群體中的所有個體進行基因分型,而是對挑選的個體按照性狀進行混合分析,所以可以極大地降低研究的工作量和成本。
什么樣本適合BSA分析?
既然BSA已經兼具了簡便,準確、高性價比等優點,自然也有自己的小性子了,BSA分析對使用的群體有一定要求。
1、人工構建的遺傳群體(最常用來的是F2、BC、RIL)。通常來說,使用自然群體和遺傳群體都可以進行BSA分析,但是考慮到遺傳背景較復雜,可能導致定位結果不理想,所以不推薦使用自然群體進行BSA研究。
2、親本目標性狀差異明顯,其他性狀差異隨機分布,所構建分離群體兩個混池之間目標性狀有顯著差異,非目標性狀無明顯差異。
3、有合適的參考基因組信息。參考基因組組裝的越好,信息越全,對于后續基因定位和候選區間的注釋都會更加精確,可以鎖定候選區間并估計候選區域的大小。沒有組裝到染色體級別的參考基因組,分析思路是一樣的,但只能得到某個或某些scaffolds中的snp與性狀相關,無法估計候選區間大小,甚至再組裝結果差的情況下,無法判斷基因的物理位置。
BSA有哪些分析方法?
1、SNP index及△SNP index
SNP-index作為主流的BSA定位的算法,最早在2013年被提出(Takagi)。它的基本原理是,構建子代分離群體,經過挑選極端性狀構建混池后對SNP進行檢測,對各混池進行等位基因頻率分析,并與其中一個親本進行比較。與此親本不同的基因型所占的比例,即為該位點的SNP-index。從下圖可以看到,兩個位點的SNP-index分別為0.4和1。值得注意的是,這里的reference指的并不是我們進行重測序變異檢測的參考基因組,而是我們構建群體所使用的親本。這也是為什么進行SNP-index計算必須依賴于親本測序數據的緣故。
每個混池都得到一組SNP-index數據之后,兩個混池相減(上圖右),即得到了△SNP-index的結果,代表的是兩個混池之間SNP基因型頻率的差異。理論上說,不與性狀相關的位點,△SNP-index的值應當在0左右,代表混池之間不存在差異;而QTL及其相連鎖位置的SNP,△SNP-index值應當呈現較高的數值?!鱏NP index這種分析方法會存在因統計偏差造成的假陽性位點,這時我們可以通過計算滑窗內所有SNP的△SNP-index,來消除其影響,得到真正QTL所在的基因組區域。
2、歐幾里得距離(ED)
隨著BSA技術的發展,SNP-index顯示出了一定的局限性,比如親本數據缺失,林木類較難構建分析群體,ED值的分析方法應運而生。在BSA和BSR中,歐幾里得距離可以計算同一個位點上,兩個混池之間的等位基因頻率。兩個極端性狀子代混池只在控制性狀的QTL及其連鎖位點出現差異,所以通過各個位點歐幾里得距離的計算,我們可以判斷哪些位點更可能是控制對應性狀的QTL。計算公式如下:
實際應用中,我們在BSA的兩組混池之間可能會得到數十萬甚至上百萬個SNP,有的SNP可能實際與性狀無關,但因為抽樣偏差,導致計算得到的ED值很高,為了排除統計異常值,我們通常會采用滑窗對在一個窗口內所有位點的ED值進行擬合,消除抽樣偏差產生的假陽性結果。而在BSA定位區間計算過程中,會對ED值采取乘方處理,放大ED值的差異,使定位區間更加明顯。
3、Gradedpool-seq(Ridit檢驗)
Gradedpool-seq的概念在2019年由韓斌和黃學輝課題組提出并發表于Nature Communication(Wang et al., 2019)。這種方法與常規BSA類似的是,它也是基于性狀分離群體中按照性狀選擇子代個體構成混池(通常加上親本)進行測序,并進行QTL定位的方式。Ridit是relative to an identified distribution unit一詞的縮寫,它是一種非參數檢驗分析方法,用于按等級分組資料的比較。而對于多個混池測序數據,Ridit檢驗會對每個位點的等位基因頻率進行計算,判斷其是否顯著偏離標準分布,得到一個p值。換言之,這個位點的p值越小,即代表這個位點與性狀相關聯的可能性越高(與GWAS關聯方法類似)。
由于在BSA項目中Ridit檢驗的對象只有2-4個混池,基因型數據較少,所以當Ridit檢驗的結果用曼哈頓圖的形式展現出來,其噪音非常強烈,很難從中直觀地判斷我們的候選區間的位置。研究者們選取一定大小的窗口,并且將窗口內的SNP位點進行統計,計算p值低于閾值的位點所占的比例。一般經過這種滑窗降噪處理,其關聯區間也就顯現出來了。
好啦,嘮叨了這么多,不知道大家是不是有所收獲呢?對于這種即簡便又實用的小可愛,是不是難以拒絕呢?區間定位到了,后續如何進行精細定位與驗證呢?請聽小編下回分解啦!
參考文獻:
1.Hill JT,et al. MMAPPR: mutation mapping analysis pipeline for pooled RNA-seq. Genome Res. 2013, 23(4):687-97
2.Takagi H, Abe A,Yoshida K, et al. QTL‐seq: rapid mapping of quantitative trait loci in riceby wholegenome resequencing of DNA from two bulked populations[J]. Plant Journal,2013,74(1):174-83.
3.Wang, C., Tang, S., Zhan, Q. et al. Dissecting a heterotic gene through GradedPool-Seq mapping informs a rice-improvement strategy. Nat Commun 10, 2982 (2019).