2020-08-20
高通量測(cè)序(NGS)的數(shù)據(jù)產(chǎn)出和數(shù)據(jù)質(zhì)量跟多個(gè)因素息息相關(guān),其中主要影響因素為文庫質(zhì)量、測(cè)序試劑和儀器狀況,由于測(cè)序試劑和儀器狀況不易控制,因此,為了保證測(cè)序質(zhì)量,需要嚴(yán)格把控文庫質(zhì)量。好的文庫千篇一律,差的文庫五花八門,今天,讓我們一起看看質(zhì)量差的文庫究竟差在哪,以及什么樣的文庫會(huì)被定義為“差的文庫”。
定義一個(gè)文庫是好是差,可以從三個(gè)方面衡量:文庫片段、文庫堿基復(fù)雜度和文庫濃度。
一、文庫片段
文庫片段目前大多數(shù)公司都是使用微流控芯片技術(shù)的儀器進(jìn)行檢測(cè),如PerkinElmer公司的LabChip GXII Touch(圖1),Agilent公司的2100 Bioanalyzer(圖2)、Tapestation(圖3)、Fragment Analyzer(圖4),以及Bioptic公司的Qseq系列(圖5)等儀器。
圖1
圖2
圖3
圖4
圖5
相較于傳統(tǒng)的瓊脂糖凝膠電泳,采用微流控芯片技術(shù)可以更好地獲得文庫的片段大小范圍及文庫片段的精確分布,且靈敏度更高,含量低的片段也可以檢測(cè)到,檢測(cè)過程簡單方便、效率高。構(gòu)建好的文庫中除了目的片段,還可能存在二聚體、小片段、大片段等非目的片段的存在,這些非目的片段會(huì)導(dǎo)致文庫定量不準(zhǔn)確,同時(shí)還可能影響后續(xù)的上機(jī)測(cè)序,降低測(cè)序數(shù)據(jù)的產(chǎn)出和測(cè)序的質(zhì)量,下面我們舉幾個(gè)例子:
1、二聚體污染:
二聚體包括接頭二聚體和引物二聚體,通常長度小于100bp的是引物二聚體,長度在120bp左右的是接頭二聚體。文庫中如果存在二聚體,在上機(jī)測(cè)序時(shí),二聚體會(huì)與flowcell上面的錨定序列結(jié)合,并且可以通過橋式PCR擴(kuò)增形成簇,從而降低測(cè)序的有效數(shù)據(jù)產(chǎn)量,同時(shí)由于二聚體序列短,在長簇時(shí)存在優(yōu)勢(shì)擴(kuò)增,且是固定序列,其堿基復(fù)雜度低,且長度短,會(huì)降低測(cè)序的Q30,影響clean reads的過濾率。二聚體污染的文庫的檢測(cè)結(jié)果如圖6所示。
圖6
2、小片段:
在檢測(cè)結(jié)果中,除了目的片段外,還存在其他的小片段,這種情況產(chǎn)生的原因可能是片段化過程中打斷的條件不合適,部分片段被打斷得太小,或者是文庫分選時(shí)磁珠比例不當(dāng)導(dǎo)致。小片段的存在會(huì)影響文庫濃度的定量,進(jìn)而影響文庫的產(chǎn)出;除此之外,小片段的插入偏短,測(cè)序時(shí)會(huì)測(cè)通,產(chǎn)出了冗余的數(shù)據(jù),影響有效數(shù)據(jù)的占比。小片段污染的文庫的檢測(cè)結(jié)果如圖7所示。
圖7
3、大片段:
在檢測(cè)結(jié)果中,除了目的片段外,還存在其他的大片段,這種情況產(chǎn)生的原因有兩種,第一種是類似小片段存在的原因,即可能是片段化過程中打斷的條件不合適,殘留部分較長的片段,或者是文庫分選過程磁珠比例不當(dāng)導(dǎo)致;第二種原因是文庫的擴(kuò)增循環(huán)數(shù)太高,文庫過度擴(kuò)增自我互聯(lián)形成多聚體,在檢測(cè)時(shí)就出現(xiàn)了大片段。大片段在上機(jī)測(cè)序時(shí),可能會(huì)跨孔長簇,測(cè)序儀會(huì)過濾掉這部分的數(shù)據(jù),降低產(chǎn)出。大片段污染的文庫的檢測(cè)結(jié)果如圖8所示。
圖8
4、寬峰:
文庫的片段分布寬,這種現(xiàn)象通常稱為寬峰,寬峰產(chǎn)生的原因同樣是打斷條件不合適,或者文庫沒有進(jìn)行分選或分選條件不合適。寬峰的文庫由于片段分布廣,難以確定文庫的準(zhǔn)確濃度,因此文庫的數(shù)據(jù)產(chǎn)出不好控制。寬峰文庫的檢測(cè)結(jié)果如圖9所示,片段分布廣,分布在200bp-1000bp。
圖9
5、插入片段偏大:
高通量測(cè)序的特點(diǎn)是通量大,讀長短,如果需要測(cè)序的文庫長度太長,一方面會(huì)影響文庫濃度的熒光定量,另一方面,在上機(jī)測(cè)序時(shí)可能會(huì)跨孔長簇,產(chǎn)生index hopping,降低測(cè)序數(shù)據(jù)的產(chǎn)出和質(zhì)量。插入片段偏大文庫的檢測(cè)結(jié)果如圖10所示。
圖10
二、文庫堿基復(fù)雜度
文庫堿基復(fù)雜度對(duì)于測(cè)序數(shù)據(jù)的影響非常大,堿基復(fù)雜度低的文庫(常見的有甲基化文庫、small RNA文庫、擴(kuò)增子文庫、pcr-free文庫)會(huì)影響測(cè)序過程中熒光信號(hào)的讀取,不易產(chǎn)出高質(zhì)量的數(shù)據(jù),因此測(cè)序時(shí)要保證文庫的堿基盡可能平衡,對(duì)于堿基復(fù)雜度低的文庫,可以摻入一定比例的phix文庫或者已知的堿基平衡文庫混合測(cè)序,幫助平衡每個(gè)測(cè)序cycle產(chǎn)生的熒光信號(hào),從而提高測(cè)序的產(chǎn)出和質(zhì)量。
三、文庫濃度
文庫濃度質(zhì)檢方法主要有NanoDrop分光光度計(jì)法、Qubit熒光計(jì)法、qPCR熒光定量法。
三者詳細(xì)的原理和優(yōu)劣勢(shì)在之后的文章中咱們?cè)僭敿?xì)討論,請(qǐng)各位老師時(shí)刻關(guān)注派森諾公眾號(hào)更新~
以上說了這么多,不知道大家對(duì)文庫的質(zhì)檢是不是有了更深入的了解呢?派森諾會(huì)提供專業(yè)的文庫質(zhì)檢和定量,保證文庫的測(cè)序方案,以下是我們PE150測(cè)序模式文庫送樣標(biāo)準(zhǔn),請(qǐng)大家參考~