2024-08-01
在人類基因組中,突變的積累是生命過程中不可避免的現象。這些突變往往起始于DNA雙螺旋結構中的一條鏈上的核苷酸不匹配或損傷,如果這些單鏈DNA(ssDNA)事件未被及時修復或修復不當,它們將轉化為雙鏈DNA(dsDNA)突變,進而可能導致癌癥和其他遺傳性疾病。盡管現有的DNA測序技術在檢測雙鏈DNA突變方面取得了顯著進展,但它們不能準確地解決這些前體ssDNA事件。這是因為目前無論是單細胞基因組測序、體外單細胞克隆、克隆群體的顯微解剖或活檢,以及雙鏈測序的方法,通常需要在測序前對原始DNA分子進行擴增。這可能會掩蓋真正的ssDNA事件或引入人為的ssDNA不匹配和損傷。 近日,來自美國紐約大學格羅斯曼醫學院的Gilad D. Evrony帶領團隊開發了一項名為Hairpin Duplex Enhanced Fidelity sequencing (HiDEF-seq) 的單分子測序新技術,這一技術不僅能夠以單分子的精度檢測單個堿基的替換,還能識別DNA損傷,包括常見的胞嘧啶脫氨作用。這項技術的應用,為理解突變如何在各種情境下產生,尤其是在癌癥和衰老的背景下,提供了新的視角和強有力的工具。?這項工作為我們揭示了單分子測序技術在解析單鏈DNA事件方面的卓越能力。相關成果于2024年6月發表在Nature雜志發表。 技術原理 HiDEF-seq為了實現對單鏈事件的高精度檢測,其具體流程大致如圖1所示:首先對基因組DNA進行處理,利用Hpy166II限制性酶對基因組DNA進行消化。將DNA片段化至1-4 kb大小。然后分別進行nick ligation(缺口連接),A-tailing(A尾修飾)和hairpin ligation(發夾結構連接),連接上發卡結構的PacBio測序接頭。使用Pacific Biosciences (PacBio)的單分子長讀長測序儀進行測序。通過增加獨立測序遍數來提高每條鏈的共識序列質量。由于PacBio的測序酶讀長平均在100 kb左右,也就是說一個4 kb的片段平均可以被測25遍,正反兩條鏈中的每一條都可以被測到至少12次,然后將每一條鏈被反復測序拿到的序列合并在一起分別合成一個單鏈的共識序列,這個過程中每個位置的序列都會被反復獨立測數十遍,合成共識序列的時候就可以直接將幾乎所有的測序錯誤都排除掉,這樣就可以拿到一個高準確度的正反鏈的單鏈共識序列,最后再根據正反鏈互補配對的原則再對正反鏈的共識序列進行矯正得到一個雙鏈突變的信息,就可以同時拿到單鏈和雙鏈的突變信息和突變率。正因為Duplex測序和PacBio的HiFi測序的巧妙組合,使得HiDEF-seq成為目前最準確的單分子突變率檢測技術,單鏈的突變率降低到千萬分之一的水平,而雙鏈突變率更是低于萬億分之一。 作者對HiDEF-seq與NanoSeq這兩種測序方法的比較結果,主要目的是為了評估這兩種方法在檢測不同類型的DNA變異時的表現差異,評估不同測序技術的優勢和局限性,特別是在檢測低頻變異或特定組織/細胞類型中的變異時。比較主要集中在兩個方面:雙鏈DNA(dsDNA)突變檢測和單鏈DNA(ssDNA)事件(如錯配和損傷)的檢測。在雙鏈DNA(dsDNA)突變檢測方面,HiDEF-seq能夠達到非常高的保真度,低于每10億個堿基1個錯誤(10-9),且能夠測量到預期的雙鏈DNA突變特征以及隨著年齡增長線性增加的突變負擔。在檢測雙鏈DNA突變在這一指標上,NanoSeq與HiDEF-seq結果一致,表明兩種技術在此方面的性能相當。在單鏈DNA(ssDNA)檢測方面,HiDEF-seq在檢測單鏈DNA事件時,平均負載比NanoSeq低18倍,考慮C>T調換時則低5倍。而在NanoSeq雖然在雙鏈DNA突變檢測方面表現出色,但在單鏈DNA事件檢測方面可能存在較高的人工產物。這些結果表明,HiDEF-seq和NanoSeq在雙鏈DNA突變檢測方面的表現相似,均能準確地檢測并量化雙鏈DNA突變。但是,在單鏈DNA突變檢測方面,HiDEF-seq相比于NanoSeq展現出更高的準確性,這使得HiDEF-seq成為目前檢測單鏈DNA事件最準確的技術之一。 圖1. HiDEF-seq概述 癌癥易感性綜合征樣本分析 研究團隊通過HiDEF-seq技術對來自不同癌癥易感性綜合征患者的樣本進行了分析。結果顯示,與非癌癥易感性樣本相比,某些綜合征樣本的單鏈DNA損傷程度顯著更高。特別是POLE聚合酶校對相關的息肉綜合征(PPAP)和先天性錯配修復缺陷綜合征(CMMRD)樣本,單鏈DNA損傷的程度顯著增加。此外,研究還發現了與POLE相關的單鏈DNA錯配特征SBS10ss,并確認其與已知的雙鏈DNA突變特征SBS10c高度相似,這證實了單鏈DNA錯配可能是雙鏈DNA突變的起始事件。缺乏錯配修復和聚合酶校對的高突變腫瘤樣本展現了獨特的ssDNA損傷模式,這些模式與腫瘤中觀察到的雙鏈DNA突變譜具有較高的相似性。 圖2. 癌癥易感性綜合征的ssDNA呼叫負擔和模式 高突變腫瘤的分析 研究表明,在缺乏錯配修復和聚合酶校正的高突變腫瘤中,單鏈DNA的錯配模式明顯不同于僅缺乏聚合酶校正的樣本。這些腫瘤樣本尤其表現出較高的單鏈DNA C>T錯配,這些錯配主要來源于胞嘧啶的脫氨損傷,而不是聚合酶的錯誤插入。此外,從這些腫瘤樣本中提取的單鏈DNA錯配特征SBS14ss,與COSMIC數據庫中記錄的雙鏈DNA特征SBS14高度相似,這表明這些單鏈突變可能是引發雙鏈DNA突變的初始步驟。 圖3. 在錯配修復和聚合酶校對方面都存在缺陷的高突變腫瘤 胞嘧啶脫氨損傷模式 HiDEF-seq技術能夠以單分子精度檢測胞嘧啶脫氨損傷,這是一種常見的DNA損傷形式,可導致雙鏈DNA中的C>T突變。研究中發現,健康個體的血液DNA樣本中存在低水平的單鏈DNA C>T突變,這些突變可能是由于胞嘧啶的自發脫氨或實驗室處理過程中的熱誘導造成的。此外,精子樣本中觀察到了更高的胞嘧啶脫氨損傷水平,這可能與精子生成或處理過程中的特定條件有關。通過對動力學數據的分析,研究進一步確認了這些損傷源自胞嘧啶脫氨。 圖4. 精子和熱處理DNA的ssDNA損傷特征 線粒體基因組的突變機制 HiDEF-seq技術為揭示線粒體基因組突變機制提供了新的見解。研究表明,線粒體基因組的突變率顯著高于核基因組,這些突變主要發生在DNA復制過程中,可能與線粒體DNA復制時部分單鏈暴露有關。通過對肝臟和腎臟樣本的分析,研究發現線粒體DNA的雙鏈突變負荷與年齡存在正相關,并且在線粒體重鏈上觀察到A>G和C>T突變的非對稱模式。這些結果進一步支持了線粒體基因組在復制期間發生突變的觀點。 圖5. 線粒體基因組dsDNA和ssDNA的調用負荷和模式 結 論 HiDEF-seq技術的應用不僅在技術層面上取得了顯著進展,還在生物學上為探究DNA突變的起源和機制提供了新的工具和視角。該技術能夠詳細揭示單鏈DNA事件,實時監測DNA損傷、修復和復制過程的動態,這對于理解突變在癌癥和衰老等背景下的產生至關重要。研究發現,不僅為癌癥易感性綜合征中突變的起源提供了新的線索,還為未來的治療和干預策略提供了潛在的靶點。此外,HiDEF-seq對線粒體基因組突變機制的新認識,也為相關疾病的研究和治療開辟了新的方向。隨著該技術的不斷發展和應用,有望在癌癥預防和治療等領域實現更多突破。這項技術具有廣闊的應用前景,將極大推動我們對DNA突變及其相關疾病機制的理解。