2024-10-12
單細胞RNA測序(scRNA-seq)被越來越多地用于研究植物中由基因表達和細胞類型組成的物種間差異。隨著大量植物scRNA-seq數據發(fā)表,植物的獨特多樣性使物種之間的比較評估變得重要。但是與哺乳動物不同,在哺乳動物中同源基因和結構很容易被識別,植物基因家族經常通過全基因組復制、多倍體化和串聯(lián)基因復制來進行擴展,使得識別一對一的同源基因變得困難,從而阻礙了進行跨物種比較分析。
2024年6月27日美國紐約冷泉港冷泉港實驗室基因組學部在《nature plants》上發(fā)表了一篇關于植物跨物種單細胞數據整合的文章(IF:15.8):Coexpression enhances cross-species integration of single-cell RNA sequencing across diverse plant species。這項研究旨在通過使用共表達來識別基因對,從而解決植物跨物種單細胞數據整合的難題。這些基因對雖然不是排他性的直系同源物,但在功能上足夠相關,能夠整合這些高維數據。通過減少整合的障礙,為發(fā)現對植物適應和馴化至關重要的新型細胞類型特異性創(chuàng)新奠定了基礎。
技術方法及結果
該方法的本質是使用以前批量RNA測序數據分析來定義跨物種基因對(即,共表達代理),這些基因對可以應用于更具體但更稀疏的單細胞數據。通過利用由16000多個公開可用的RNA測序數據集構建的穩(wěn)健共表達網絡,以及OrthoDB v11的基因系統(tǒng)發(fā)育,共表達代理準確反映了它們從10,11中提取的每個物種對的潛在生物學,同時共表達數據和基因系統(tǒng)發(fā)育識別了擴展一對一基因空間的基因對,改善了已知細胞類型之間的數據整合和比對,并突出了物種之間的新細胞(圖1-a)。通過進一步的改進整合,此方法也成功能夠在它們的scRNA-seq數據中識別新的和保守的細胞類型。
圖1
實例一
整合擬南芥單細胞數據集分割成兩個偽“物種”
第一個“物種”是通過隨機選擇一半的細胞和一半的基因組產生的。對于這些細胞,基因組的后半部分被移除。然后,取出剩余的細胞,這些細胞將成為第二個“物種”,并去除第一組細胞中存在的一半基因組(圖2-a)。接著,確定了兩個子集基因組之間的共表達代理,找到了具有相似表達譜的基因對。例如,所選的共表達代理基因AT1G16150與靶基因AT1G1610的表達譜非常匹配。相比之下,來自同一直系同源家族的被排斥基因AT4G31100具有不同的表達譜(圖2-b)。最后,使用Scanorama v1.7.113以及找到的共表達代理對擬南芥的數據集進行重新整合和重新聚類,將82%的細胞與兩個數據集的細胞組合在一起(圖2-c),其中75%匹配了相同細胞類型的細胞。為了評估基因代理的成功在多大程度上取決于基因系統(tǒng)發(fā)育的信息,以及有多少信息來自共表達保守譜,我們試圖使用每個直系同源組中被拒絕最差的代理(即共表達最低的代理)整合數據集,細胞的成功匹配率降低到65%(圖2-d)。為了確定單獨的序列相似性是否足夠,我們計算了每個擬南芥基因的成對蛋白質序列相似性,并試圖用它來鑒定基因代理。雖然能夠比隨機表現更好,但在重新整合分割數據集方面,這一指標比共表達更差,并且完全無法重新整合某些集群。最后,我們嘗試使用1900個隨機基因對進行整合,發(fā)現我們無法整合(圖2-e)。進一步評估我們的共表達代理,我們評估了被拒絕和選定的基因對在每個基因的基礎上在細胞類型中顯示相同表達的程度。發(fā)現,在不同細胞類型中,被接受的共表達代理更接近靶的表達譜,而被拒絕的代理平均距離靶的表達高83%(圖2-f)。這表明,與同一正交組的其他基因相比,共表達代理在表達譜上與其靶基因更相似。此外,運用此方法在13種植物物種之間生成了共表達代理,并在物種之間平均鑒定出5750個基因對(圖2-g)。
實例二
整合玉米以及水稻的單細胞數據
使用共表達代理,成功地整合了玉米和水稻數據集(主要針對四種廣泛的細胞類型),將36%的細胞與兩個數據集的細胞準確地整合成簇(圖3-a)。其余的細胞差異很大,在不同物種中仍然表現為不同的亞群。雖然這遠未達到100%,但確實存在真正的跨物種差異,因此尚不清楚最大合理的整合百分比是多少。重要的是,整合比僅使用1-1個基因對要好,后者只整合了14%的細胞(圖3-b)。為了逐個細胞類型評估整合情況,使用了MetaNeighbor v3.19,量化細胞類型在統(tǒng)計框架中跨數據集復制的程度。比較了使用scGen的四種集成——利用共表達代理和1-1基因,僅使用共表達代理,僅使用1-1個基因和使用隨機基因(圖3-c)。可以看出,單獨的共表達代理、單獨的1-1對和組合都能準確、相似地將不同物種的細胞類型分組。雖然對于這種廣泛的分類來說很微妙,但當用MetaNeighbor進行評估時,完整的共表達代理集在所有細胞類型中都比其任何一個部分集成得更好,反映了來自共表達代理的額外信息。因為這是一個專注于明確對齊的驗證,所以性能通常會從高到更高。為了評估增加的已知基因對空間的效用,將共表達代理替換為隨機對,并跟蹤性能改進(圖3-d)。對于大多數細胞類型,性能穩(wěn)步提高到接近1,表明5000個共表達代理的典型數量足以整合跨物種數據。進一步查明共表達代理,發(fā)現它們通常代表核心保守功能,如光合作用、線粒體蛋白和核糖體代謝(圖3-e)
結 論
整合跨物種單細胞數據是植物發(fā)育、進化和分子生物學領域越來越普遍的目標。為了促進這一過程,使用共表達代理可以擴大可用于整合的基因空間。這些代理列表為改善單細胞數據的整合提供了重要資源,加速了知識從研究良好的模式生物向對全球糧食供應至關重要的作物系統(tǒng)的轉移。