2021-07-08
單細胞測序技術的出現使我們能夠從一個新的維度去理解細胞的行為,包括命運決定,發育過渡,以及對脅迫和疾病的反應,ScRNA-seq數據分析從降維、聚類和細胞定義開始,在此基礎之上再開展差異分析、富集分析、細胞通訊等各種高級和個性化分析。做過項目的老師一定深有感觸,在單細胞聚類分群后,如何定義每一類細胞群是整個單細胞分析的基礎,也是重中之重,但同時也是非常耗時、非常復雜的一步。
那么具體如何鑒定不同cluster的細胞類型呢?通用的方法有兩種:一種是通過細胞類型特異性表達的marker基因識別;第二種是建立已知細胞類型的轉錄譜數據庫,將未知細胞類型的表達譜數據與之比較相似性,推測它最有可能是哪種細胞。第一種方法需要人工收集marker基因比對各個cluster的顯著高表達基因綜合分析,第二種方法可以使用SingleR包自動識別細胞類型。建議兩種方法結合起來進行細胞鑒定。 在正式介紹鑒定方法之前我們首先來明確一下細胞類型鑒定的目的: 1、確定單細胞測序樣本的異質性組成,比如腫瘤微環境; 2、針對性分析研究單細胞測序數據; 3、從測序結果中找到新的細胞類型。 一、 人工鑒定細胞類型 首先需要清楚用于單細胞測序的樣本中主要包含哪些細胞類型,例如PBMC樣本,包含T細胞、B細胞、單核細胞、粒細胞;腫瘤樣本可能會包含腫瘤細胞、上皮細胞、內皮細胞、成纖維細胞等,如果對所研究的組織包含哪些細胞類型不是很清楚,可以參考數據庫,例如Cellmarker。一些常見的marker基因如下: 或可依據細胞周期、細胞的遷移以及分化狀態鑒定(如下圖) 二、 SingleR軟件自動識別細胞類型 SingleR是一個基于R包的軟件,具有豐富的參考數據(區分主類型和子類型、單細胞型和群體型):A、HPCA:hand-annotated Human Primary Cell Atlas(手工注釋的人類原始細胞圖譜),包含37個主要類型、157個亞型以及713個樣本;B、BluePrint+ENCODE:24個主要類型、43個亞型、259個bulk轉錄組測序樣本;C、小鼠:ImmGen和mouse.rnaseq數據庫。 軟件會根據每個細胞或cluster的基因表達均值與樣本之間的相關性進行鑒定。對于每種細胞類型,使用其表達中值大于所有其他細胞類型中前N個基因表達中值的細胞進行關聯,每種細胞類型的SingleR得分是相關性的80%。循環往復,最后以得分最高的為準。 以上就是關于細胞類型鑒定的兩種方法分享啦,大家在判定的過程中最好是將兩者結合起來,祝各位一判一個準兒~