2021-04-30
與常規的RNA-Seq一樣,10x單細胞RNA-Seq/ST-Seq也需要測序數據比對到參考基因組進行基因的定量。那么參考基因組的質量就對單細胞的分析結果有著重大的影響。
接下來小編就給大家介紹一下10x單細胞分析的參考基因組準備。 1、10x官方提供的參考基因組 對于常用的人和小鼠,10x官方提供了經過處理的,可以直接用來定量的參考基因組,可以在下面的鏈接中下載(https://support.10xgenomics.com/spatial-gene-expression/software/downloads/latest)。 可以看到人的基因組版本為GRCh38,小鼠的為mm10。都是目前常用的基因組版本,所以如果您研究的是人或者小鼠,那么直接從10x官方下載吧,是不是很方便呢! 2、自建參考基因組 如果您希望使用最新的人/小鼠基因組,或者研究的是其他物種,那么就需要自行構建參考基因組了。單細胞進行基因定量主要分為兩步: 1.測序數據與參考基因組比對,獲取reads在基因組上的位置; 2.根據reads比對信息和參考基因的位置,對基因進行計數。 所以我們需要準備兩個文件,基因組的DNA序列文件(FASTA格式)和基因的注釋文件(GTF格式)。常用的Ensembl和NCBI數據庫都提供了這兩種格式的文件。以Ensembl為例,打開Ensembl(http://asia.ensembl.org/info/data/ftp/index.html)下載頁面。 這里我們以人基因組為例,點擊相應的FASTA和GTF超鏈接,可以看到如下頁面: 需要注意的是,大部分物種我們需要下載toplevel的序列文件,但是對于人和小鼠這類有單倍型信息的基因組,我們需要下載primary_assembly的序列。將下載好的文件傳到linux主機上。 10x單細胞使用的polydT進行RNA逆轉錄,只能測到帶有polyA尾的RNA序列,所以我們需要從GTF文件中過濾掉non-polyA的基因。Cellranger的mkgtf命令可以對GTF文件進行過濾,通過--attribute參數指定需要保留的基因類型: Ensembl和NCBI提供的GTF文件通常都有gene_biotype標簽來標記基因的類型。如果從其他來源下載的GTF文件中沒有gene_biotype標記,那么就不需要對GTF進行過濾。 處理完GTF文件之后,就可以使用cellranger的mkref命令構建基因組了: 這一步根據基因組的大小,需要的內存和運行時間不同。人的基因組大約有3G個堿基對,小編在構建基因組時,使用了約20G內存,耗時約1.5h。所以建議在大型工作站或者服務器等配置較高的機器上運行。看到如下信息就表示運行順利完成啦! 構建好的基因組就可以進行下一步的定量啦!