2021-05-28
1. 單細胞測序數據格式
通常使用illumina的NovaSeq/Xten對10x單細胞平臺構建的文庫進行測序。得到的BCL經過bcl2fastq或者cellranger mkfastq處理成常見的FASTQ格式的文件。Bcl2fastq得到的就是常見的下機數據文件,一般有兩個文件分別對應Read1和Read2。Cellranger mkfastq本質上就是對bcl2fastq進行的封裝,除了Read1和Read2兩個文件,還會多一個Index文件(存放的拆分文庫用的index信息,沒有也不影響后續的表達定量)。FASTQ文件命名格式為[Sample Name]_S1_L00[Lane Number]_[R1|R2|I1]_001.fastq.gz。比如下面這樣:
如果拿到的測序結果不是以這種格式命名的,需要先進行重命名,不然cellranger會識別不到樣品對應的文件!
2. 表達定量
cellranger count是10x官方的表達定量流程,可以對FASTQ數據進行基因組比對,barcode和UMI計數,生成feature-barcode表達矩陣,對識別到的細胞進行聚類分群,并進行表達分析。cellranger count用法如下:
--id指定樣品名,分析結果會保存在同名的文件夾中;
--transcriptome指定需要使用的參考基因組;
--fastqs指定了FASTQ文件的存放位置;
--sample指定了FASTQ文件中的樣品名。
cellranger count需要的資源較多,建議在大型工作站或者服務器等配置較高的機器上運行。以150G數據量的人單細胞樣品為例,使用28個線程,內存約40G,總耗長約4h。看到如下信息就表示運行順利完成啦!
3. 結果說明
cellranger count運行過程中會生成以樣品命名的文件夾,分析結果保存在下一級的子文件夾outs。
各個文件/文件夾說明如下:
web_summary.html里列出了常用的質控信息,包括:測序數據量、Q30、細胞數、基因組比對率等:
analysis文件夾保存了cellranger分析的細胞聚類和表達分析的結果。
cloupe.cloupe文件可以導入到10x官方軟件Loupe Browser進行可視化分析filtered_feature_bc_matrix文件夾保存了分析得到的表達矩陣。
以上就是cellranger進行表達定量分析的介紹啦,分析得到的表達矩陣文件可以導入到常見的第三方分析軟件(Seurat,scanpy等)進行進一步的分析,后續我們會一一分享哦!
更多新聞資訊請關注派森諾官網:http://500we.com