2019-05-29
很多老師有沒有一種感慨,辛辛苦苦做完實驗設計,測序工作,數據分析和文章撰寫,在文章發表的前夕,還有一項磨人的工作不得不做,那就是數據上傳。
為什么要進行數據上傳?
數據上傳到哪里?
怎么進行數據上傳??
突然之間的三連問是不是有點懵,不要怕,本篇軟文就來帶領大家梳理這些問題,數據上傳So easy~
為什么要進行數據上傳?
簡單來說,為了發表文章,但根本原因是為了幫助大家管理這些動輒幾十個G或者幾T的數據,同時實現科研共享。
數據上傳到哪里?
這里建議將數據上傳到NCBI的SRA數據庫。NCBI SRA(Sequence Read Archive)數據庫是最常用的存放測序Raw Reads的數據庫(當然還有GEO等其他大的相關的上傳數據的數據庫,大家感興趣的可以自行檢索)。
將測序數據上傳至該數據庫,可分為4大步:
? 注冊并登錄NCBI賬號;
? 申請BioProject號;
? 申請BioSample號;
? 創建SRA提交任務。?
搞清楚這4大步,上傳過程不復雜!
一 注冊并登錄NCBI賬號
網址:https://www.ncbi.nlm.nih.gov/
1
打開網址,點擊右上角 Sign in to NCBI;
2
點擊注冊賬號 Register for an NCBI account;
3
填寫賬號郵箱等信息,點擊 Create accout 完成注冊。
二 申請BioProject號
登錄賬號后,打開網址https://submit.ncbi.nlm.nih.gov/subs/,并進入,界面如下。
1
點擊 BioProject,再點擊 New submission。BioProject:主要描述測序項目的研究目的,不同類型的數據(如基因組和轉錄組)可以都放到一個BioProject下。申請成功后,NCBI會給一個類似PRJNA544896這樣的號,申請過程任何遇到問題,可以寫信給他們的工作人員([email protected]),很快就能收到回復;
2
SUBMITTER,填寫信息,完成后點擊continue。
注:Submitting organization:提交組織、機構或者學校等研究單位。Department:實驗室或課題組或科室名稱。
3
SAMPLE TYPE,選擇數據類型。轉錄組數據選擇第二個,其它數據視實際情況選擇。Sample scope選擇Multiisolate。點擊continue;
4
輸入測序數據的物種拉丁名(必填),如果是微生物細菌,還需要填寫菌株的名稱。分離提取或培養組織名稱等,簡單描述,此處可省略。點擊continue;
5
填寫project釋放時間,如沒有特殊要求,一般為立即釋放,Public description,主要寫數據測序目的,測序組織等。此處必須填寫。點擊continue;
6
填寫Biosample。此處省略,直接continue。因為上傳步驟一般先申請Bioproject號,再申請Biosample號。點擊continue;
7
如果文章已經發出,可以填寫Pubmed ID或者文章的DOI。點擊continue;如果文章還未發出,可以不填。
8
確認填寫的信息,點擊submit后提交完成。
至此Bioproject號申請完成,會立即收到郵件。
三 申請BioSample號
打開網址https://submit.ncbi.nlm.nih.gov/subs/。這與BioProject號不同,這里要求每個樣品申請一個biosample號。
1
點擊BioSample后,在新的界面點擊New submission;
2
SUBMITTER,填寫信息。同BioProject。點擊continue;
3
GENERAL INFO,同BioProject,多個樣品選擇Batch/Multiple Bio Samples。點擊continue;
4
SAMPLE TYPE,選擇樣品的類型,植物、動物、人等,選擇和自己樣品分類一致的選項即可。點擊continue;
5
ATTRIBUTES,上傳樣品信息表。點擊紅色箭頭處,下載信息模板。點擊綠色箭頭處,可以查看模板中每一項表頭的解釋,得知如何填寫樣品信息表。excel可直接打開下載的模板,如圖:表格綠色部分必填,黃色部分選填,藍色表示這些字段中至少有一個是必需的,如果信息不可用,請根據情況輸入“未收集”、“不適用”或“缺少”。。每個樣品生成一個文件(先填寫一個文件試著上傳,如果有報錯可以修改,之后只需改動樣品名即可)。點擊continue;
6
確認填寫的信息,點擊submit后提交完成。幾分鐘內就會收到郵件,包含BioSample號。
四 創建SRA提交任務
打開網址https://submit.ncbi.nlm.nih.gov/subs/,并進入。
1
點擊SRA,New submission。文件可以用gzip或者bzip2壓縮,不能用zip壓縮。注:所有文件名必須唯一不可重名;
2
SUBMITTER,填寫信息,同BioProject號申請。點擊continue;
3
GENERAL,填寫申請好的BioProject號及數據釋放時間。點擊continue;
4
METADATA,上傳文件信息表。點擊箭頭處,下載表格模板,并按照介紹填寫(每一列都必填),填寫完成后在瀏覽處上傳表格,點擊continue。
5
FILES,上傳壓縮好的原始數據,如果文件大于10GB,或者多于300個文件,不能用網頁上傳,可安裝Aspera插件后上傳。點擊箭頭處下載插件,安裝后回到網頁繼續上傳。由于測序數據較大,網速的限制等原因,這個過程所需時間可能較長,還請大家耐心等待哦。
6
OVERVIEW,確認填寫的信息,提交。
完成了前面的四個步驟,所有的操作就已經完成了,靜靜等待NCBI發送序列號郵件就可以了。
歡迎大家學習和嘗試前往NCBI上傳原始數據,測序文章的成功發表,離不開數據的成功上傳,大家加油~~