使用別人發(fā)表的高通量測(cè)序數(shù)據(jù)進(jìn)行挖掘,篩選差異基因進(jìn)行后續(xù)研究,不僅節(jié)省經(jīng)費(fèi),又節(jié)約時(shí)間,可以大大提升研究人員的工作效率。今天小編就給大家介紹下如何從NCBI數(shù)據(jù)庫(kù)下載高通量測(cè)序數(shù)據(jù)。
1、進(jìn)入NCBI SRA數(shù)據(jù)庫(kù)搜索項(xiàng)目界面,輸入SRP編號(hào)。SRP編號(hào)一般可以文章中找到?,F(xiàn)在大部分雜志都需要作者上傳測(cè)序數(shù)據(jù)到公共數(shù)據(jù)庫(kù),并將提交得到的編號(hào)SRP編號(hào)(測(cè)序)或GSE編號(hào)(芯片)放到文章中。
https://www.ncbi.nlm.nih.gov/Traces/study/
2、輸入SRP編號(hào)后出來(lái)界面會(huì)顯示測(cè)序數(shù)據(jù)信息,我們輸入SRP110184點(diǎn)擊搜索后,會(huì)找到8個(gè)樣本的測(cè)序數(shù)據(jù)。
3、數(shù)據(jù)下載,第一可以直接點(diǎn)擊單個(gè)樣本,進(jìn)行頁(yè)面下載。Data access界面有兩個(gè)下載鏈接都可以下載。
4、下載的數(shù)據(jù)需要轉(zhuǎn)化為fastq格式才能進(jìn)行下一步的差異表達(dá)分析。這里就需要NCBI提供的下載工具SRA Toolkit進(jìn)行轉(zhuǎn)化。AWS,NCBI兩個(gè)鏈接下載的文件后綴為”.man”,”.1”格式。
https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
5、根據(jù)操作系統(tǒng)選擇相應(yīng)版本的軟件下載。Window版本軟件下載后為一個(gè)壓縮文件 sratoolkit.2.11.0-win64.zip。解壓縮后,設(shè)置環(huán)境變量后就可以使用。
具體安裝方法:鼠標(biāo)移至“計(jì)算機(jī)”圖標(biāo),點(diǎn)擊右鍵---屬性---高級(jí)系統(tǒng)設(shè)置---環(huán)境變量---PATH---新建---輸入sratoolkit.2.11.0-win64解壓縮所在的路徑,點(diǎn)擊確認(rèn)就可以使用了。
6、SRA下載文件轉(zhuǎn)化為fastq格式文件 。在測(cè)序下載文件中,按shift鍵同時(shí)點(diǎn)擊右鍵,在出來(lái)的下拉框中點(diǎn)擊“在此處打開命令框”,出現(xiàn)dos界面。輸入命令fastq-dump -I --split-files SRR5742690.man, SRR5742690.man為下載數(shù)據(jù)文件名及后綴。程序運(yùn)行完成后會(huì)兩個(gè)fastq文件,是測(cè)序數(shù)據(jù)的兩個(gè)雙端文件。
7、如果樣本比較多可以通過(guò)NCBI提供的下載工具SRA Toolkit下載。在SRA Run Selector界面下載所有樣本信息Accession list(下載得到SRR_Acc_List.txt文件)。
8、將RR_Acc_List.txt放到sratoolkit.2.11.0-win64文件夾中bin文件夾中,在bin文件夾中按住shift同時(shí)點(diǎn)擊郵件打開dos命令框,輸入命令:prefetch.exe --option-file SRR_Acc_List.txt。程序會(huì)逐個(gè)下載各個(gè)樣本的數(shù)據(jù),一個(gè)樣本一個(gè)文件夾。
9、得到fastq雙端測(cè)序數(shù)據(jù)之后就可以進(jìn)行后續(xù)差異篩選,功能富集等分析了。