もし、著者がアップロードしたcountやTPMのファイルがダウンロードできるのであれば、それを使うのが簡単です。それがない場合でも、もしNCBI-generated dataが https://www.ncbi.nlm.nih.gov/geo/download/?acc=[GSE accession number] よりダウンロードできる場合は、自分でFASTQファイルの処理をしなくてもよいです。これら二つともない場合に限り、自分でFASTQファイルを入手して処理をする必要があります。
手順
1. GEOのウェブサイトで GSM record のページを開く。
2. ページの下までスクロールすると、対応するSRXへリンクがあるので、これをクリックする。
3. シーケンスリードに関する情報、特にそれが SINGLE か PAIRED かを確認する。
4. SRR番号がページの下の方にあるので、このSRR番号をSRA tool のコマンドに渡す。
コマンドプロンプト(Macの場合はTerminal)の画面を開き、cd コマンドを使ってSRA Toolkitのbinフォルダーまで移動する。
たとえば、fastqdump フォルダーをユーザーのドキュメントフォルダーの下に作った場合、次のようにコマンド入力する。
fastq-dump --gzip --split-files --outdir "C:Users[user name]Documentsastqdump" SRR1234
- --gzip option は時間を節約します。
- --split-files option はPaired-End の場合に必要です。しかし、Single-End の時は除いてください。
- --outdir option は、任意のフォルダーを指定して構いません。
- 末尾のSRR番号で、ダウンロードしたいサンプルを指定してください。
ファイル名が SRR1234.fastq.gz のままだとこの後使いにくいので、GSM5678.fastq.gzのように名前を変えておくとよいです。Paired-end サンプルの場合は、GSM5678_1.fastq.gz と GSM5678_2.fastq.gz というファイル名にします。
もし、ひとつのGSMに対して複数のSRR番号がリストになっていたら、すべてのFASTQファイルをダウンロードした後で、次のように連結します。
Windowsのコマンドプロンプトを使う場合
copy /b SRR1234.fastq.gz + SRR1235.fastq.gz + SRR1236.fastq.gz GSM5678.fastq.gz
MacのTerminalを使う場合
cat SRR1234.fastq.gz SRR1235.fastq.gz SRR1236.fastq.gz > GSM5678.fastq.gz