.fastq.gz ファイルを Gene Expression Omnibus (GEO) から入手する方法

GSEからFASTQファイルをダウンロードする場合、サンプルごとに一つ一つダウンロードしなくてはいけないので、かなり面倒ですが、複数の画面を使って同時に実行するとよいでしょう。

手順

1. GEOのウェブサイトで GSM record のページを開く。
2. ページの下までスクロールすると、対応するSRXへリンクがあるので、これをクリックする。
3. シーケンスリードに関する情報、特にそれが SINGLE か PAIRED かを確認する。
4. SRR番号がページの下の方にあるので、このSRR番号をSRA tool のコマンドに渡す。

コマンドプロンプト(Macの場合はTerminal)の画面を開き、cd コマンドを使ってSRA Toolkitのbinフォルダーまで移動する。

たとえば、fastqdump フォルダーをユーザーのドキュメントフォルダーの下に作った場合、次のようにコマンド入力する。

fastq-dump --gzip --split-files --outdir "C:Users[user name]Documentsastqdump" SRR1234

  • --gzip option は時間を節約します。
  • --split-files option はPaired-End の場合に必要です。しかし、Single-End の時は除いてください。
  • --outdir option は、任意のフォルダーを指定して構いません。
  • 末尾のSRR番号で、ダウンロードしたいサンプルを指定してください。

ファイル名が SRR1234.fastq.gz のままだとこの後使いにくいので、GSM5678.fastq.gzのように名前を変えておくとよいです。Paired-end サンプルの場合は、GSM5678_1.fastq.gz と GSM5678_2.fastq.gz というファイル名にします。

もし、ひとつのGSMに対して複数のSRR番号がリストになっていたら、すべてのFASTQファイルをダウンロードした後で、次のように連結します。

Windowsのコマンドプロンプトを使う場合

copy /b SRR1234.fastq.gz + SRR1235.fastq.gz + SRR1236.fastq.gz  GSM5678.fastq.gz

MacのTerminalを使う場合

cat SRR1234.fastq.gz SRR1235.fastq.gz SRR1236.fastq.gz  > GSM5678.fastq.gz