適切な生物種・ゲノムバージョンのGTFファイルを、Ensembl FTPサイトから取得する方法

RNA-Seq FASTQファイル処理のパイプラインを設定するには、適切なHISAT2インデックスとGTFファイルを入手する必要があります。異なる生物種のものを使用したり、HISAT2インデックスとGTFのゲノムバージョンが不一致であったりしても、誤って正常に実行が完了してしまいます。そのため、パイプラインを実行する前に、これらのファイルが正しく選択されていることを確認してください。

提供されているHISAT2インデックスは、Ensembl FTPサイトのGTFよりもはるかに更新が遅いです。つまり、最新("current")のGTFのゲノムバージョンが進んでいて、HISATインデックスのと一致しないことがあります。そのような場合には、適切なゲノムバージョンのGTFファイルを検索する必要があります。

最新版のGTFは、"current GTF" ディレクトリにあります。しかし、ゲノムバージョンがHISAT2インデックスのものと一致しない場合は、旧リリースのフォルダ(release-99やrelease-100など)から適切なものを探す必要があります。

以前のリリースから探すのには、次のようなコツがあります。

  1. 最新のリリースのフォルダを開き、目的の生物のGTFを探します。
  2. 例えば、GTFのアドレスが
    https://ftp.ensembl.org/pub/release-104/gtf/mus_musculus/
    のようなときは、URL欄のリリース番号を編集して、
    https://ftp.ensembl.org/pub/release-103/gtf/mus_musculus/
    https://ftp.ensembl.org/pub/release-102/gtf/mus_musculus/
    のように見ていくのが早いです。

このようにして、旧ゲノムバージョンのGTFファイルの最終版を手早く見つけてください。

関連トピック