変異データ解析チュートリアル(RNA-Seq の FASTQ ファイルから)

特にWindowsをお使いの方にとっては、RNA-SeqのFASTQファイルから GATKを使って変異を検出するもっとも簡単な方法だと思います。そして、たとえば Normal vs. Disease のような実験において、Disease で多く見られる変異、あるいはDiseaseで変異の多い遺伝子をもっとも簡単に抽出することができるツールでしょう。

RNA-SeqのFASTQファイルから、ゲノム変異(SNP や indel) を検出する。

このパイプラインは、GATKのRNAseq short variant discovery (SNPs + Indels)を参考にして作っています。ただし、メモリーの消費量を抑えるため、アラインメントにはSTARではなくHISAT2を使っています。ウェットのバイオロジストにとってGATKを動かすのは簡単ではありませんが、特にWindows ユーザーにとっては、このツールを使うのがもっとも簡単だと思います。ただし、ヒトのRNA-Seqデータにしか使えません。他の生物種ではご利用いただけませんのでご注意ください。

実行する前に、下記に従って実行環境のセットアップを行ってください。

もし、既に抽出した変異をVCFファイルでお持ちでしたら、前のパートは飛ばして構いません。ここから始めてください。

検出された SNP や indel がもたらす影響を予測する。

SnpEffは 変異に対してアノテーションとそれがもたらす効果を予測するツールです。 Annotate VCF ツールは、このプログラムを Subio Platform から簡単に実行できるようにするものです。ムービーではGZで圧縮されたファイルでもいいとなっていますが、解凍したVCFファイルでないとうまく動作しないかもしれません。

もし、解析対象の生物種用のデータベースが見つからない場合は、SnpEff用のデータベースの作成を行ってください

変異をケースとコントロールで比較し、フィルタリングする。

このツールは、注釈付きのVCFファイルを受け付けます。したがって、まず Annotate VCF ツールを実行してください。

インプットのVCFファイル群は、ケースグループとコントロールグループの2つのグループに分かれているかもしれません。このツールは、突然変異の種類と、コントロールグループとケースグループにおける出現頻度で集計し、フィルタリングをかけられるようにすることで、ターゲット候補の変異を簡単に見つけられるようにします。

また、2つの実行モードがあります。Count by Variant モードでは、変異ごとに集計します。一方、Count by Location モードでは、どのような変異かは無視して、位置だけを考慮して集計します。

遺伝子ごとに変異をケースとコントロールで比較し、フィルタリングする。

このツールは、注釈付きのVCFファイルを受け付けます。したがって、まず Annotate VCF ツールを実行してください。

インプットのVCFファイル群は、ケースグループとコントロールグループの2つのグループに分かれているかもしれません。このツールは、突然変異の種類と、コントロールグループとケースグループにおける出現頻度を遺伝子ごとに集計し、フィルタリングをかけられるようにすることで、ターゲット候補の遺伝子を簡単に見つけられるようにします。

ターゲット遺伝子のエクソンごとに変異を集計する。特定のエクソン上の変異を抽出する。

このツールは、Aggregate Variants や Aggregate Variants per Gene ツールで解析した後に使用してください。対象遺伝子の候補をリストアップした後、候補ごとにエクソンごとに要約することができます。

また、エクソンによるフィルタツールは、指定された転写物の指定されたエクソン上にあるゲノム要素を抽出します。