この動画では、Subio PlatformのBasic Plug-inを使って、 RNA-Seqデータを可視化しながら確認し、 発現差解析の結果を比較する基本的な流れを紹介します。
使用しているデータは、 RNA-Seqデータ解析チュートリアル と同じGSE49110のデータです。 3種類のsiRNA処理を比較するために、 正規化後Gene Countsをコントロール群 siC に対するLog2 Ratioに変換したデータを使い、 フィルタリング、PCA、階層的クラスタリング、ヒートマップ、 コントロール群 siC に対するDEG解析、 ベン図によるDEGリストの比較を行います。
この動画では、操作の流れを分かりやすくするため、 正規化や前処理の詳しい説明は省略しています。 実際には、正規化後Gene Countsに対してLow Signal CutoffやFill Missing Valuesなどの前処理を行ったうえで、 コントロール群に対するLog2 Ratioに変換したデータを使用しています。 詳しい手順については、 RNA-Seqデータ解析チュートリアルをご覧ください。
Basic Plug-inで行う解析の流れ
この動画では、以下の流れで解析を進めます。
- 低Counts領域の不安定な測定値を持つ遺伝子を除外する
- 発現変動のほとんどない遺伝子を除外する
- PCAでサンプル間の関係を確認する
- 階層的クラスタリングとヒートマップで発現パターンを確認する
- コントロール群 siC に対するDEGリストを抽出する
- UpリストとDownリストを保存する
- ベン図で複数のDEGリストを比較する
- DEGの和集合リストをヒートマップで確認する
フィルタリングは、データを見ながら決める
RNA-Seqデータでは、低Counts領域の測定値が不安定になりやすく、 そのままPCAやクラスタリング、発現差解析に使うと、 結果の解釈が難しくなることがあります。
この動画では、固定された閾値を機械的に使うのではなく、 Gene Countsを可視化した散布図を見ながら、 どの領域を解析から除外するかを決めています。
また、ほとんど発現変動しない遺伝子は、 DEG解析では必ずしも除外する必要はありませんが、 クラスタリングでは重要なフィルタリング対象になります。 発現変動しない遺伝子を大量に含めたままクラスタリングを行うと、 本当に見たい発現パターンが見えにくくなるためです。
PCAとヒートマップを関連づけて解釈する
PCAでは、サンプル間の関係や全体的な発現プロファイルの違いを確認できます。 このデータでは、コントロール群の2サンプルが原点付近にあり、 siRNA処理によってサンプルが主に右下方向へ移動していることが分かります。
次に、階層的クラスタリングとヒートマップを使うことで、 どの遺伝子群が、どの処理群で上昇または低下しているかを確認できます。 PCAとヒートマップは別々に見るのではなく、 PCAで見えたサンプル間の違いが、 どのような発現パターンに由来しているのかを確認するために、 関連づけて解釈することが重要です。
DEGリストを抽出し、ベン図で比較する
Basic Plug-inのCompare 2 Groupsツールを使うと、 コントロール群に対して発現が上昇した遺伝子、 または低下した遺伝子を抽出できます。
この動画では、siCを基準として、 siE1、siE2、siE3それぞれのDEGリストを抽出し、 UpリストとDownリストに分けて保存しています。
DEGリストの抽出では、Volcano Plotだけでなく、 平均発現量と発現変動の関係を見る散布図も併せて確認しながら、 閾値を決めています。
さらに、Subio Platformの基本機能であるベン図ツールを使って、 複数のDEGリストの共通部分や違いを確認します。 このデータでは、発現上昇のDEGリストには比較的共通する遺伝子が多く、 発現低下のDEGリストには群特異的な遺伝子が多いことが分かります。
自動解析だけでなく、可視化しながら確認する
この動画の目的は、単にBasic Plug-inの操作方法を示すことだけではありません。 RNA-Seqデータ解析では、結果を自動的に出すだけでなく、 各ステップでデータを可視化し、 フィルタリングの妥当性、サンプル間の関係、発現パターン、 DEGリストの共通性や違いを確認することが重要です。
Subio Platformでは、RNA-Seqデータを可視化しながら、 解析結果を確認し、必要に応じて条件を調整しながら、 生物学的な解釈へ進めることができます。