オミクスデータの解析は、標準的なワークフローに従ってできるようなものではありません。実際の解析は(1)データを見て、(2)何かを見つけて、(3)見つけたことを検証する、という過程を繰り返すサイクルのようなものです。
(1)データを見る:
オミクスデータは、先入観なしに見なければなりません。なぜなら、大きなデータセットには必ず非線形のバイアスや人工的な影響が紛れ込んでいるからです。教科書のようにすべてのデータがきちんとしているということはまずありえません。そのデータ固有の特徴を見きわめる必要があります。
(2)何かを見つける:
たとえば、「normalとtumorで発現差のある遺伝子を知りたい」という目的があったとしても、そのnormalやtumorが一様であるとは限りません。たいていnormalやtumorサンプルはいくつかのサブタイプに分類でき、これらの多様性をどのように扱うか判断したうえで、何を見つけるのかを考えなければなりません。
(3)見つけたことを検証する:
発現差のある遺伝子を取り出すのは簡単なことです。しかし、その解釈は簡単ではありません。サンプルに付加されている大量の情報を視覚化するのは、発現パターンと実験条件の相関を推察するのにとても助けになります。浮かび上がってきた仮説のうち、何をその後の実験で検証するか決めなくてはなりません。データからすべてがわかるわけではないので、一種の賭けです。
オミクスデータ解析を学ぶ最良の方法
下のムービーはTCGA-BLCAのmRNA-Seqデータの解析例です。とはいっても、実際には何も見つけていません。ここで示しているのは、リアルなオミクスデータの解析における試行錯誤です。
GDCのサイトからは、TCGAまたはTARGETプロジェクトのたくさんの癌種の遺伝子発現データを大量にダウンロードして解析することができます。Subio Platformを使えば、これらのデータを簡単にダウンロードして解析にトライしてみることができますが、これはオミクスデータ解析について学ぶ最良の方法の一つでしょう。なぜなら教科書や統計学的モデルの前提がほとんど当てはまらないということがわかるからです。教科書に頼らず、自分の目でデータを見て判断する力を養いましょう。
Exploratory Analysis of TCGA-BLCA RNA Seq data
00:10 - 大きなデータセットを扱うためのメモリー設定
00:40 - GDCデータセンターから、サンプルをインポートする
01:30 - Seriesを作成し、GDCのサンプルアノテーションをparameterに設定する
03:50 - データの分布の形を見ながら、ノーマライズを設定する
06:20 - フィルタリング
08:20 - 主成分分析の結果から、クラスターを形成しているサンプルに印を付ける
08:50 - パラメータを視覚化して、解釈に役立てる
13:10 - 発現プロファイルに人工的な影響がないか調べる
18:20 - いくつかのサンプルを解析から除外する
19:00 - Tumorサンプルをサブグループに分類する
21:10 - サブグループ間で発現差のある遺伝子を抽出する
22:00 - Normal-Tumorが対になっているサンプルを抽出して、新しいSeriesを作る
24:30 - 患者さんごとに tumor/normal の比を作って、個体差をキャンセルした解析をする
27:00 - 発現プロファイルにおける「癌化」の影響を調べる
27:30 - 主成分分析の結果から、二つの「癌化」タイプを分類する
29:10 - 二つの「癌化」タイプの間で発現差のある遺伝子群を抽出する
30:00 - 結果を比較し、検討する
データインポートから解析まで一通り学びたい方は、オンライントレーニングをお申し込みください。
関連トピック
大きなデータセットを解析するには、大きなメモリー(RAM)が必要となります。メモリーエラーが頻発するようでしたら、物理的にメモリーを追加することが解決策となります。もしメモリー追加ができない場合は、下記の回避策をご検討ください。