なぜ bulk RNA-Seq の解析にはPCA、シングルセルRNA-Seqの解析には t-SNE が使われるのか?

  • Gene Expression
  • High-Throughput Sequencing

t-SNE がシングルセルRNA-Seqのデータ解析でよく使われるようになっています。しかし、「なぜbulk RNA-SeqにはPCAが使われ、scRNA-Seqではt-SNEやUMAPがよく使われるのか」という点について、十分に納得できる説明は意外と多くありません。

高次元のデータを可視化するt-SNEの効果的な使い方 という記事は、t-SNEとは何かを理解するうえで参考になります。ここでは、その中で述べられている特徴をもとに、RNA-Seqデータ解析での使い分けを考えてみます。

1. ハイパーパラメータは本当に重要です

t-SNEの出力は、パラメータの設定によって大きく変わることがあります。この性質は、次のような特徴として現れます。

2. t-SNEプロット上では、クラスタのサイズは関係ない
3. クラスタ間の距離には、何の意味もないかもしれない

PCAの結果を解釈する場合、サンプル間の距離、方向、ばらつきの大きさは非常に重要な情報です。 一方、t-SNEでは、これらの情報が必ずしもそのまま保たれるわけではありません。 この点を理解せずにt-SNEの図を見ると、クラスタ間の距離や配置に過剰な意味を読み取ってしまう可能性があります。

また、PCAでは一度作成したPCA空間に別のサンプルを投影することも可能ですが、 t-SNEでは同じような扱いが難しい場合があります。 bulk RNA-Seqのように、サンプル間の関係や新しいサンプルの位置づけを確認したい解析では、 この違いも重要になります。

4. ランダムノイズはいつでもランダムに見えるというわけではない

t-SNEでは、データの構造が明確でない場合でも、見かけ上クラスタのような形が現れることがあります。 そのため、図に現れたクラスタをすぐに生物学的な集団として解釈するのではなく、 元データ、発現パターン、サンプル情報、実験デザインなどと照らし合わせて確認することが重要です。

このようなt-SNEの特徴を理解すると、PCAとt-SNEはどちらが優れているかではなく、 それぞれ異なる目的に向いた可視化手法であることがわかります。

bulk RNA-Seqでは、サンプル数が比較的少なく、 各サンプルが実験条件や個体差、バッチ効果などを反映しています。 そのため、サンプル間の距離、方向、ばらつきの大きさを確認できるPCAは、 データ全体の状態を把握するうえで非常に有用です。 PCAでは、外れ値の候補、条件間の違い、バッチ効果の可能性などを、 比較的直感的に確認することができます。

一方、シングルセルRNA-Seqでは、細胞数が非常に多く、 細胞集団の構造やサブクラスタを探索することが主な目的になります。 このような場合、t-SNEやUMAPのような非線形次元削減法は、 細胞集団の局所的な構造を視覚的に把握するために有効です。 ただし、t-SNEの図では、クラスタ間の距離や方向、クラスタの大きさを そのまま生物学的な意味として解釈できるとは限りません。

重要なのは、図を見たときに「きれいに分かれているか」だけで判断しないことです。 その可視化手法が何を保ち、何を失っているのかを理解したうえで、 発現パターン、サンプル情報、バッチ情報、実験デザインなどと合わせて解釈する必要があります。

RNA-Seqデータ解析では、PCAは単なる図ではなく、 データの状態を確認し、次に進むべき解析方針を判断するための重要なステップです。 Subio Platformを使ったRNA-Seqデータ解析の流れの中で、 PCAをどのように確認しながら解析を進めるかについては、 以下のチュートリアルでも解説しています。

RNA-Seqデータ解析チュートリアル:PCAとクラスタリングでデータ全体を確認する

データ解析サービス

Subioでは、公開データの再解析や、お客様自身のデータ解析も承っています。 論文や解析結果を鵜呑みにするのではなく、 データを可視化しながら、結果を客観的に確認・解釈するためのサポートを行っています。