なぜ bulk RNA-Seq の解析にはPCA、シングルセルRNA-Seqの解析には t-SNE が使われるのか?

  • High-Throughput Sequencing
  • Gene Expression

t-SNE がシングルセルRNA-Seqのデータ解析でよく使われるようになっています。しかし、「なぜbulk RNA-SeqにはPCAで、scRNA-Seqにはt-SNEか」という説明をいくら読んでも、個人的には納得できる説明が見当たりません。

高次元のデータを可視化するt-SNEの効果的な使い方 という説明が t-SNE とは何かを知るのに最適だと思いますので、ここで述べられている特徴を見ていきましょう。

1.ハイパーパラメータは本当に重要です

t-SNEの出力が、パラメータの設定によって大きく変わることがわかります。この性質が、次の性質となって現れます。

2. t-SNEプロット上では、クラスタのサイズは関係ない
3. クラスタ間の距離には、何の意味もないかもしれない

ご存知のとおり、PCAの結果を解釈するのに、これらの情報はとても重要です。これらの情報がt-SNEの出力からは失われているということを知っておかなければいけないのです。もちろん、方向という情報も生物学的に重要ですが、これも失われています。このことを知らずに t-SNE の出力した図を見ていると、その図の意味を誤って解釈することを避けられないでしょう。また、PCAであれば一度作ったPCA空間に別のサンプルを投影することも可能ですが、これができないのも発現解析においてはデメリットでしょう。

4. ランダムノイズはいつでもランダムに見えるというわけではない

t-SNEの結果を使った論文を読んでいる研究者のほとんどは、このことを知らないのではないでしょうか。この事実を知らなければ、図に現れたクラスターは何らかの生物学的意味があると解釈することでしょう。しかし、そのクラスターはノイズから生成されたものかもしれないのです。

このようなt-SNEの特徴がわかると、PCAがうまく働く状況ではt-SNEもまた問題なく働くだろうと予想されるが、その逆はないということにお気づきでしょう。

あらためて、なぜシングルセルRNA-Seqのデータ解析で t-SNE が好まれるかを考えてみましょう。scRNA-Seqは本質的に難しい実験なのでそのデータは非常にノイジーであることが予想されます。このような場合、PCAを使っても発表するのに使えるくらい見た目の良い図が得られないでしょう。しかし、t-SNE なら見た目のいい図が出てくる可能性があるでしょう。もし論文でt-SNEの図が使われていたら、その生データの品質を疑ったほうがいいかもしれません。

データ解析サービス

Subio では、公開されたデータの再解析も承っています。論文で出された結論を鵜呑みにする前に、客観的な検証ができるようデータを視覚化するお手伝いをしています。