FPKMやTPMで“整ったはずのデータ”の落とし穴 — GSE159751から見るデータ検証の重要性

ケーススタディ：GSE159751

Download

TPMとFPKMの違いだけを理解しても、RNA-Seq解析には不十分

TPMやFPKMは、RNA-Seqデータの発現量としてよく見かける値です。そのため、「TPM FPKM」「FPKM TPM 違い」「TPMを使った発現解析」といったキーワードで情報を探す方も多いと思います。

TPMとFPKMは、どちらもread countを遺伝子長やデータ量で補正した発現量指標です。大まかに言えば、FPKMは遺伝子長で補正した後にライブラリサイズを考慮する値であり、 TPMは各サンプル内での発現量の合計がそろうように計算される値です。そのため、同一サンプル内で遺伝子同士の相対的な発現量を見る場合には、 TPMの方が直感的に扱いやすいことがあります。

しかし、RNA-Seq解析で重要なのは、「TPMとFPKMのどちらを使うべきか」だけではありません。発現差解析、サンプル間比較、データ品質の確認、結果の解釈まで含めて考えると、 TPMとFPKMの違いを理解するだけでは不十分です。

発現差解析では、TPMやFPKMではなくGene Countsを使う

RNA-Seqの発現差解析では、TPMやFPKMではなく、 Gene Countsを出発点として解析するのが基本です。 DESeq2、edgeR、limma-voomなどの代表的な発現差解析手法は、 Gene Countsをもとに、ライブラリサイズやデータ分布を考慮しながら群間差を評価するように設計されています。

一方、TPMやFPKMは、すでに遺伝子長やデータ量による補正を受けた値です。そのため、これらを発現差解析の主な入力データとして使うと、標準的なRNA-Seq解析手法の前提と合わなくなります。発現差解析を行うのであれば、「TPMとFPKMのどちらを選ぶか」ではなく、まずGene Countsを用意することが出発点になります。

この点について詳しくは、次の記事で解説しています。
TPM・FPKM・RPKMは発現差解析に使わない｜RNA-SeqのDEG解析はGene Countsから

「正規化済み」のTPMやFPKMでも、そのまま信頼できるとは限らない

では、発現差解析ではなく、公共データベースや論文の補足データとして配布されているTPMやFPKMを使って、サンプル間の傾向を確認したり、データ全体を見たりする場合はどうでしょうか。

ここで注意したいのは、TPMやFPKMが「正規化済みの値」として扱われやすいことです。確かに、TPMやFPKMは遺伝子長やライブラリサイズを考慮して計算された値です。しかし、それだけでサンプル間比較に適したデータになるとは限りません。

TPMやFPKMでは、read countを遺伝子長や総read数に基づいて補正します。しかし、この補正は基本的に、サンプル全体に一定の倍率をかけるような線形の調整です。そのため、実際のRNA-Seqデータでしばしば見られる、発現量のレンジによってサンプル間の差が変わるような非線形の歪みまでは補正できません。

つまり、TPMやFPKMは、「生のGene Countsよりも見やすく整えられた値」ではあっても、「そのまま信頼して比較できる値」とは限りません。本記事では、実際のデータ GSE159751 を使い、TPMやFPKMに変換されたデータでも、解析前の確認が重要であることを見ていきます。

TPMやFPKMに変換しても、非線形な歪みは残る

TPMやFPKMでは、リード数や遺伝子長などを考慮して値が補正されます。しかし、リード数やデータ量の違いをそろえる処理は、線形の正規化です。データ量の違いをある程度補正することはできても、 RNA-Seqデータに含まれる複雑な歪みをすべて取り除けるわけではありません。

RNA-Seqデータには、RNA品質、サンプル組成、低発現遺伝子のばらつき、特定の遺伝子群へのリードの偏りなど、複数の要因が絡み合っています。そのため、サンプル間の違いは単純な倍率の違いだけではなく、分布形状そのものの違いとして現れることがあります。このような非線形な歪みは、TPMやFPKMに変換しただけでは解消されません。

このデータセットでも、FPKMの分布形状に大きな違いが認められます。一部のサンプルでは分布が単峰性に近くなっており、単純な倍率補正では対処できない非線形な歪みが含まれています。

Subioplatform Displays Histograms

このような分布の違いは、 TPMやFPKMという値が出力されているだけでは見落とされがちです。しかし、適切にデータを視覚化して確認していれば、品質が疑わしいサンプルや、他のサンプルと分布が大きく異なるサンプルに気づくことは難しくありません。

重要なのは、疑わしいサンプルが含まれていることを解析者が理解し、そのサンプルをどのように扱うかを判断したうえで、解析結果を解釈することです。可視化を疎かにした解析では、このような判断材料を見落としてしまいます。

補正や正規化を追加しても、データがきれいに整うとは限らない

では、TPMやFPKMで残った歪みに対して、さらに別の正規化手法や補正手法を適用すればよいのでしょうか。実際には、そう単純ではありません。 TMM、VST、ComBat、Quantile Normalizationなどの手法を使っても、データが期待通りにきれいに整うとは限りません。

正規化や補正は、データを機械的に「正しい状態」に戻す万能な処理ではありません。元のデータに含まれる歪みの種類や大きさ、サンプル品質、バッチ構造、群間差との重なり方によっては、補正後のデータにも解釈上の問題が残ります。また、補正によって一見きれいに見えるようになっても、その変化が本来の生物学的状態を反映している保証はありません。

RNA-Seqデータに対してTMM、VST、ComBat、Quantile Normalizationなどを適用した場合に、どのような限界があるのかについては、続編の記事 RNA-Seqにおけるバッチ効果補正と正規化の限界で詳しく解説しています。

Quantile Normalizationは「万能薬」ではない

この動画では、FPKMの分布を強制的にそろえる目的で、 Quantile Normalizationも試しています。その結果、サンプル間の分布形状は一見似たように見えるようになります。しかし、クラスタリングを行うと、分布をそろえただけでは問題が解決していないことが明らかになります。つまり、分布の見た目が整っただけでは、生物学的な比較に適したデータになったとは言えません。

歪みを前提に、説明可能な解析方針を見つける

RNA-Seqデータ解析では、非線形な歪みやサンプル間の違いが含まれていることが頻繁にあります。そのため、それらが存在することを前提にして、どのように扱うかを判断しながら解析を進める姿勢が必要です。

重要なのは、歪みがあるかどうかを無視することでも、アルゴリズムで完全に消せると期待することでもありません。その手法を適用したことで、何がどのように変化したかを正確に理解し、そのうえで、どのサンプルを使うのか、どの正規化・補正を採用するのか、どこまでを生物学的な差として解釈できるのかを検討していく必要があります。 RNA-Seqデータ解析とは、このような曖昧さを含む過程の中で、第三者に説明可能な解析方針を見つけていく作業だと言えるかもしれません。

アルゴリズムに頼る前に、実験生物学者がすべきこと

バイオインフォマティシャンの努力によって、高度で複雑な課題に取り組むための多くのアルゴリズムが利用できるようになっています。しかし、賢明な実験生物学者は、そのアルゴリズムが自分のデータに対して本当に機能しているかを、自ら確認しなければならないことを忘れてはいけません。

現時点では、品質の高い生データを得るための実験設計と実施計画、そしてデータの状態を正確にモニタリングするための視覚化ツールを使って慎重に解析を進めることが、やみくもに「高度な」アルゴリズムに依存するよりも安全です。

データに強い系統誤差が入ってしまうと、その影響を取り除いて解析することは困難、あるいは不可能になります。 Subioは、そのような事態を避けるために、使用予定の測定技術に対する事前のアセスメント、そしてリスクを減らす実験計画が重要だと考えます。

データが出てから後悔する前に。 Subioは、これまで数千の「失敗データ」を救おうとしてきた経験から、失敗しないための実験計画を提案できます。まずは、あなたの計画をプロの目でアセスメントさせてください。 [お問い合わせはこちらから]

学ぶべきはコマンド操作やツールの使い方ではなく、「データ解析」です。

サポート

Help - 解析理論とケーススタディ

FPKMやTPMで“整ったはずのデータ”の落とし穴 — GSE159751から見るデータ検証の重要性