TPM/FPKM/RPKMを過度に信用してはいけない。RNA-Seqデータの系統誤差を除去できているとは限らない。

ケーススタディ：GSE159751

Download

TPM/FPKM/RPKMが、RNA-Seqデータ解析においてリードカウントより優れていると思っているかもしれません。しかし、100万リードあたりの正規化は、極めて複雑なオミクスデータセットには単純すぎる手法です。

具体例としてGSE159751を見てみましょう。GEOデータベース経由でFPKM値が提供されていますが、100万リードあたりの正規化後も、FPKM分布はサンプル間でしばしば変動が見られます。さらに、このデータセットにはFPKMの分布形状に非線形バイアス（単峰性・二峰性）が認められます。単峰性になる原因にはRNA分解が考えられますので注意が必要です。この動画でオミクス解析における可視化ツールの重要性を学んでください。

もう一つのポイントは、「高度な」アルゴリズムによる非線形バイアス除去能力の評価です。ここでは、FPKMを強制的に均一にするquantile normalizationを適用してみました。これにより分布形状は似たようになるものの、非線形バイアスの除去には寄与しませんでした。

バイオインフォマティシャンのおかげで、高度に複雑な課題に取り組むための多くのアルゴリズムが利用可能です。しかし、賢明な実験生物学者は、それが機能するか否かを自ら検証しなければならないことを忘れないでください。現時点では、高品質な生データを生成するための優れた実験設計と実施計画、そして起こっていることを正確にモニタリングするツールを使って慎重に対応するほうが、やみくもに「高度な」アルゴリズムに依存するよりも優れています。

データに強い系統誤差が入ってしまうと、その影響を除いて解析することは困難あるいは不可能になります。Subioは、そのような事態を避けるために、使用予定の測定技術に対する事前のアセスメント、そしてリスクを減らす実験計画が重要だと考えます。実際に実験を始める前に、Subioへご相談ください。

サポート

Help - 解析理論とケーススタディ

TPM/FPKM/RPKMを過度に信用してはいけない。RNA-Seqデータの系統誤差を除去できているとは限らない。