「TPM vs FPKM」よりも大切なこと。GSE159751から学ぶデータ検証の極意

  • Microarray
  • High-Throughput Sequencing
  • Gene Expression

ケーススタディ:GSE159751

「DESeq2やTPMで正規化したから、データはきれいになったはず」——そう信じて解析を進めていませんか? 実は、単純な補正だけでは取り除けない非線形バイアスが、オミクスデータの解析では誤った結論を導くことがよくあります。本記事では、実際のデータ(GSE159751)を使い、視覚化ツールを使ってデータの分布を確認する重要性を学びましょう。TPMとFPKMのどちらを使うべきかという議論もありますが、その差は極めて小さいので、実務的にはどちらでも構いません。

なぜ正規化後も「分布の変動」が残るのか

100万リードあたりの正規化後も、TPM/FPKM分布はサンプル間でしばしば変動が見られます。さらに、このデータセットにはFPKMの分布形状に非線形バイアス(単峰性・二峰性)が認められます。単峰性になる原因にはRNA分解が考えられますので注意が必要です。Subio Platformを使って解析していれば、品質の疑わしいサンプルを見つけることは簡単です。重要なのは、疑わしいサンプルが含まれていることを解析者が理解していて、これをどのように扱うかを判断し、解析結果はその判断に基づいて解釈しなければいけないということです。しかし、これは視覚化を疎かにした解析では見落としてしまうポイントです。

subioplatform_displays_histograms

Quantile Normalizationは「万能薬」ではない

もう一つのポイントは、「高度な」アルゴリズムによる非線形バイアス除去能力の評価です。ここでは、FPKMを強制的に均一にするquantile normalizationを適用してみました。これにより分布形状は似たようになるものの、非線形バイアスの除去には寄与しませんでした。

アルゴリズムに頼る前に、実験生物学者がすべきこと

バイオインフォマティシャンのおかげで、高度に複雑な課題に取り組むための多くのアルゴリズムが利用可能です。しかし、賢明な実験生物学者は、それが機能するか否かを自ら検証しなければならないことを忘れないでください。現時点では、高品質な生データを生成するための優れた実験設計と実施計画、そして起こっていることを正確にモニタリングするツールを使って慎重に対応するほうが、やみくもに「高度な」アルゴリズムに依存するよりも優れています。

データに強い系統誤差が入ってしまうと、その影響を除いて解析することは困難あるいは不可能になります。Subioは、そのような事態を避けるために、使用予定の測定技術に対する事前のアセスメント、そしてリスクを減らす実験計画が重要だと考えます。

データが出てから後悔する前に。Subioは、これまで数千の『失敗データ』を救おうとしてきた経験から、失敗しないための実験計画を提案できます。まずは、あなたの計画をプロの目でアセスメントさせてください。[お問い合わせはこちらから]

関連トピック