CPM正規化がバッチエフェクトを「捏造」する? ツールに頼る前に知るべきデータ解析の本質

  • High-Throughput Sequencing
  • Gene Expression

ケーススタディ GSE173789

「同じ条件のサンプルなのに、なぜか群間差よりもサンプル間のバラツキが大きく見える……」

オミクス解析で避けて通れないのがバッチエフェクト(系統誤差)です。多くの解析者が「CPMで正規化したから比較可能だ」と考えがちですが、実はCPM補正そのものが、データの歪みをさらに増幅させてしまうことがあります。本記事では、実際のデータを用い、高度な補正アルゴリズムに頼る前に「何が起きているか」を正しくモニタリングする方法を解説します。

「数」ではなく「分布」の変動に注目する

Subio Platformでは、実験パラメーターと値分布を表すヒストグラムが同じテーブルに表示するので、データの分布と実験パラメーターの間に関連性があるかどうかが一目瞭然です。RNA-Seqではリード数が極端に少ないサンプルのCPMが、補正により、この動画のヒストグラムでいうと右方向に移動している可能性があります。これにより、本来は無い変動があたかも有るように見える効果を生む場合があります。データを視覚化することなく解析を進めることは、誤った発現変動遺伝子のリストを抽出するリスクを伴うことは明白ですね。

Integrated view of experimental parameters and RNA-Seq data distributions in Subio Platform. A batch effect is visualized as a rightward shift in the histograms of specific samples, independent of biological conditions.

トランスクリプトミクス解析には、「全遺伝子のうち、ほとんどの発現量は変化しておらず、一部の遺伝子だけが変動している」という大前提があります。この前提がなければ、正規化(Normalization)を行うことすらできません。 ヒストグラムの形状が著しく異なるということは、この大前提をバイオレート(逸脱)している状態を意味します。私個人のスタンスとしては、計測プロセスに致命的なエラーがあったと判断し、このようなサンプルは解析から「除外する」の一択です。

バッチエフェクトは多重で起こりうる

しかし、そうした明らかな異常値を取り除き、前提条件を満たしたサンプルだけで階層型クラスタリングを実行してみても、なお解析の迷宮は続きます。問題なく正規化を施したはずのデータセットの中に、突如としてバッチエフェクトを懸念せざるを得ない奇妙なクラスタが浮かび上がってきたのです。

詳しく言うと、Control群が二つのクラスタに分かれ、片方は疾患群から大きく乖離し、もう片方は疾患群に似たプロファイルを持つことが分かりました。ここで浮上するのは、アルゴリズムだけでは決して解けない二つの相反する可能性です。

  1. 生物学的多様性(臨床的要因): Controlの中に、本来の健常者プロファイルに近い群と、すでに疾患に近い状態の群が混ざっていて、観測結果がそれを正しく捉えている可能性があります。この場合、決してこれらを解析から除外してはいけません
  2. バッチエフェクト(実験的要因):疾患群から遠いプロファイルの方が「正常なControl」のように見えますが、実はその乖離こそがバッチエフェクトによって作られた「イリュージョン(偽の姿)」という可能性があります。この場合、それらのサンプルは解析から除外すべきです。

この問いに「データ解析(アルゴリズム)」から答えを出すことは不可能

この状況を前にして、「どの統計手法を使えば解決するか」を議論することには、もはや意味がありません。 アルゴリズムをいくら変えても、データが突きつけてくる「二つの相反する可能性」そのものは消えないからです。ここで必要なのは、計算機の外側にある情報――Control群の生物学的・病理的な背景を調べたり、実験ノートをめくって実施状況を検証したりすることです。

最終的には、解析者はどちらの立場に立つかを決断しなければなりません。たとえ確固たる証拠が見つからなくても、解析者は「こちらを信じる」と腹を括って選ばなければならない局面もありえます。そして、どちらの道を選んだにせよ、その決断こそが論理の土台となり、すべての解析結果はその前提に立って解釈されなければならないのです。

このような主張は、「解析において客観性は絶対だ」と考える人々から批判を受けるかもしれません。しかし、解析には「主観」――すなわち解析者による自覚的な判断――が不可欠です。なぜなら、膨大なオミクスデータを前にしたとき、私たちは時間も、予算も、知識も、経験も、純粋な客観性に到達するにはあまりに不足しているからです。

「微小な変動」が示唆するもの:バルク解析とシングルセル解析の相補的な活用

仮に疾患群から遠いControl群がバッチエフェクトに過ぎないと判断したとしましょう。すると、残ったControl群と疾患群の間の発現差は非常に小さくなります。

多様な細胞を一体として観測しているバルクRNA-Seqでは、重要な変化がごく少数の細胞で起きていれば、その差は小さく見えるのが当然です。ここから「シングルセル解析(scRNA-Seq)やセルソーターで細胞を絞り込んで実験し直すべきでは?」と考えるのは自然な流れかもしれません。

しかし、ここで忘れてはならない視点があります。シングルセル解析などの手法は、バルクと比較して実験データの精度・感度が著しく低いという事実です。ノイズの多い最新技術で無理にシグナルを追いかけるよりも、計測精度の高いバルクRNA-Seqにおいて、たとえ小さくても「確実に存在する発現差」に注目し、それを丁寧に拾い上げるほうが効果的かもしれないのです。「どっちか?」ではなく、組み合わせるという選択肢も考慮に入ってくるでしょう。

解析者の仕事とは

以上は、私がこのデータと向き合う中で感じ、考えたプロセスを言語化したものであり、これが正解だと主張するつもりはありません。

私が伝えたいのは、このように思考を巡らせること、そして複数の可能性を絞り込めない場合には、その理由とそれぞれのシナリオに沿った解析結果をわかりやすく提示し、チームリーダーや実験担当者、病理医らを交えたディスカッションに資することこそが「解析者の仕事」だということです。高度な統計解析を使いこなすことが、オミクスデータ解析の本質ではないのです。

解析を学ぶということ

「データ解析を学ぶ」ということは、実際に多様なデータセットと向き合い、格闘する経験を積み重ねることに他なりません。当然ながら、一朝一夕に身につくものではなく、相応の時間と根気を必要とする長い道のりです。

Subioが提供する成長のステップ

Subioでは、お客様が実際に扱っているデータを用い、共に解析を進めるオンライン・トレーニングを通じて、実践的な学びを提供しています。個人差はありますが、概ね1年をかけて3〜6回程度のお一人おひとりに合わせた、マンツーマンの個別セッションを重ねることで、着実にステップアップしていくことができます。

そのような時間がない方には、データ解析サービスをお勧めします。しかし、ただの受託解析サービスと思ってもらっては困ります。Subio のデータ解析サービスは、お客様にデータの特徴と解析ステップを理解していただき、その上でお客様自身が判断し、結論を出すのをお手伝いするサービスです。ご興味を持っていただけましたら、お気軽にご相談ください

学ぶべきはコマンド操作やツールの使い方ではなく、『データ解析』です。

Master Analysis, Not the Tool.

関連トピック