CPM正規化が生む“見かけの差”と、多段階で生じうるデータの偏り ― 可視化しながら考えるRNA-Seq解析の難しさ

ケーススタディ GSE173789

Download

「同じ条件のサンプルなのに、なぜか群間差よりもサンプル間のバラツキが大きく見える……」

オミクス解析で避けて通れない問題の一つが、バッチエフェクト（系統的な偏り）です。多くの解析者は「CPMで正規化したからサンプル間で比較可能になった」と考えがちですが、データの状態によっては、CPM正規化そのものが見かけ上の差を強調してしまうことがあります。

本記事では、実際のデータを用いて、高度な補正アルゴリズムに頼る前に、まず「データの中で何が起きているのか」を可視化しながら確認する方法を解説します。

正規化後の値をそのまま信用せず、必ず分布の形を確認する

Subio Platformでは、実験パラメーターと値分布を表すヒストグラムを同じテーブル上で確認できるため、 データの分布と実験パラメーターの間に関連がありそうかどうかを、視覚的に確認しやすくなっています。

RNA-Seqでは、リード数が極端に少ないサンプルでは、CPM正規化によって発現値が相対的に引き上げられることがあります。この動画のヒストグラムでいえば、分布が右方向に移動して見える可能性があります。

実際にこのデータでも、PCAで偏って見えるサンプルの多くは、 SRA（Sequence Read Archive）上で確認できるリード数やFASTQファイルサイズが比較的小さいサンプルと、おおむね一致していました。特に、MS-13、MS-16〜MS-19、HC-19では、その傾向が明確に見られます。

ただし、FASTQファイルサイズやリード数に2倍程度の差があること自体は、 RNA-Seqデータでは珍しいことではありません。そのため、ファイルサイズが小さいサンプルを、直ちに異常値と判断するべきではありません。 重要なのは、リード数やファイルサイズの違いが、 PCA上の偏りやヒストグラム分布の変化と対応しているかどうかです。

FASTQファイルサイズが小さいことは、そのサンプルで得られた総リード数が少ないことを示唆します。 CPM正規化では、各サンプルの総リード数を同じスケールにそろえるため、総リード数が少ないサンプルでは、同じカウント値が相対的に大きく補正されます。その結果、リード数の少ないサンプルでは発現値が全体的に引き上げられ、ヒストグラムの分布が右方向に移動して見えることがあります。

このとき、高カウントの遺伝子では、分布が比較的、形を保ったまま右方向へ移動して見えます。一方、低カウントの遺伝子は、もともとGene Countのヒストグラムの左側に圧縮されている領域にあります。そのため、CPM補正によって値が右方向に移動すると、ヒストグラムの左側に空白部分が生じます。これが、下のヒストグラムで分布の形が歪んで見える理由の一つと考えられます。

なお、これはCPM正規化そのものが常に問題である、という意味ではありません。 CPMはシンプルで分かりやすく、データの状態を確認するうえでも有用な方法です。問題になるのは、正規化の前提とデータの状態が合わない場合です。たとえば、リード数の違い、特定の遺伝子群にリードが偏るcomposition bias、低カウントやゼロカウントが多いデータなどでは、正規化後の分布やサンプル間の見え方に注意が必要になります。

この点は、CPMだけに限った問題ではありません。 TPMやFPKMのような正規化値でも、サンプルごとのデータ量、発現分布、 composition bias の影響によって、見かけ上の差が生じることがあります。また、TMM正規化やDESeq2のsize factorなど、RNA-Seqではさまざまな正規化方法が使われますが、正規化方法を変えるだけで安心できるわけではありません。

重要なのは、どの正規化方法を使ったかだけではなく、正規化前後の分布、PCA、クラスタリングを確認し、得られた差がどのようなサンプル構造に由来しているのかを確認することです。

なお、このデータでは、GEOのサンプル情報を見る限り、 Gene CountからCPM値への変換にはedgeRが使われているようです。 edgeRはRNA-Seq解析で広く使われている信頼性の高いツールです。しかし、信頼できるツールを使って解析を実行することと、得られた結果を正しく解釈することは別の問題です。

重要なのは、そのツールに入力したデータが、解析の前提をどの程度満たしているのかを確認し、得られた結果が何を反映しているのかを理解することです。どれほど信頼性の高いツールを使っていても、抽出された発現差がどのようなサンプル構造に由来しているのかを確認しなければ、結果の意味づけを誤る可能性があります。

このように、抽出された発現変動遺伝子が本当に生物学的な差を反映しているのか、それともデータ量、正規化、サンプル群内の偏りによって生じた見かけの差を含んでいるのかは、 可視化しながら慎重に確認する必要があります。データを可視化せずに解析を進めると、発現変動遺伝子リストの解釈を誤るリスクがあります。

Gse173789

トランスクリプトミクス解析では、 「全遺伝子のうち、ほとんどの発現量は変化しておらず、一部の遺伝子だけが変動している」 という前提に基づいて正規化を行います。

ヒストグラムの形状がサンプル間で大きく異なる場合、 この前提が十分に成り立っていない可能性があります。そのため、正規化後の値だけを見て解析を進めるのではなく、分布の形状やサンプルごとのデータ量を確認しながら、結果を解釈することが重要です。

データの偏りは多段階で生じうる

リード数が極端に少ないサンプルなど、明らかに注意が必要なサンプルを確認したあとでも、 解析上の検討はそこで終わりません。前提条件を大きく外れている可能性のあるサンプルを除いて再度可視化しても、さらに別のサンプル構造が見えてくることがあります。

このデータでは、Control群が二つのクラスタに分かれて見えます。一方のControl群は疾患群から離れたプロファイルを示し、もう一方のControl群は疾患群に近いプロファイルを示しています。

このような場合、少なくとも二つの可能性を考える必要があります。

可能性1：生物学的な不均一性を反映している

Control群の中に、異なる生物学的背景を持つサンプルが含まれており、その違いが発現プロファイルとして現れている可能性があります。たとえば、年齢、性別、炎症状態、既往歴、細胞サブセットの構成比などが影響しているかもしれません。

この場合、Control群の分離は単なるノイズではなく、 解析上重要な情報を含んでいる可能性があります。したがって、十分な根拠なく除外することは避けるべきです。

可能性2：実験的・技術的な要因による偏りを反映している

一方で、Control群の分離が、ライブラリ調製、シーケンスラン、サンプル処理日、保存状態、RNA品質、またはその他の技術的要因によって生じている可能性もあります。

この場合、見えている差は生物学的な疾患差ではなく、 データ取得や処理の過程で生じた偏りを反映している可能性があります。そのようなサンプルを主解析に含めるかどうかは、慎重に検討する必要があります。

アルゴリズムだけでは判断できないことがある

このような状況では、「どの統計手法を使えば解決できるか」だけを考えても十分ではありません。アルゴリズムを変えても、 Control群が二つに分かれて見えるというデータ構造そのものは消えないからです。

必要になるのは、計算結果の外側にある情報です。たとえば、Control群の臨床的背景、サンプル採取条件、ライブラリ調製日、シーケンスラン、RNA品質、リード数、実験ノートなどを確認することで、見えている構造が生物学的な違いなのか、技術的な偏りなのかを検討します。

それでも、すべての疑問に明確な答えが得られるとは限りません。その場合、解析者は利用可能な情報に基づいて前提を明確にし、その前提に沿って解析方針を選ぶ必要があります。

重要なのは、判断を避けることではなく、 どのような前提で解析を行ったのかを明示することです。どちらの解釈を採用する場合でも、その前提が解析結果の意味づけに大きく影響します。

オミクスデータ解析では、完全に機械的な手順だけで結論に到達できるとは限りません。可視化によってデータの状態を確認し、必要に応じて背景情報を調べ、そのうえで解析者が自覚的に判断することが重要です。

「微小な変動」が示唆するもの：バルク解析とシングルセル解析の相補的な活用

仮に、疾患群から大きく離れて見えるControl群の一部が、
生物学的な違いではなく技術的な要因による偏りを反映している可能性が高いと判断したとしましょう。
すると、残ったControl群と疾患群の間で観察される発現差は、非常に小さくなるかもしれません。

多様な細胞をまとめて測定するバルクRNA-Seqでは、重要な変化がごく一部の細胞集団で起きている場合、 全体としての発現差は小さく見えることがあります。そのため、「シングルセル解析（scRNA-Seq）で細胞集団ごとに確認すべきではないか」、あるいは「セルソーターで対象細胞をさらに絞り込んで実験し直すべきではないか」と考えるのは自然な流れです。

一方で、ここで忘れてはならない視点があります。シングルセル解析は細胞集団の違いを細かく見るうえで非常に有用ですが、バルクRNA-Seqとはデータの性質が異なり、ドロップアウト、測定ノイズ、細胞数、前処理条件などの影響を強く受ける場合があります。

そのため、微小なシグナルを別の手法で追いかける前に、まずは計測の安定性が高いバルクRNA-Seqにおいて、一貫して観察される発現差を丁寧に確認することが有効な場合もあります。

重要なのは、「バルクかシングルセルか」の二者択一ではありません。バルクRNA-Seqで全体像と再現性のある変化を確認し、必要に応じてシングルセル解析や細胞分画実験で細胞集団レベルの解釈を深める。このように、複数の手法を相補的に使う視点が重要になります。

解析者の仕事とは

以上は、私がこのデータと向き合う中で感じ、考えたプロセスを言語化したものであり、これが唯一の正解だと主張するものではありません。

私が伝えたいのは、データを見ながら複数の可能性を考え、解釈の分岐点を明確にすることの重要性です。一つの可能性に絞り込めない場合には、それぞれのシナリオに基づく解析結果を整理し、チームリーダー、実験担当者、臨床医、病理医など、データの背景を知る人たちと議論できる形で提示する必要があります。

高度な統計解析を使いこなすことだけが、オミクスデータ解析の本質ではありません。 データを可視化し、前提を確認し、データの特徴と解析結果を丁寧に説明することも、解析者の重要な仕事です。

解析を学ぶということ

「データ解析を学ぶ」ということは、実際に多様なデータセットと向き合い、可視化し、仮説を立て、確認しながら判断する経験を積み重ねることです。当然ながら、一朝一夕に身につくものではなく、相応の時間と根気を必要とする長い道のりです。

Subioが提供する成長のステップ

Subioでは、お客様が実際に扱っているデータを用い、共に解析を進めるオンライン・トレーニングを通じて、実践的な学びを提供しています。

個人差はありますが、概ね1年をかけて3〜6回程度のマンツーマン個別セッションを重ねることで、ご自身のデータを題材にしながら、解析の考え方や判断の進め方を着実に身につけていくことができます。

一方で、すぐに解析結果を得たい方や、まずは専門的な視点でデータの状態を確認したい方には、データ解析サービスをお勧めします。

Subioのデータ解析サービスは、単に結果レポートを納品するだけの受託解析サービスではありません。お客様にデータの特徴や解析ステップを理解していただき、そのうえで、お客様自身が判断し、結論を出すための材料を整理するサービスです。

ご興味を持っていただけましたら、お気軽にご相談ください。

学ぶべきは、コマンド操作やツールの使い方だけではありません。本当に学ぶべきなのは、「データ解析」そのものです。

サポート

Help - 解析理論とケーススタディ

CPM正規化が生む“見かけの差”と、多段階で生じうるデータの偏り ― 可視化しながら考えるRNA-Seq解析の難しさ