遺伝子発現データを見るとき、多くの人はまず再現性に注目します。 同じ条件の繰り返しサンプルがよく似ているか。 散布図で点が対角線上に並ぶか。 相関係数が高いか。
もちろん、再現性は発現データの品質を考えるうえで重要です。 しかし、相関係数が高ければ、そのデータは本当に「良いデータ」と言えるのでしょうか。
このページでは、マイクロアレイデータを例にしながら、 ノイズ、再現性、ダイナミックレンジの関係を整理します。 ここで重要なのは、ノイズを単なるゴミとして消してしまうのではなく、 ノイズがどこにあり、どこから先を信頼できるシグナルとして扱えるのかを見極めることです。
ノイズはただのゴミか?
同じサンプルをマイクロアレイで2回測定して比べることを想像してください。 2つの測定値を散布図で比較したとき、低いシグナル値の領域で大きなばらつきが見えたとします。 このようなデータを見ると、「ノイズが多くて質が悪い」と感じるかもしれません。
しかし、発現データにノイズが見えること自体は、不自然なことではありません。 ある細胞や組織で、すべての遺伝子が発現しているとは考えにくいからです。 また、どの測定システムにも、信頼して測定できる範囲には限界があります。
発現していない遺伝子や、測定限界に近い低発現遺伝子の値は、 繰り返し測定しても安定しにくくなります。 そのため、低シグナル領域でばらつきが見えることは、むしろ自然な現象です。
問題は、ノイズが存在することではありません。 問題は、ノイズが見えなくなり、シグナルとの境界を判断しにくくなることです。
Fig1: Affymetrix HG-U133 Plus2.0 のデータをMAS5で数値化した例。 散布図の左下に、低シグナル領域のばらつきが見られます。
この図では、低シグナル領域にばらつきが見えます。 一見すると、再現性が低いデータに見えるかもしれません。 しかし、このばらつきは「測定に失敗している」というより、 発現していない遺伝子や、測定限界に近い低発現遺伝子が多く含まれる領域を示していると考えられます。
ヒストグラムを見ると、MAS5のシグナル値の分布は一山型に見えるかもしれません。 しかし実際には、ノイズ領域とシグナル領域が重なった二山型の構造として見る方が自然です。 低いシグナル値のすべてが完全なノイズというわけではなく、 信頼性は低いものの、弱いシグナルを含む遺伝子も混ざっています。
そのため、ノイズ領域とシグナル領域の境界は、一本の明確な線ではなく、 帯のような領域として考える必要があります。
相関係数が高ければ良いデータなのか?
次に、同じ生データをRMAで数値化した例を見てみます。 RMAで処理したデータでは、散布図の左下に大きなばらつきが見えにくくなります。 そのため、MAS5のデータよりも再現性が高く、質の良いデータに見えるかもしれません。
Fig2: Fig1と同じ生データをRMAで数値化した例。 散布図では、低シグナル領域のばらつきが目立たなくなっています。
実際、散布図だけを見ると、Fig2の方がきれいに見えます。 相関係数を計算しても、Fig1よりFig2の方が高くなります。 しかし、相関係数が高いことは、必ずしもデータ全体が信頼できることを意味しません。
相関係数による再現性の評価が意味を持つのは、 主に信頼できるシグナル領域にある遺伝子についてです。 発現していない遺伝子や、測定限界に近い遺伝子まで含めて相関係数を計算すると、 その値はデータの見せ方や数値化アルゴリズムの影響を強く受けます。
Fig2では、低シグナル領域のばらつきが見えにくくなっています。 しかし、それはノイズがなくなったという意味ではありません。 ヒストグラムを見ると、低い値の領域に高いピークが見えます。 これは、ノイズ領域にあった値が狭い範囲に集められた結果と考えることができます。
つまり、散布図でばらつきが見えないからといって、 すべての測定値を信頼できるシグナルとして扱ってよいわけではありません。 むしろ、ノイズが見えにくくなることで、 どこまでを解析対象に含めてよいのか判断しにくくなります。
ノイズが見えることには価値がある
ノイズは、単に取り除くべきゴミではありません。 データを解釈する立場から見ると、 ノイズがノイズとして見えていることには大きな価値があります。
なぜなら、ノイズが見えることで、 シグナルとノイズの境界を判断しやすくなるからです。 どの領域の測定値なら信頼して扱えるのか。 どの領域は慎重に扱うべきなのか。 どの遺伝子を解析対象から外すべきなのか。 この判断がしやすくなります。
逆に、ノイズが見えにくいデータでは、 見た目の再現性は高く見えても、 解析対象として信頼できる領域を見極めることが難しくなります。 その結果、本来は低信頼な測定値まで解析に含めてしまう危険があります。
発現データ解析では、ノイズを完全に消すことよりも、 ノイズとシグナルの関係を見える形で理解することが重要です。
ダイナミックレンジとは、単なる数値の幅ではない
発現データの性能を語るとき、「ダイナミックレンジ」という言葉がよく使われます。 しかし、ダイナミックレンジを単に測定値の最大値と最小値の幅として考えると、 データの実用的な性能を見誤ります。
マイクロアレイのシグナル値は、測定機器、プローブ設計、数値化アルゴリズムによって変わります。 そのため、あるプラットフォームの値が4桁に広がり、 別のプラットフォームの値が5桁に広がっているとしても、 それだけで後者の方が優れているとは言えません。
重要なのは、数値の見かけ上の幅ではありません。 信頼して解釈できるシグナル領域に、どれだけ多くの遺伝子が含まれているかです。
この意味でのダイナミックレンジは、 「測定値全体の分布幅」ではなく、 「解析対象として信頼しやすいシグナル領域の広さ」と考えるべきです。
良い発現データとは何か?
それでは、良い発現データとはどのようなデータでしょうか。
良い発現データとは、単に散布図がきれいなデータではありません。 相関係数が高いデータでもありません。 また、ノイズが見えないデータでもありません。
良い発現データとは、 シグナル領域とノイズ領域の関係を判断しやすく、 信頼できる測定値を解析対象として選びやすいデータです。
そのためには、散布図だけでなく、ヒストグラムも見る必要があります。 全体の相関係数だけでなく、低シグナル領域と高シグナル領域を分けて考える必要があります。 そして、測定値のすべてを同じ重みで扱うのではなく、 どの範囲を信頼して解釈できるのかを見極める必要があります。
この考え方は、マイクロアレイだけでなく、RNA-Seqにも通じます。 RNA-Seqでは、Gene Countsを見ると、低カウント領域に大きなばらつきがあることが分かります。 これは、リード数が少ない遺伝子ほど測定の不確実性が大きくなり、 信頼して扱える発現量の範囲がシーケンス深度に左右されるためです。
一方、FPKMやTPMに変換したデータでは、遺伝子長やライブラリサイズで補正された値として表示されるため、 Gene Countsで見えていた低カウント領域の不安定さが分かりにくくなります。 数値としては整って見えても、元のカウント数が少ない遺伝子では、 わずかなリード数の違いが大きな発現量の違いとして見えることがあります。
つまり、FPKMやTPMは、発現量を比較しやすい単位に変換した値ではありますが、 同時に、低カウント領域のノイズを見えにくくしてしまいます。 そのため、FPKMやTPMだけを見ていると、 どこまでを信頼できるシグナルとして扱ってよいのか判断しにくくなります。
Fig3: 同じRNA-Seqデータを、Gene Counts、FPKM、TPMで表示した比較。 Gene Countsでは低カウント領域のばらつきが見えやすい一方、 FPKMやTPMではその不安定さが見えにくくなります。
したがって、RNA-Seqでも、正規化後の見た目だけでデータの良し悪しを判断するのではなく、 Gene Countsの分布、低カウント領域のばらつき、正規化後の値の見え方を合わせて確認することが重要です。 シグナルとノイズの関係を見える形で確認してから、 解析対象とする遺伝子の範囲を決める必要があります。
まとめ
発現データの品質を評価するとき、 相関係数や見た目のきれいさだけに頼るのは危険です。
高い相関係数は、シグナル領域においては再現性の高さを示します。 しかし、ノイズ領域まで含めた相関係数は、 データの見せ方や数値化アルゴリズムの影響を受けます。
ノイズが見えるデータは、一見すると質が低く見えるかもしれません。 しかし、ノイズが見えることで、 シグナルとの境界を判断しやすくなります。 その意味で、ノイズがノイズとして見えることには価値があります。
良い発現データとは、ノイズが存在しないように見えるデータではありません。 ノイズとシグナルの境界を判断しやすく、 信頼できるシグナル領域を解析対象として選びやすいデータです。
このような視点で見ると、マイクロアレイのプラットフォームごとの違いも、 単なる測定値の幅ではなく、 「どの範囲を信頼して解析できるか」という問題として理解しやすくなります。 詳しくは、 マイクロアレイのダイナミックレンジの比較 で解説します。
```