RMAとMAS5の違いとは?Affymetrixマイクロアレイのレガシーデータ再解析に必要な予備知識

  • Gene Expression
  • Microarray

GEOには、Affymetrix GeneChipで測定された古いマイクロアレイデータが大量に登録されています。 RNA-Seqが主流になった現在でも、疾患、薬剤応答、細胞分化、組織比較などの研究では、 こうしたレガシーデータを再解析する価値があります。マイクロアレイの種類とダイナミックレンジの違いについては、 こちらの記事で解説しています。

しかし、RNA-Seqしか扱ったことがない人にとって、 Affymetrixデータに出てくるRMAやMAS5という数値化手法の違いは分かりにくいかもしれません。 GEOに登録されているデータには、RMAで処理されたものもあれば、 MAS5で処理されたものもあります。 どちらも「正規化済みの発現量」に見えますが、 同じ意味で比較できる値ではありません。

この記事では、Affymetrixデータの数値化手法を網羅的に解説することは目的としていません。 GEOに登録されたレガシーデータを再解析するときに最低限知っておくべき考え方として、 RMAに近い性質を持つ処理済みデータと、MAS5で得られるデータの違いに注目します。


RMAは同じ処理セット内の比較に使う値

RMAは、複数サンプルをまとめて処理し、 サンプル間の分布をそろえることで、比較しやすい発現値を作る手法です。 RMAにはQuantile Normalizationが含まれているため、 処理後のデータではサンプル間の分布がきれいにそろって見えます。

一方で、別々のタイミングでRMA処理されたデータセット同士は、 同じスケールの発現量として直接比較できません。 たとえば、GEOのSeries Aに含まれるRMA値と、 別のSeries Bに含まれるRMA値をそのまま結合して、 発現量の高低やfold changeを比較することは避けるべきです。

これは、RMAが個々のサンプルを完全に独立に数値化する方法ではなく、 処理に含まれるサンプル全体の分布を使って値を決める手法だからです。 どのサンプルを一緒にRMA処理したかによって、 得られる発現値は影響を受けます。

GC-RMA、dChip、PLIERなども、処理方法の詳細は異なりますが、 複数サンプルを前提にデータを整えるという点では、 RMAに近い注意が必要です。 同じ処理セット内の比較には使えても、 別々に処理されたデータセット同士をそのまま同一スケールの発現量として比較することは避けるべきです。


RMAはデータを整えるが、処理に含めたサンプルの影響を受ける

RMAで処理されたデータでは、サンプル間のヒストグラムの形がそろって見えます。 そのため、データがきれいに正規化され、比較しやすい状態になっているように見えます。

しかし、分布がそろって見えることと、 元データに含まれていた実験的な違いや品質差が消えたことは同じではありません。 RMAは、処理に含めた複数サンプル全体の分布を使って値を決めるため、 どのサンプルを一緒にRMAに投入したかによって、得られる発現値が影響を受けます。

たとえば、RMA処理に品質が著しく悪いサンプルが含まれていると、 そのサンプルだけでなく、同じ処理セットに含まれる正常なサンプルの値にも影響が及ぶことがあります。 また、異なる種類の組織や細胞が同じRMA処理に含まれている場合には、 目的の組織だけを比較したい場合でも、 別の組織に由来する分布の違いが正規化処理に紛れ込むことがあります。

このため、RMA正規化済みデータを再解析するときには、 「RMAで処理されているから比較できる」と考えるのではなく、 そのRMA値がどのサンプルを含めて作られたものかを確認する必要があります。 同じSeries内のデータであっても、 解析目的とは異なる組織、条件、品質のサンプルが一緒に処理されている場合には、 目的の比較が影響を受けることがあります。


RMAはデータを整えるが、バッチエフェクトを補正できるわけではない

下の図は、GSE15490(RMAで処理されたデータセット)をクラスタリングしたものです。 Conditionの違いではなく、replicate番号の小さい群と大きい群でクラスターが形成されています。 つまり、バッチエフェクトが疑われるケースです。 しかし、下段のヒストグラムを見ると、Quantile Normalizationによって形はきれいにそろっています。

Case Study429 Fig1 Heatmap Of Rma Data

同じデータセットをMAS5でクラスタリングすると、RMAのときとはまったく違って見えます。 注目すべきなのは、下段のヒストグラムを見ると、 ダイナミックレンジの広いサンプル群と狭いサンプル群があり、 この違いがクラスターに強い影響を与えていることです。

Case Study429 Fig2 Heatmap Of Mas5 Data

このように、MAS5ではヒストグラムからダイナミックレンジの違いやバッチエフェクトの可能性を確認しやすいデータでも、 RMA処理されたデータでは、その違いが見えにくくなっていることがあります。


同じ生データでも、RMAとMAS5では見え方が大きく変わる

ここでは、同じAffymetrix HG-U133 Plus 2.0の生データを、 RMAとMAS5でそれぞれ処理した結果を比較します。

RMAで処理したデータでは、サンプル間の分布がそろって見えるため、 全体としてきれいに整ったデータに見えます。

Fig2 Affymetrix Hgu133 Plus2 Rma

一方、MAS5で処理したデータでは、 サンプルごとのデータ分布の違い、低シグナル領域の広がり、 シグナル領域とノイズ領域の境界がより見えやすくなります。

Fig1 Affymetrix Hgu133 Plus2 Mas5

レガシーデータを再解析するときには、 この性質が役立ちます。 RMA正規化済みデータだけを見ていると、 すべてのサンプルが同じような分布を持っているように見えます。 しかし、MAS5で再数値化してみると、 一部のサンプルでシグナル領域が狭い、 低シグナル領域のノイズが大きい、 全体のダイナミックレンジが異なる、 といった違いが見えてくることがあります。

繰り返しサンプルの相関係数が高いほど、再現性が高いと判断しやすくなります。 しかし、この考え方が独り歩きした結果、 マイクロアレイデータの品質を相関係数だけで語る風潮がありました。 RMAでは非常に高い相関係数が出やすいため、 2000年代中期以降、ほぼデファクトスタンダードのような地位を確立しました。 しかし、ノイズを見えにくくすることが、 必ずしも信頼性の高い遺伝子発現データ解析につながったわけではありません。


RMAしか公開されていないデータを再解析するときの注意点

GEOで公開されているAffymetrixデータには、 RMA正規化済みのSeries Matrixだけが目立つ形で提供されているものがあります。 このようなデータを再解析するときには、 まず、そのRMA値がどのサンプルを含めて処理されたものかを確認する必要があります。

同一Series内で、同じRMA処理に含まれていたサンプル同士を比較するのであれば、 RMA値を使った再解析は可能です。 たとえば、同じ研究内で処理されたcontrol群とtreatment群を比較するような解析では、 RMA済みデータを用いてクラスタリング、発現差解析、パスウェイ解析を行うことができます。 それでも、バッチエフェクトはないか、 品質の悪いデータが紛れ込んでいないかには注意を払う必要があります。

一方、異なるSeries、異なる論文、異なる処理セット由来のRMA値を結合して、 そのまま発現量として比較することは避けるべきです。 別々にRMA処理されたデータは、 同じ数値スケールに見えても、 処理に含まれたサンプル集合が異なるため、 そのまま同一基準の発現量として扱うことはできません。

複数のAffymetrixデータセットを統合して再解析したい場合には、 可能であればCELファイルなどの生データに戻り、 MAS5で再数値化することが望まれます。


RMAしか手元にない場合、MAS5で再数値化したい場合

手元にRMA正規化済みデータしかない場合でも、 GEOにCELファイルが公開されていれば、 生データからMAS5などの方法で再数値化できる可能性があります。

Subioのデータ解析サービスでは、 GEOに公開されているAffymetrixデータについて、 CELファイルの取得、MAS5による再数値化、 Subio Platformで確認できるSSAファイルの作成、 ヒストグラム・クラスタリング・発現変動解析の確認まで対応できます。

RMA正規化済みデータしか見つからない場合や、 MAS5で再数値化してデータ分布を確認したい場合には、 Subioにご相談ください。

Subioデータ解析サービス
GEOなどの公共データベースに登録されたマイクロアレイデータについて、 CELファイルの取得、MAS5による再数値化、Subio Platform用データファイルの作成、 再解析のための可視化確認まで対応します。

Subioデータ解析サービスを見る


まとめ

RMAとMAS5は、どちらもAffymetrix GeneChipのデータを数値化するために使われてきた手法ですが、 得られる値の性質は大きく異なります。 RMAは複数サンプルをまとめて処理し、サンプル間の分布をそろえるため、 同じ処理セット内の比較には使えます。 一方で、異なるRMA処理セット同士をそのまま同一スケールの発現量として比較することはできません。

MAS5は、RMAほど強く分布をそろえないため、 サンプルごとの分布差、低シグナル領域、ダイナミックレンジの違いを確認しやすいという特徴があります。 そのため、GEOに登録されたAffymetrixのレガシーデータを再解析するときには、 RMA正規化済みデータだけを見て判断するのではなく、 可能であればCELファイルに戻り、MAS5で再数値化してデータ分布を確認することが望ましいです。

レガシーデータの再解析では、 正規化済みの表をそのまま信じるのではなく、 その値がどのような処理で作られたものか、 どのサンプルを含めて処理されたものか、 シグナル領域とノイズ領域がどのように見えているかを確認する必要があります。

Subio Platformでは、RMAやMAS5で処理されたマイクロアレイデータを取り込み、 ヒストグラム、クラスタリング、発現パターンを確認しながら再解析できます。