GEOなどの公共データベースには、 過去に測定されたマイクロアレイデータが大量に蓄積されています。 これらのデータを再解析するときは、 「マイクロアレイ」と一括りにせず、 どのプラットフォームで測定され、どの方法で数値化されたデータなのかを確認することが重要です。
同じマイクロアレイでも、 Affymetrix 3' IVT GeneChip、Illumina BeadChip、Affymetrix Gene ST Array、Agilent Whole Genome / SurePrint Microarrayでは、 ノイズの見え方、低シグナル領域の扱いやすさ、安定して解釈しやすい遺伝子数が異なります。 これは、GEOなどで過去のデータを見るときの予備知識として重要です。
マイクロアレイの性能を語るとき、 「ダイナミックレンジが広い」という表現がよく使われます。 しかし、ダイナミックレンジを単に測定値の最大値と最小値の幅として比較すると、 発現データの実用的な性能を見誤ります。
マイクロアレイのシグナル値は、 測定機器、プローブ設計、スキャナー、数値化アルゴリズムによって変わります。 そのため、測定値が何桁に広がっているかだけでは、 プラットフォームの優劣は判断できません。
重要なのは、測定値の見かけ上の幅ではなく、 信頼して解釈できるシグナル領域に、どれだけ多くの遺伝子が含まれているかです。 言い換えれば、何個の遺伝子を解析対象として安心して扱えるかが重要です。
ノイズ、再現性、ダイナミックレンジの基本的な考え方については、 良い発現データとは何か?ノイズ・再現性・ダイナミックレンジの考え方 で解説しています。 このページでは、その考え方をふまえて、 主なマイクロアレイプラットフォームのダイナミックレンジを比較します。
Affymetrix 3' IVT GeneChip
Affymetrix 3' IVT GeneChipは、 2000年代前半から広く使われた代表的なマイクロアレイです。 Human Genome U133 Plus 2.0 Arrayなどがこのタイプに含まれ、 GEOにも大量のデータが蓄積されています。
このプラットフォームのデータを再解析するときに重要なのは、 同じ生データであっても、MAS5で数値化したデータとRMAで数値化したデータでは、 低シグナル領域のノイズの見え方が大きく異なることです。
Fig1: Affymetrix HG-U133 Plus2.0 のデータをMAS5で数値化した例。 散布図の左下に、低シグナル領域のばらつきが見られます。
MAS5で数値化したデータでは、低シグナル領域のばらつきが比較的見えやすくなります。 一見すると再現性が低いデータに見えるかもしれませんが、 このばらつきは、発現していない遺伝子や測定限界に近い低発現遺伝子が多く含まれる領域を示していると考えられます。
このようにノイズが見えているデータでは、 どの領域を信頼して解析対象に含めるべきかを判断しやすくなります。
Fig2: Fig1と同じ生データをRMAで数値化した例。 散布図では、低シグナル領域のばらつきが目立たなくなっています。
一方、RMAで数値化したデータでは、 低シグナル領域の値が圧縮され、ノイズが見えにくくなります。 散布図だけを見るとMAS5よりきれいに見えますが、 これはノイズがなくなったという意味ではありません。 その結果、RMAのデータでは、 シグナル領域とノイズ領域の境界を判断しにくくなります。
また、MAS5とRMAでは、発現変動の見え方も異なります。 RMAで数値化したデータでは、 低シグナル領域のばらつきが圧縮されるだけでなく、 発現変動の振れ幅も全体に小さく見えやすくなります。
そのため、MAS5でよく使われる「2倍以上」というFold Changeの閾値を、 RMAデータにそのまま適用すると、 発現変動遺伝子が大きく減ることがあります。 RMAデータを解析するときは、 データ分布や発現変動の振れ幅に合わせて、 Fold Changeの閾値を見直す必要があります。
GEOなどで過去のAffymetrixデータを再利用するときは、 どのプラットフォームで測定されたかだけでなく、 どの方法で数値化されたデータなのかも確認する必要があります。 MAS5とRMAでは、ノイズ領域とシグナル領域の見え方だけでなく、 Fold Changeの大きさや、発現変動遺伝子を抽出するための閾値も変わります。
Affymetrix 3' IVT GeneChipの典型的なデータでは、 シグナル領域に約25,000個のプローブセットが含まれることがあります。 ただし、1つの遺伝子に対して複数のプローブセットが設計されていることも多いため、 実際に安定して解釈しやすい遺伝子数は、 約12,000個を一つの目安として考えるのが現実的です。
理論的には、ノイズ成分とシグナル成分を分けて考えることができます。 しかし、実際のデータでは両者がきれいに分かれるわけではなく、 境界は一本の線ではなく、帯のような領域になります。
Illumina BeadChip
Illumina BeadChipは、GeneChipより後に登場したマイクロアレイで、 高い再現性を特徴として打ち出していました。 散布図だけを見ると、繰り返しサンプル間のばらつきが非常に小さく、 きれいなデータに見えます。
しかし、このきれいな見え方には注意が必要です。 Illumina BeadChipのデータでは、数値化や正規化の方法に多少の違いがあっても、 低シグナル領域のばらつきが圧縮され、 前述のRMAに近い見え方になることが多いです。 そのため、散布図ではノイズが少ないように見えても、 低シグナル領域の不安定さは見えにくくなっています。
Fig3: Illumina BeadChipによる測定データの例。 散布図ではばらつきが小さく見えますが、 ヒストグラムでは低シグナル側に多くの遺伝子が集まっています。
Fig3では、ヒストグラム左端の山が急峻で幅が狭いため、 ノイズ領域とシグナル領域の境界は比較的判断しやすいデータです。 ただし、低シグナル側に多くの遺伝子が集まるため、 シグナル領域に入る遺伝子数は多くありません。
Illumina BeadChipでは、設計上は多数の遺伝子を対象にしていますが、 ヒストグラム上で明確なシグナル領域として扱いやすい範囲に限ると、 安定して解釈しやすい遺伝子数は約8,000〜10,000個と考えるのが現実的です。 この点で、Illumina BeadChipの実用的なダイナミックレンジは、 Affymetrix 3' IVT GeneChipやAgilent Whole Genome / SurePrint Microarrayより狭いと考えられます。
Affymetrix Gene ST Array
Affymetrix Gene ST Arrayは、 HG-U133 Plus 2.0などの3' IVT GeneChipの後継として登場したプラットフォームです。 現在も、この系統の後継製品として、 Thermo Fisher Scientific社からClariom S ArrayやClariom D Arrayなどが販売されています。
3' IVT GeneChipでは、比較的ユニークな配列が多い3' UTR側にプローブが設計されていました。 一方、Gene ST Arrayやその後継製品では、 遺伝子全体、特にエクソン領域を対象にプローブが設計されています。 この設計は、transcript全体やスプライシングを含む情報を得るうえでは有利ですが、 gene-level expressionとしてダイナミックレンジを評価するときには注意が必要です。
Gene ST Arrayのデータは、通常RMAを前提として数値化されます。 そのため、散布図では繰り返しサンプル間のばらつきが小さく見え、 全体としてきれいで再現性の高いデータに見えることがあります。 しかし、この見え方にはRMAによる低シグナル領域の圧縮の影響も含まれています。
新しい技術が、常に古い技術より優れているとは限りません。 マイクロアレイのように成熟した測定技術では、 古いプラットフォームの方が、データの特徴が理解しやすく、 実用上扱いやすいこともあります。 また、3' IVT GeneChipのデータは公共データベース上に大量に蓄積されているため、 再解析に使いやすいという利点もあります。
Fig4: Affymetrix Gene ST Arrayによる測定データの例。 低シグナル領域では、RMAによってばらつきが圧縮され、ノイズ領域とシグナル領域の境界が分かりにくくなっています。
Fig4では、シグナル値がある程度高い領域では、 発現量が下がるにつれてばらつきが大きくなっています。 これは、低発現になるほど測定の不確実性が大きくなるという自然な見え方です。
しかし、さらに低い値の領域では、ばらつきが逆に小さくなり、 値が収束していくように見えます。 これは、ノイズが実際になくなったというより、 RMAによって低シグナル領域の値が圧縮され、 ノイズやバイアスが見えにくくなっているためと考えられます。
このマイクロアレイで特に厄介なのは、 シグナル領域とノイズ領域の境界が広く、あいまいに見えることです。 散布図ではきれいに見えても、 どの範囲までを信頼して解析対象に含めてよいのかを判断しにくくなります。
この曖昧さには、プローブ設計も関係していると考えられます。 Gene ST Arrayでは、プローブが主にエクソン領域に設計されています。 エクソン領域には、isoform間で共有される配列や、 相同性の高い遺伝子ファミリーに共通する配列が含まれることがあります。 そのため、プローブごとの特異性にばらつきが生じ、 クロスハイブリダイゼーションや非特異的なシグナルの影響を受けるプローブも含まれやすくなります。
このようなデータでは、 解析対象として信頼しやすい範囲を慎重に取る必要があります。 データセットや組織によって変わりますが、 gene-level expressionとして安定して解釈しやすい遺伝子数は、 9,000〜11,000個程度を一つの目安として考えるのが現実的です。
ノイズ領域を判断したいときは、 その細胞や組織で発現していないと考えられる遺伝子が、 どの値の範囲に現れるかを確認することも有効です。 ただし、ノイズ成分とシグナル成分が広く混在し、 さらに低シグナル側がRMAによって圧縮されているデータでは、 その境界を実際に解釈するのは簡単ではありません。
Agilent Whole Genome 4x44k Microarray
Agilent Whole Genome 4x44k Microarrayは、 マイクロアレイの歴史の中でも大きな進歩を示したプラットフォームです。 この後継であるSurePrint Microarrayシリーズでも、高いデータ品質を維持しています。
Fig5: Agilent Whole Genome 4x44kによる測定データの例。 ノイズ領域とシグナル領域の重なりが少なく、境界が比較的はっきりしています。
Fig5のヒストグラムを見ると、左端に急なピークが見えます。 これは、ネガティブコントロールプローブと、 それに近いシグナル値を示すプローブによって形成される領域と考えられます。
Agilentのデータの特徴は、 ノイズ領域とシグナル領域の重なりが少なく、 両者の境界が比較的はっきりしていることです。 そのため、低い値であっても発現している遺伝子と、 発現していない遺伝子を区別しやすくなります。
このようなデータでは、 シグナル領域に含まれるプローブ数は約34,000個、 遺伝子数では15,000~16,000個程度を安定して解釈しやすい範囲として考えることができます。 Affymetrix 3' IVT GeneChipやIllumina BeadChipと比べても、 低発現領域まで含めて扱いやすく、 実用上のダイナミックレンジが広いと言えます。
ダイナミックレンジが広いということは、 単に中〜低発現領域の遺伝子を多く測定できるというだけではありません。 発現していない遺伝子と、低くても発現している遺伝子を分けやすくなるという点で、 生物学的な解釈にも大きな意味があります。
発現のオン・オフや、弱い発現変化を見たい場合には、 低発現領域をどこまで信頼して扱えるかが重要になります。 この点で、Agilent Whole Genome 4x44k以降のプラットフォームは、 実用上有利な特徴を持っています。
RNA-Seqとの比較
RNA-Seqとマイクロアレイは、しばしば「RNA-Seqの方がダイナミックレンジが広い」と比較されます。 しかし、このような比較では、 そもそも「マイクロアレイ」として何を比較対象にしているのかを確認する必要があります。
Affymetrix 3' IVT GeneChip、Illumina BeadChip、Affymetrix Gene ST Array、Agilent Whole Genome / SurePrint Microarrayでは、 低シグナル領域の見え方や、安定して解釈しやすい遺伝子数が大きく異なります。 そのため、「マイクロアレイ」と一括りにしてRNA-Seqと比較しても、 実際には何と何を比較しているのかが分かりにくくなります。
たとえば、シグナル領域に入る遺伝子数が比較的限られるマイクロアレイを比較対象にすれば、 RNA-Seqの方が広いダイナミックレンジを持つように見えやすくなります。 一方、Agilent Whole Genome / SurePrint Microarrayのように、 低発現領域まで比較的安定して扱いやすいプラットフォームと比較する場合には、 RNA-Seq側のリード数や低カウント領域のばらつきを確認する必要があります。
RNA-Seqのダイナミックレンジは、原理的にリード数に依存します。 リード数が少なければ、低発現遺伝子を安定して測定することは難しくなります。 一方、十分なリード数があれば、より低い発現量の遺伝子まで解析対象に含めやすくなります。
目安として、シングルリード換算で3,000万〜6,000万リード程度のRNA-Seqでは、 中〜高発現遺伝子の定量には十分なことが多く、 成熟したマイクロアレイと比較できる実用性を得られることがあります。 ただし、低発現遺伝子まで安定して解析対象に含めたい場合には、 必要なリード数は大きく増えます。
つまり、RNA-Seqは常にマイクロアレイより広いダイナミックレンジを持つわけではありません。 シーケンス深度が十分でなければ、 低発現領域の実用的な解像度は、優れたマイクロアレイに及ばないことがあります。
RNA-Seqとマイクロアレイを比較するときは、 技術名だけで優劣を判断するのではなく、 比較対象となるマイクロアレイの種類、 RNA-Seqのリード数、低カウント領域のばらつき、 数値化手法とシグナル領域の見え方を総合的に判断する必要があります。
まとめ
マイクロアレイのダイナミックレンジは、 測定値が何桁に広がっているかでは比較できません。 重要なのは、信頼して解釈できるシグナル領域に、 どれだけ多くの遺伝子が含まれているかです。
Affymetrix 3' IVT GeneChipは、 代表的なマイクロアレイとして多くのデータが蓄積されており、 約12,000個の遺伝子を安定して解釈しやすい実用的なプラットフォームです。 ただし、MAS5とRMAではノイズの見え方やFold Changeの振れ幅が異なるため、 GEOなどで再解析するときは、数値化方法を確認する必要があります。
Illumina BeadChipでは、 ヒストグラムからノイズ領域とシグナル領域の境界を比較的判断しやすい一方で、 シグナル領域に入る遺伝子数は多くありません。 Affymetrix Gene ST Arrayでは、 RMAによる低シグナル領域の圧縮や、エクソン領域を対象にしたプローブ設計の影響により、 ノイズ領域とシグナル領域の境界が広く、あいまいになります。
一方、Agilent Whole Genome 4x44k以降のプラットフォームでは、 ノイズ領域とシグナル領域の重なりが少なく、 低発現領域まで含めて安定して解釈しやすい遺伝子数が多くなります。 そのため、発現していない遺伝子と低く発現している遺伝子を区別しやすく、 実用的なダイナミックレンジが広いと言えます。
RNA-Seqとマイクロアレイを比較するときも、 「マイクロアレイ」を一括りにして考えるのではなく、 比較対象となるプラットフォーム、RNA-Seqのリード数、 低カウント領域のばらつきを確認する必要があります。 技術名だけで優劣を判断するのではなく、 実際のデータ分布を見て判断することが重要です。
関連トピック:長期的な比較では測定系の固定も重要
RNA-Seqとマイクロアレイの違いについては、 遺伝子発現解析においてRNA-Seqはマイクロアレイの上位互換ではない でも解説しています。 RNA-Seqとマイクロアレイは単純な上下関係ではなく、 測定方法の違いによって、 マイクロアレイの方が安定して見えやすい遺伝子と、 RNA-Seqの方が検出しやすい遺伝子があります。
また、長期的な診断やモニタリングのように、 同じ基準でデータを比較し続けることが重要な用途では、 測定系を固定しやすいマイクロアレイに実用上の価値があります。 RNA-Seqは柔軟で発展性の高い技術ですが、 測定条件、ライブラリ調製、シーケンサー、解析パイプラインの違いによって、 データの見え方が変わりやすい面もあります。 そのため、研究目的や対象とする遺伝子の特徴だけでなく、 データをどの期間・どの基準で比較したいのかも含めて評価することが重要です。
Subio Platform では、 マイクロアレイやRNA-Seqのデータを視覚的に確認しながら、 どの範囲を解析対象として信頼できるかを検討できます。 データの見た目だけで判断するのではなく、 ノイズとシグナルの関係を確認しながら解析を進めることが、 発現データを正しく扱うための第一歩です。