遺伝子発現解析においてRNA-Seqはマイクロアレイの上位互換ではない|それぞれの特徴を理解して使い分ける

  • Gene Expression
  • Microarray
  • High-Throughput Sequencing

遺伝子発現解析では、RNA-Seqがマイクロアレイより新しく、 より高性能な方法であると説明されることがあります。 確かにRNA-Seqには、プローブ設計に依存しないこと、 広い範囲の転写産物を解析対象にできること、 再解析の自由度が高いことなど、多くの利点があります。

しかし、RNA-Seqはマイクロアレイの単純な上位互換ではありません。 RNA-Seqとマイクロアレイでは測定原理が異なるため、 見えやすい遺伝子、見えにくい遺伝子、 信頼して比較しやすい範囲が異なります。

マイクロアレイには複数のプラットフォームがあります。 本ページでは、現在でも比較的安定した発現解析データとして利用されることがある Agilentマイクロアレイを例として扱います。 以下で「マイクロアレイ」と記載する場合は、Agilentマイクロアレイを想定しています。

重要なのは、どちらの技術が常に優れているかを決めることではありません。 それぞれの特徴を理解し、実際のデータを見ながら、 どの範囲を信頼して解釈できるかを判断することです。

RNA-Seqとマイクロアレイは、測定原理が異なる

RNA-Seqでは、RNAから作成したライブラリをシーケンスし、 得られたreadをゲノムやトランスクリプトームに割り当てることで、 遺伝子ごとの発現量を推定します。 そのため、read depth、ライブラリ調製、遺伝子長、 配列のmappability、multi-mapping readsの扱い、 アノテーション、発現量推定方法などが結果に影響します。

一方、マイクロアレイでは、あらかじめ設計されたプローブに サンプル由来の核酸がハイブリダイズすることで得られるシグナルを測定します。 測定対象はプローブが設計された遺伝子や領域に限られますが、 同じプラットフォーム上では、固定されたプローブセットに基づいて 安定した比較がしやすいという特徴があります。

つまり、RNA-Seqとマイクロアレイは、 同じ「遺伝子発現」を見ているようであっても、 実際には異なる測定原理に基づいて発現量を推定しています。 そのため、結果の違いを解釈するときには、 対象となる塩基配列、readのmappability、multi-mappingの可能性、 そしてプローブが測定している領域を確認する必要があります。

初期のRNA-Seq比較論文は、現在の視点では注意して読む必要がある

2010年代前半から中頃にかけて、RNA-Seqとマイクロアレイを比較する論文が多く発表されました。 それらの論文では、RNA-Seqはマイクロアレイより多くの遺伝子を検出できる、 低発現遺伝子にも強い、ダイナミックレンジが広い、という主張がよく見られます。

しかし、この時期の比較では、RNA-Seqという新しい技術の利点を示すことに重点が置かれ、 検出遺伝子数やFPKM/RPKMで見た発現量の広がりが強調される傾向がありました。 そのため、現在の視点で読むと、 「検出された遺伝子」と 「測定値が安定しており、解析対象として信頼できる遺伝子」が 十分に区別されていない場合があります。

RNA-Seqでは、少数のreadが割り当てられた遺伝子も 検出された遺伝子として数えられることがあります。 しかし、数readしかない遺伝子では、 サンプル間の発現差や発現パターンを安定して解釈できるとは限りません。

遺伝子発現解析で重要なのは、 単に何個の遺伝子が検出されたかではなく、 どの遺伝子が、どの程度の信頼性でサンプル間比較に使えるかです。 検出遺伝子数だけを比較して、 RNA-Seqの方が常に多くの情報を得られると判断するのは危険です。

FPKM/RPKMで見える広いダイナミックレンジに注意する

RNA-Seqは、マイクロアレイより広いダイナミックレンジを持つと説明されることがあります。 しかし、初期のRNA-Seq比較論文では、 当時のシーケンサーで得られるread数が現在より少なかったにもかかわらず、 RNA-Seqのダイナミックレンジの広さが強調されることがありました。

特に、Genome Analyzer II(GAII)などが使われていた時期のRNA-Seqでは、 現在のbulk RNA-Seqと比べてread depthが限られていることが多く、 低発現遺伝子では十分なread countが得られていない場合があります。 そのようなデータで、RNA-Seqは低発現領域まで広く定量できると主張する場合には、 注意が必要です。

現在では、より深いシーケンスやUMI(Unique Molecular Identifier)を用いた手法により、 PCR biasや重複readの影響を抑えられる場合もあります。 しかし、UMIを用いた場合でも、低発現領域では観測される分子数そのものが少ないため、 サンプル間比較で安定した発現差として解釈できるかどうかには注意が必要です。

以前の比較論文では、FPKMやRPKMのような正規化値を用いて、 RNA-Seqの広いダイナミックレンジが議論されることがありました。 FPKMやRPKMは、read countをライブラリサイズと遺伝子長で補正した値です。 そのため、低カウントの遺伝子でも、 補正後の値としては連続的な発現量のように表示されます。

しかし、正規化値として広い範囲に分布していることと、 実際に安定した測定値として信頼できることは同じではありません。 特に低発現領域では、元のread countが少ないため、 FPKM/RPKMの値だけを見てダイナミックレンジを評価すると、 実用的な定量範囲を過大評価してしまう可能性があります。

したがって、初期のRNA-Seq比較論文で述べられている 「RNA-Seqはマイクロアレイより広いダイナミックレンジを持つ」という結論は、 そのまま受け取るのではなく、 実際のread数、元のcount分布、低発現遺伝子の扱い、 そしてFPKM/RPKMによる見かけの広がりを確認したうえで読む必要があります。

RNA-Seqで有利になりやすい遺伝子

RNA-Seqには、マイクロアレイにはない利点があります。 たとえば、既存のプローブセットに依存せず、 新しいアノテーションを反映して再解析しやすいことや、 配列情報に基づく解析へ拡張しやすいことが挙げられます。

また、同じ発現量であっても、 長い遺伝子ではRNA-Seqで由来readを得やすく、 低発現領域でもcount不足になりにくい可能性があります。 そのため、低発現であっても、遺伝子長が長く、 配列のmappabilityが高い遺伝子では、 RNA-Seqの方が発現パターンを確認しやすい場合があります。

RNA-Seqで有利になりやすい遺伝子・ケース 理由
プローブが設計されていない遺伝子 マイクロアレイでは測定対象外になる
新しいアノテーションで見直したい遺伝子 再マッピングや再集計によって解析対象にできる場合がある
低発現だが、遺伝子長が長くmappabilityが高い遺伝子 低発現領域でもread countを得やすく、発現パターンを確認しやすい場合がある
転写産物構造やisoformを検討したいケース 配列情報を利用できるが、short-readでは推定に依存し、十分なread depthが必要

ただし、RNA-Seqで検出できることは、 その測定値をすべて同じ信頼度で解釈できることを意味しません。 特に、低発現の遺伝子、アノテーションが不十分な遺伝子、 配列類似性の高い遺伝子群では、 readの割り当てや発現量推定が不安定になることがあります。

また、RNA-Seqでは転写産物構造やisoformを検討できることも利点として挙げられます。 しかし、通常のshort-read RNA-Seqで得られる転写産物ごとの発現量は、 全長転写産物を直接読んだ結果ではなく、断片的なreadに基づく推定値です。 全長の転写産物を直接読むlong-read RNA-Seqと同じように扱えるわけではありません。

さらに、遺伝子単位ではなく転写産物ごとに発現量を推定する場合、 readを複数のisoformに分けて扱うことになります。 その結果、各転写産物に割り当てられるread数は少なくなり、 遺伝子単位で集計した場合よりも発現量推定が不安定になりやすくなります。

isoform解析を目的に設計された実験であれば、 そのために十分なread depthを確保する必要があります。 しかし、一般的な遺伝子発現解析を目的としたRNA-Seqデータでは、 転写産物ごとの定量に必要なread数が十分に確保されていないことも少なくありません。 そのようなデータを後からisoform解析に転用すると、 出力された値は得られても、信頼して解釈できる測定値とは言いにくい場合があります。

プローブがない遺伝子を検出できることと、信頼して解釈できることは違う

RNA-Seqの利点として、マイクロアレイのように事前にプローブを設計しておく必要がないため、 プローブが存在しない遺伝子や、新しいアノテーションに含まれる遺伝子、 新しい転写産物も解析対象にできる、という点がよく挙げられます。

これはRNA-Seqの重要な特徴です。 しかし、「検出できる」ことと、 「機能や特徴がよく調べられた既知遺伝子と同じ信頼度で解釈できる」ことは同じではありません。

アノテーションが不十分な遺伝子、配列類似性の高い遺伝子群、低発現の遺伝子では、 readの割り当てや発現量推定が不安定になることがあります。 特に、cDNAライブラリーやESTなどによってイントロン・エクソン構造が実験的に支持されている遺伝子と、 そのような支持が十分でない遺伝子では、 RNA-Seqで得られる発現量の信頼性が同じとは限りません。

readの割り当てや発現量推定はソフトウェアによって自動的に行われます。 しかし、出力された数値をすべて同じ信頼度の測定値として扱えるわけではありません。 遺伝子モデルの支持レベル、readのmappability、multi-mappingの可能性、 周辺の類似配列などによって、測定値の信頼性は変わります。

さらに、測定値が得られたとしても、 その遺伝子や転写産物の機能、発現する細胞種、既知の生物学的役割が分かっていなければ、 結果を生物学的に解釈することは困難です。 現実的には、アノテーションのない不確かな転写産物が多数検出されても、 研究目的との関係を説明できないため、 解析や解釈の中心には使われないことが少なくありません。

つまり、RNA-Seqによって測定対象は広がります。 しかし、解釈可能な遺伝子の範囲が同じだけ広がるわけではありません。 一般的な遺伝子発現解析では、未知の遺伝子や転写産物を検出できることが、 実際に大きなメリットになるケースは限られます。

解析で重要なのは、検出されたものをすべて使うことではなく、 信頼して測定でき、かつ生物学的に意味を説明できる範囲を見極めることです。

マイクロアレイで有利になりやすい遺伝子

マイクロアレイは、あらかじめ設計されたプローブに依存するため、 測定対象が限られます。 これは制約である一方で、特定の遺伝子では利点にもなります。

特に低発現かつ短い遺伝子では、 RNA-Seqで十分なread countが得られにくく、 countが0〜数readになったり、サンプル間変動が大きく見えたりすることがあります。 一方、十分に特異性の高いプローブが存在し、 背景ノイズより十分高いシグナルが得られる場合には、 マイクロアレイの方が安定した比較がしやすい場合があります

ただし、短い遺伝子であれば常にRNA-Seqが苦手というわけではありません。 現在のdeep bulk RNA-Seqでは、十分な発現量があり、 unique exon が存在し、mappability が高い遺伝子であれば、 短い遺伝子でも安定して解析できる場合があります。 本質的な問題は、遺伝子長そのものではなく、 サンプル間比較に十分なeffective countsが得られているかどうかです。

また、相同性の高い領域を共有する遺伝子ファミリーでは、 short-read RNA-Seqのreadが複数の遺伝子に対応することがあります。 解析方法によっては、multi-mapping readsを除外する場合もあれば、 複数の候補遺伝子に分配して発現量を推定する場合もあります。

その場合、解析手法によっては、 本来は遺伝子ごとに発現量が異なっていても、 発現推定値が互いに近づいて見える場合があります。 つまり、配列類似性の高い遺伝子群では、 RNA-Seqの測定値が、実際の遺伝子ごとの発現差を十分に反映しない場合があります。

一方、識別性の高い領域にプローブが設計されている場合には、 マイクロアレイの方が遺伝子ごとの差を解釈しやすいシグナルとして示すことがあります。

なお、短く相同性の高いmicroRNAの測定は、 RNA-Seqにとってもマイクロアレイにとっても難しいチャレンジです。 マイクロアレイの場合は、プローブ配列だけでなく、 ハイブリダイゼーションの物理的な性質も含めて測定系を設計できることが、 利点の一つになる可能性があります。

参考: Agilent miRNAマイクロアレイのプローブ設計

マイクロアレイで有利になりやすい遺伝子・ケース 理由
低発現かつ短い遺伝子 RNA-Seqでは十分なeffective countsが得られにくい場合がある
配列類似性の高い遺伝子群 RNA-Seqではreadの割り当てが曖昧になり、解析手法によっては発現推定値が近づいて見える場合がある
良いプローブが設計されている遺伝子 安定した連続シグナルとして比較しやすい場合がある
既知遺伝子の相対比較が目的の場合 プローブ範囲内では安定した比較がしやすい
過去の蓄積データと比較したい場合 同一または近いプラットフォームのデータを再利用しやすい

長期的な診断用途では、測定系の固定性も重要になる

マイクロアレイの有利な点の一つは、 固定されたプローブ配列と配置を持つ、 物理的な測定基盤に基づいていることです。 これは制約でもありますが、 長期間にわたって同じ測定系を維持しやすいという利点にもなります。

診断ツールや長期的な臨床検査では、 測定対象、測定方法、判定基準をできるだけ安定させることが重要です。 マイクロアレイでは、どのプローブがどの位置にあり、 どの遺伝子または領域を測定しているかがあらかじめ固定されています。 そのため、同じプラットフォームを使い続ける限り、 測定系そのものを比較的固定しやすいという特徴があります。

一方、RNA-Seqでは、発現量データが得られるまでに、 RNA抽出、ライブラリ調製、rRNA除去またはpoly(A)選択、断片化、PCR、 シーケンス条件、read mapping、発現量推定など、多くの工程を経ます。 それぞれの工程で使用する試薬、プロトコル、装置、解析パイプラインが変わると、 得られる発現量にも影響が出る可能性があります。

研究では柔軟性が価値になる場面があります。 しかし、診断では固定性が価値になる場面があります。 RNA-Seqは研究用途では非常に柔軟で強力な方法ですが、 長年にわたって同じ基準で運用する診断ツールとして使う場合には、 測定系全体をどのように固定し、検証し、再現性を維持するかが 大きな課題になります。

どちらが正しいかではなく、どの範囲を信頼できるかを見る

RNA-Seqとマイクロアレイの違いは、 「新しい技術」と「古い技術」の違いだけではありません。 それぞれの測定原理によって、 得意な遺伝子、不得意な遺伝子、 信頼して比較しやすい範囲が異なります。

そのため、RNA-Seqで得られた結果とマイクロアレイで得られた結果が異なる場合でも、 すぐにどちらか一方が正しい、どちらか一方が間違っていると考えるべきではありません。 まずは、元のデータ分布、read count、シグナル強度、遺伝子長、 mappability、プローブ設計、アノテーション、サンプル間のばらつきを確認する必要があります。

遺伝子発現解析では、技術名だけで結果の信頼性を判断するのではなく、 実際のデータを見て、どの範囲を信頼して解釈できるかを見極めることが重要です。

新旧の遺伝子発現データを、データ資産として蓄積する

RNA-Seqが普及した現在でも、 過去に測定されたマイクロアレイデータの価値が失われるわけではありません。 マイクロアレイには、長年にわたって蓄積されたデータ、 検証済みの測定系、既存研究との比較に使いやすいという利点があります。

一方、RNA-Seqには、プローブに依存せず、 より柔軟に再解析できるという利点があります。 重要なのは、どちらか一方を選び、もう一方を切り捨てることではありません。 それぞれの測定原理と限界を理解したうえで、 データを蓄積し、比較し、必要に応じて再解析できる環境を持つことです。

新しいデータだけでなく、過去に蓄積されたデータも含めて見直すことで、 研究の連続性や再現性を高めることができます。 遺伝子発現データは、一度解析して終わりの結果ではなく、 後から別の視点で見直すことができる研究資産です。

Subio PlatformでRNA-Seqとマイクロアレイを同じ視点で確認する

Subio Platform は、 RNA-Seqデータとマイクロアレイデータの両方に対応しています。 Gene Counts、正規化後の発現量データ、マイクロアレイのシグナルデータなどを取り込み、 同じ環境で可視化、フィルタリング、PCA、クラスタリング、 発現差解析、エンリッチメント解析へ進めることができます。

これにより、新しいRNA-Seqデータだけでなく、 過去に蓄積されたマイクロアレイデータも、 研究資産として再利用しやすくなります。 技術が変わっても、データを見直し、比較し、解釈するための環境を持つことが重要です。

具体的な解析手順については、以下のチュートリアルをご覧ください。

Subio Platformは、RNA-Seqとマイクロアレイのどちらか一方だけを前提にするのではなく、 新旧の遺伝子発現データを蓄積し、可視化し、比較しながら理解するための環境です。 重要なのは、ツールや技術名に結論を任せることではなく、 データを見て、確認し、解釈することです。