RNA-Seq vs. マイクロアレイ

「RNA-Seqはマイクロアレイよりすぐれている」というのは、本当でしょうか? この問いに対するもっとも明確な答えは、同じサンプルをRNA-Seqとマイクロアレイで測定して比べてみることです。 右のムービーで結果をご覧ください。

RNA-Seqはアジレントのマイクロアレイより劣っているのは明らかです。 マイクロアレイよりダイナミックレンジは狭く、発現差を検出感度も弱いです。

それにも関わらず、RNA-Seqのほうがマイクロアレイより優れているという根拠のない神話がここまで広がっているのはどうしてなのでしょうか。 まずは、イルミナが「RNA-Seqテクノロジーの利点」と称しているポイントを検証してみていますので、ご覧ください。

RNA-Seqのデータ解析は、実はマイクロアレイよりも厄介です。 解析の経験が少ない方には、マイクロアレイのときよりももっと強くデータ解析サービスのご利用をお勧めします。 また、RNA-Seqの生データであるFASTQファイルの処理には、RNA-Seqデータ解析支援サービスをご利用ください。

イルミナの主張

偏りのない新規転写産物の検出

アレイと異なり、RNA-Seqテクノロジーでは種特異的なプローブや転写産物特異的なプローブが必要ありません。 RNA-Seqテクノロジーは、アレイでは検出できない新規転写産物、遺伝子融合、一塩基バリアント、indel(小さな挿入および欠失)、およびその他未知のバリアントを検出することができます。

(イルミナのサイトより引用)

この主張は原理的には正しいのですが、現実的には困難です。 RNA-Seqの一般的なデータ処理では、既知の遺伝子モデルに対してマッピングしているので新規転写物が見つかりません。 新規転写物を同定しながら発現量を推定するのは簡単ではありませんしコストもかかります。 既知の遺伝子と同じように測定できるわけではありません。

より広範なダイナミックレンジ

アレイハイブリダイゼーションテクノロジーの遺伝子発現解析では、低発現遺伝子はバックグラウンドノイズの影響を、高発現遺伝子はシグナル飽和ノイズの影響を受けます。 RNA-Seqテクノロジーは、個別のデジタルシーケンスリードカウントを定量し、より幅広いダイナミックレンジを可能にします。

(イルミナのサイトより引用)

この主張は、「イルミナのマイクロアレイ」と比べたときであれば正しいです。 しかし、マイクロアレイ一般に結論を広げるのは問題です。 もし、「アジレントのマイクロアレイ」と比べれば、上のムービーのとおり結論は逆になります。

特異性および感度の向上

マイクロアレイに比べて高度な特異性および感度を誇るRNA-Seqテクノロジーは、遺伝子、転写産物、および差次発現の検出に優れています。

(イルミナのサイトより引用)

このような結論が導き出されたのは、比較の方法が間違っているからです。 これについて詳細は、次章で説明します。

希少な転写産物や存在量の少ない転写産物をより簡単に検出

希少な転写産物、1細胞あたりの単一転写産物、または発現量が少ない遺伝子を検出するためにシーケンスカバレッジ深度を簡単に高めることができます。

(イルミナのサイトより引用)

この主張は原理的には可能ですが、稀にしか存在しないRNAは、稀にしかシーケンサーにキャプチャーされません。 存在する転写物を網羅的にキャプチャーするためには膨大な繰返しが必要です。 わずか数回の繰返しでほぼ網羅的なデータをとれるアジレントのマイクロアレイと比べて、とても現実的ではありません。

以上より、イルミナの主張が理論的には正しくとも、それが現実的に正しいとは言えないということがわかります。 原理的にシーケンサーでないとできない実験はありますので、そのような特殊な用途においては活躍するでしょう。 しかし、そのような実験およびデータ解析は非常に困難かつ高価です。 手軽にできるものではありません。

Banner traveler

比較方法におけるトリック

RNA-Seqがマイクロアレイより感度や精度においてすぐれていると主張する論文がありますが、よく見てみると次の論理上の問題が共通して在ることがわかります。

単位を無視して、異なる種類の値を直接比べている

マイクロアレイのシグナル値とRNA-SeqのFPKMを散布図で直接比較している図があります。 また、値の分布範囲が4桁とか5桁とか比較していることもあります。 単位の異なる値を直接比較することは、実用においては簡易で便利ですが、科学論文においては不適切であり、基本的な誤りです。

count ではなく、FPKM や RPKM を使っている

多くの論文で、countではなくFPKMやRPKMが使われています。 「大きい遺伝子ほどたくさんリードがあるので、発現量を正しく見積もるためには遺伝子の大きさによってcountを均す必要がある。」という主張は、生物学的にもっともに聞こえます。

しかし、countとFPKMの値をよく観察してみると、countよりFPKMの分布域のほうが広いことに気づくと思いますが、さらによく見ると、遺伝子の長さの多様性を反映した副作用にすぎないことがわかります。 これを以て「ダイナミックレンジが広い」というわけにはいきません。 また、遺伝子の平均長は1kbより長いので、FPKMは小さな値になる傾向がありますから、これを以て「低発現に強い」というのも怪しい論理です。

実は、生物学のコンテキストにおいてもFPKMはあまり意味がありません。 もし問いが、「このサンプルに於いて発現量が高いのはどちらの遺伝子か?」であれば、必ずFPKMでなくてはいけません。 しかし、通常の問いは「この遺伝子の発現量が多いのは、どちらのサンプルか?」ですから、countをFPKMにする必要はないのです。

値の分布範囲全体をダイナミックレンジと呼んでいる

このムービーでは繰返し実験を比較しているので、基本的に1回目と2回目の測定で近い測定値が得られることが期待されます。 繰返し実験のcountを散布図で見れば、30以下の領域では測定値がばらばらであることがわかります。 つまり、これがcountのノイズ領域で、たとえcountの値が存在したとしても信頼できないということになります。

一方、FPKMの散布図を見るとノイズ領域がはっきり見えません('9 “30)。 しかし、countとFPKMの違いをよくよく見比べてみると、上記のとおり1kbあたりで均す処理の副作用によりノイズが見えにくくなっているに過ぎないことがわかります。 見えにくくなったからといって、当然ながらノイズがなくなるわけではありません。

ダイナミックレンジとは、本来、その測定システムで信頼できる測定値の分布範囲を指すのですが、彼らは測定値の分布域全体をダイナミックレンジと称する初歩的な過ちを犯しています。

RNA-Seqのダイナミックレンジについて、さらに詳しく説明しておりますので、よろしければご覧ください

特定のデータをもって一般化した結論を導いている

マイクロアレイといっても、さまざまな種類があります。 そして、それぞれ性能(精度・発現量の検出感度、発現差の検出感度)に差があります。

もし、「イルミナのマイクロアレイ」や「アフィメトリクスのマイクロアレイ」と比べてRNA-Seqのほうが優れているという主張であれば、その通りだと思います。 しかし、「アジレントのマイクロアレイ」と比べてであれば、その主張には疑義があります。

あまり性能のよくないマイクロアレイと比べた結果をもって、あたかも普遍的な結論のように主張するのは、チープなトリックと言わざるをえません。

各種マイクロアレイのダイナミックレンジについて、さらに詳しく説明しておりますので、よろしければご覧ください

なぜこれほど単純なトリックがまかり通っているのか?

論文の限られた数の図では、複雑なオミクスデータを表すことは不可能です。 しかし、誤った印象を流布させるには十分です。 もちろん、その主張の根拠として、論文と合わせて生データを公開するのが慣例とはなっていますが、実際に生データを再解析して主張の是非を議論することに時間を使う人はいません。 これが問題の根元にあると思います。

私たちは、オミクスデータをすべての研究者にとって見やすく、触りやすい形で提供することが大事だということに気付き、Subio Platformを開発し、無償配布しています。 オミクスデータをブラックボックスから解放するために。

ここは未開の地なんです。

いろんな人に尋ねてまわったけど、けっきょく誰も道を知りませんでした。 たしかな地図なんてありません。 だって、向かう先は未開の地なのですから。 必要なのは、フロンティアスピリットです。

実験を始める前に、最適な実験デザイン、適切な手法の選択、実験失敗のリスクを低減する方法などをアドバイスする実験計画支援サービスを提供しております。 また、採用予定の手法や装置の性能について、アセスメントのお手伝いもしています。 本当かどうかわからない話を信じて歩き始める前に、できる準備はしてから出発しましょう。

さらに、高品質な実験データを出すための「プレミアム実験受託サービス」を提供しております。 サンプル数が12より多い場合、希少なサンプルの場合、前向き研究の場合、FFPEやセルソーターなど測定が難しい実験の場合は、たとえ単価が高くてもお勧めします。

Banner epilogue

よろしければ、こちらも合わせてお読みください。

Back to Top