miRNA-seq vs RNA-seq:再現性の違いとは?データの信頼性と解析上の落とし穴

  • Gene Expression
  • miRNA Expression
  • Microarray
  • High-Throughput Sequencing

miRNA-seqとRNA-seqの違いは何か?という問いに対して、
最も重要な違いは「再現性(reproducibility)」です。
この違いは、データセット間での結果の一致性として最も明確に現れます。

遺伝子の発現量を測定する技術は、少なくとも2004年までには現在の水準に達していますので、ちゃんとしたスキルを持つ実験者により測定されたデータであれば、信頼できると言えます。一方で、マイクロRNAの発現量の測定は今なお難しいです。miRNAの発現データが、遺伝子発現データと同等に信頼できるものではないということは知っておいたほうが良いでしょう。ここでは、hepatocellular carcinoma (HCC) の複数のデータセットに跨って、遺伝子およびmiRNA発現データを見比べてみます。

遺伝子発現データは再現性が高い:RNA-Seqとマイクロアレイなど異なる技術でも結果が一致する実例

下のヒートマップは、TCGA-LIHC GSE14520 という二つのデータセットを並べて見比べるためのものです。TCGAの遺伝子発現データは、RNA-Seqによりとられています。一方 GSE14520 はAffymetrix HG-U133A 2.0 Array と HT_HG-U133A Array という2種類のGeneChipを使って測定されたものですので、合計3つのデータセットとして扱っています。生データから処理し直して、Tumor サンプルにおける Normalサンプルに対する Log2 Ratio に変換して解析しました。赤い色はTumorで発現が亢進していることを、青色は減退していることを表します。

異なる研究者ならびに異なる手法により測定であるにもかかわらず、この3つのデータセットにおいて発現の上昇と下降がおおよそ一致しています。即ちこれらのデータの信頼性は高いといえるでしょう。

このようなデータセット間での一致性は、各データセット内での高い再現性に支えられています。

Gx Comparing Datasets

遺伝子発現データは、データセット内でも再現性が高い

TCGA-LIHC RNA-Seq データセットは、50 の Normal と 370 の Tumor サンプルで構成されています。GSE14520 HG-U133A 2.0 Array データセットは、18 の Normal-Tumor ペアを含んでおり、HT-U133A データセットでは 214 ものペアを含んでいます。いくつか品質に疑問のあるサンプルが含まれるものの、全体としては質の高いデータセットと言えます。 

それぞれのデータセットを見てみても、Tumor サンプルの発現プロファイルがだいたい似通っているようにみえます。これにより、これらの発現データが本来の生物学的状態を反映しているという主張に合理性をもたらします。

Gx Heatmaps Of Each Data Set

miRNA発現データは再現性が低い:異なる測定技術間で結果が一致しない実例

それでは、miRNAの発現データを見てみましょう。ここでは、miRNA-Seqやマイクロアレイなど、異なる測定技術による5つのデータを比較しています。遺伝子発現データとは対照的に、これらの結果は驚くほど一致しておらず、データセット間で大きく食い違っています。特に、同じAffymetrixのプラットフォームを用いたデータでさえ、一貫した結果は得られていません。

このような不一致は、単一のデータセットから得られた結論を一般化することの難しさを示しています。すなわち、miRNA発現データの解釈には、想像以上の慎重さが求められます。

Mi R Comparing Datasets

miRNA発現データは、データセット内では一貫した結果が得られるのか

これらのデータセットで、一番大きなのはTCGA-LIHC  miRNA-Seq のデータです。ヒートマップを見る限り、TumorサンプルにおけるmiRNAの発現プロファイルはおおよそ一致しており、このデータセット単体だけを見れば、実験は成功しており、信頼できる結果が得られていると判断してしまうのも無理はありません。

むしろ、このような「一見うまくいっているように見えるデータ」が存在すること自体が、miRNA発現解析の本質的な難しさを示しています。

Mi R Tcga

GSE110217は、Agilent の Human miRNA v16 microarray を用いて測定されたデータです。このデータセットを詳細に見ると、繰り返しサンプルの後半(5–8)では、前半(1–4)と比較してシグナルが明らかに低下しており、バッチエフェクトの影響が示唆されます。このため、後半のサンプルは本解析から除外しました。

GSE110217は、Normal、non-HCC、HCCの3つのグループを含んでいます。クラスタリングの結果では、HCCサンプル群が明確にクラスターを形成しており、生物学的コンテキストと整合的なパターンが確認されます。したがって、このデータセット単体としては、解析結果は妥当と判断できます。

やはりここでも、データセット内での整合性が、かえってmiRNA解析の難しさを示しています。

Mi R Agilent

次の2つのデータセットは、いずれもAffymetrixのプラットフォームを用いて測定されたものですが、マイクロアレイのバージョンは異なります。上はGSE74618(Affymetrix miRNA v2 Array)、下は GSE115016(Affymetrix miRNA v4 Array)です。やはりここでも、若干のばらつきは認められるものの、データセット内では一定の整合性が確認されます。

Mi R Affy V2

Mi R Affy V4

次の2つのデータセットは、上がGSE10694(CapitalBio Mammalian miRNA Array)、下がGSE28854(Milteny Biotec miRXplore miRNA Microarray)で、異なるマイクロアレイプラットフォームを用いて測定されたものです。GSE28854はHCC患者サンプルのみを含み、コントロールサンプルは含まれていません。

これらのデータは、前述のデータセットと比較してばらつきは大きいものの、データセット内での整合性が完全に失われているわけではありません。

Mi R Capital Bio

Mi R Milteny

これまで見てきたとおり、データセット内には一定の整合性が認められます。しかし、たとえその整合性が確認されたとしても、それが信頼できる結果であるとは限りません。

複数のHCCデータセットを並べて比較して初めて明らかになるのは、「HCCにおいて発現が上昇または下降しているmiRNAがどれであるか」という基本的な問いに対してさえ、明確な答えを得ることがいかに難しいかという点です。

miRNA発現データの結果はなぜ一致しないのか:再現性が低い理由

RNA-Seqとは対照的に、miRNA-Seqでは条件や測定系の違いにより、データセット間で結果が著しく一致しないことが少なくありません。この再現性の低さは、miRNAの持つ次のような性質に起因します。

miRNA発現データの再現性を低下させる3つの要因

配列が短く、近似度が高い

遺伝子に比べてmiRNAの塩基配列は短く(約22塩基)、ファミリー間での違いもわずか数塩基です。そのため、アレイでのクロスハイブリダイゼーションや、シーケンス解析時のマッピングの曖昧性が避けられません。

このことにより、実際には存在する発現差が過小評価され、正確な識別が困難になる可能性があります。

ライブラリ調製バイアス(Library Preparation Bias)

特にアダプター連結効率の差や抽出キットによる偏りが、miRNAの定量結果に大きな影響を与えることが知られています。

これは、同一データセット内では整合性が保たれているように見える一方で、異なるデータセット間では結果が一致しないという現象を理解する上で重要な要因です。

 miRNAの数が圧倒的に少ない

遺伝子に比べてmiRNAの数は非常に少なく、数千種類程度です。そのため、mRNA解析で一般的に使われる「大半の遺伝子は発現が変化しない」という前提に立つ正規化手法が通用しにくくなります。

言い換えると、多くのmiRNAで発現量が一斉に上がったり下がったりしている状況では、「変化していないもの」を基準にすることができなくなり、発現差を正しく評価することが難しくなります。

どのような計算処理をしても疑問が残りやすいため、正確な比較には 「スパイクイン(外来RNAの添加)」 による外部標準を用いた補正が必要になるケースも少なくありません。

まとめ

以上より、miRNAの発現量の網羅的測定は、依然として解決すべき課題を多く抱えた発展途上の技術です。miRNAのデータセットを扱う際や、論文で報告されている発現変動miRNAのリストを解釈する際には、十分な注意が必要です。

特に重要なのは、miRNA発現データの難しさは単一のデータセットでは見えず、複数のデータセットを比較して初めて明らかになる点にあります。これは本当に気づかれにくい問題です。

そのため、miRNAの実験を計画する場合には、遺伝子発現解析以上に入念な準備(一貫したデータが得られる実験系の確立)と高い技術が求められます。

RNA-Seq vs. miRNA-Seqの違い
項目 RNA-Seq (遺伝子発現) miRNA-Seq
再現性 高い 条件依存でばらつきが大きい
データの一致性 研究間でおおむね一致 一致しない場合が多い
測定の安定性 比較的安定 技術的バイアスの影響を受けやすい
解析の前提 一般的に成立 成立しにくい

データをダウンロードして、Subio Platformで詳しく見てみよう

お手元の Subio Platform にデータをインポートして詳しく見てみたい方は、SOA ファイル をダウンロードしてください。SOAは、SSA ファイル を束ねたようなもので、簡単にSubio Platformにデータを展開できます。

操作:

Platform メニューからImport Archive... を開いて、ダウンロードしたSOAファイルを選択してください。インポートが完了すると自動的にSubio Platformが閉じますので、ソフトウェアを再起動してください。

【2026年追記】AIに「〇〇で発現が上昇しているmiRNAを教えて」と聞いてはいけない

このように、miRNAの発現解析は未だ多くの課題を抱えています。

近年ではAIによる解析も普及していますが、元データの品質にこれほどのバラつきがある以上、AIの出す「答え」を鵜呑みにするのは危険です。たとえば、AIに「HCC(肝細胞がん)で発現が上昇しているmiRNAを教えて」と聞くと、AIは過去の論文から抽出したリストを自信満々に提示します。 しかし、この記事が示しているのは「そもそも論文ごとに結果がバラバラで、信頼性にばらつきのあるデータが含まれている」という技術的な現実です。

また、AI(機械学習やディープラーニング)は、ノイズの多いデータでも「それらしい特徴量」を見つけ出してしまいます。たとえ生物学的には存在しないパターンであっても、それを見つけ出すように設計されているのがこれらのモデルなのです。それが生物学的に妥当かどうかを判断できるのは、AIではなく解析者自身です。

言うまでもないことですが、AIだけでなく、miRmineやmiRNAMapのような「各組織での発現量をまとめたデータベース」も、同様に注意が必要です。これらは一見便利ですが、異なる実験系のデータを無理やり統合していることが多く、そこで示される「組織差」が、実は単なる「実験手順の差」であるリスクを排除できません。

Subioは、オミクスデータに関しては、AIに直接聞くよりも、まず自分の目で直接データを確かめることをお勧めします。
Subio Platformなら、異なるデータセットを横断して比較し、このような再現性の違いを視覚的に検証することができます。