RNA-Seqデータ解析のベストプラクティスとは？ - AI時代は、似たデータを見ることから始める

RNA-Seqデータ解析を始めようとすると、
「RNA-Seq データ解析ベストプラクティス」
「RNA-Seq 解析手順」
「edgeR DESeq2 どちらを使うべきか」
といった情報を探したくなるかもしれません。

もちろん、RNA-Seq解析には広く使われている基本的な流れがあります。 FASTQファイルからreadを処理し、Gene CountsやTPMを計算し、正規化、PCA、クラスタリング、発現差解析、GO解析やPathway解析へ進む。このような大まかなワークフローは、多くのデータで共通しています。

しかし、ここで注意すべきことがあります。 RNA-Seqデータ解析に、どのデータにもそのまま適用できる万能のベストプラクティスはありません。

ある解析手順が「ベストプラクティス」として紹介されていたとしても、それが、あなたが解析したいそのデータに本当に合っているかどうかは、手順名や使用ツールだけでは判断できません。

RNA-Seqデータの性質は、条件によって大きく変わる

実際のRNA-Seqデータは、教科書や統計モデルの説明から想像するほど均質ではありません。実験や測定の条件が、データの質に大きく影響するからです。

たとえば、次のような要因によって、データの見え方は大きく変わります。

read数
組織や細胞の種類
サンプル中の細胞組成
RNAの品質
サンプル調製方法
ライブラリ作製プロトコル
使用したキット
測定施設や測定時期
サンプル数
paired designかどうか
低発現遺伝子がどの程度含まれるか
batch effectの有無

同じRNA-Seqデータであっても、培養細胞のin vitro実験と、患者のbiopsyデータでは、データのばらつき方も、低発現領域の扱いも、サンプル間の関係も大きく異なります。さらに、low-input RNA-SeqのようにRNA量が少ないデータでは、通常のbulk RNA-Seqを前提にした考え方がそのまま使えないこともあります。（ケーススタディ No.432）

その手順が目の前のデータに合っているかどうかは、実際のデータを見て、解析者自身が判断しなければいけません。

ベストプラクティスは、固定された手順ではない

RNA-Seq解析において、一般的に意味のある方針はあります。しかし、それらは「どんなデータにも同じ設定で適用すればよい」という意味ではありません。

どの程度低発現遺伝子を除くべきか。どの正規化が適切か。 PCAで見えた分離をどう解釈するか。 edgeR、DESeq2、t検定の結果の違いをどう考えるか。 P値でよいか、それともFDRを使うべきか。 fold change条件をどのように組み合わせるか。 batch effectを補正すべきか、それとも補正してはいけない設計なのか。

これらは、実際のデータを見なければ判断できませんし、解析の目的によっても変わってくるものです。

つまり、RNA-Seqデータ解析におけるベストプラクティスとは、決まった解析手順をそのまま適用することではありません。データの分布を確認し、サンプル間の関係を可視化し、低Counts領域やbatch effectの影響を見ながら、解析手順がそのデータに合っているかを判断することです。

まず、似た条件のGEO Seriesを見てみる

では、自分のデータにどのような解析が合っているかを考えるには、何から始めればよいのでしょうか。

一つの実践的な方法は、自分が解析したいデータに近い条件の公開データを探し、実際に見てみることです。

GEOには、さまざまな組織、細胞、疾患、薬剤処理、遺伝子ノックダウン、実験デザインのRNA-Seqデータが登録されています。自分の研究に近いSeriesを探して、Gene CountsやTPMの分布、サンプル間のばらつき、PCA、クラスタリング、低発現領域の様子を確認すると、その種類のデータで何が起こりやすいのかが見えてきます。

たとえば、これからヒト組織のbulk RNA-Seqを解析するのであれば、同じような組織や疾患を扱ったGEO Seriesを探してみる。培養細胞を使った実験を予定しているのであれば、似た細胞種や処理条件のデータを探してみる。 low-input RNA-Seqを予定しているのであれば、細胞種や実験条件の似たケースを探してみる。

このように、抽象的なベストプラクティスを探すよりも、似た条件の実データを見た方が、はるかに具体的な判断材料が得られます。

AIによって、似た公開データを探しやすくなった

以前は、自分のデータに似たGEO Seriesを探すこと自体が簡単ではありませんでした。疾患名、組織名、細胞種、処理条件、測定プラットフォーム、サンプル数などを手がかりに、一つずつ詳細を見ていく必要がありました。

そのため、RNA-Seqを学び始めたばかりの人に、「まず似た公開データを探して見てみましょう」と勧めるのは、現実的ではない面がありました。

しかし現在は、AIを使うことでこの状況が大きく変わっています。

たとえば、次のように自然文で相談できます。

ヒトの○○組織で、○○疾患群と対照群を比較したGEO Seriesを探してください。 RNA-Seqだけでなくマイクロアレイでもいいので、疾患群のサンプル数が20～100くらいあるものを選んでください。

肝臓由来の培養細胞に対して、特定遺伝子のノックダウン処理を施したRNA-Seqデータを探しています。セルラインは、できればがん細胞由来でないものがいいです。

神経細胞のlow-input RNA-Seqや少数細胞由来のbulk RNA-Seqデータの例を探してください。データのばらつきの程度を知りたいので、プロトコルなどの制限なくできるだけ多くの候補をあげてください。

このように、AIを使えば、公開データを探す作業の負担はかなり小さくなります。もちろん、AIが挙げた候補はひとつずつ見ていく必要があるのですが、それでも、最初の候補探しが、以前とは比較にならないほど簡単になったことは大きな変化です。

つまり、AI時代のRNA-Seqデータ解析では、最初から抽象的なベストプラクティスを探すのではなく、自分の目的に近い公開データを探し、そのデータを実際に可視化してみることが、初心者にとっても現実的な学び方になりつつあります。

似た公開データを見ることは、実験計画にも役立つ

自分のデータに近いGEO Seriesを探して実際に見てみることは、解析方法を考えるためだけでなく、実験計画を立てる段階でも役立ちます。

RNA-Seqを含むオミクス実験では、read数、組織や細胞の種類、サンプル調製、ライブラリ作製プロトコル、使用するキット、測定施設、batch effectなど、さまざまな要因がデータの性質に影響します。

そのため、実験を始める前に、似た条件の公開データでどの程度のばらつきやバイアスが起こりうるのかを確認しておくことは、予算、サンプル数、実験デザインを考えるうえで重要です。

オミクス実験では、系統誤差や非線形バイアスを完全に避けることはできません。そのため、どのような問題が実際に起こりうるかをあらかじめ想定しておくことが重要です。そして、できれば起こりうる問題に対する対策を、実験計画に組み込んでおくことで、ある程度リスクを管理できます。

この問題については、「オミクス実験は、非線形バイアスの問題を逃れられない」や、「良い研究は、優れた実験計画から。」も参考にしてください。

さらに、実験を始める前に、使用予定の測定システムの現実的な性能を確認しておくことは、時間と予算を無駄にしないために非常に有効です。「RNA-Seq・マイクロアレイで失敗しないために。実験前の「データアセスメント」が予算と時間を救う理由」もご覧ください。

複数のGEO Seriesを統合して利用しようと考えている場合は注意が必要

GEOデータを統合したり、ご自身のデータと併せて解析しようとしているときには、別の注意が必要になります。

似た条件の公開データを参考にすることと、複数のGEO Seriesを単純に結合して直接比較することは、同じではありません。

RNA-SeqのGene Countsは、異なるSeries間でそのまま比較できる発現量の絶対量ではありません。あくまで、共通のコントロール群に対する比として見た場合に、比較できる可能性がある、と認識しなくてはいけません。ここから得られる知見は、特に、大規模な前向き研究を計画している方にとって重要な示唆を与えてくれます。

この点については、「RNA-SeqのGene Countsは比較できる絶対値ではない｜GEOデータ統合とバッチエフェクトの対処法」で詳しく説明しています。

RNA-Seq解析の学び方も変わっている

このように、AI時代のRNA-Seqデータ解析では、「最初に正しい手順を覚える」ことよりも、 実データを見ながら、なぜその手順が必要なのかを理解する というように、実践から学び始めることも可能になっています。

なお、似たGEO Seriesを見つけたものの、データのインポートでつまずいたり、データの見方や解析方針の判断に迷ったりする場合は、 Subioのデータ解析サービスでアセスメントを相談することもできます。見積もりだけであれば無料ですので、相談したいGEO Seriesがある場合は、 GSE番号を添えてお問い合わせください。

データ解析・データアセスメントについて相談する

まとめ：ベストプラクティスを探すより、データを見る

RNA-Seqデータ解析に、万能のベストプラクティスはありません。

なぜなら、RNA-Seqデータの性質は、read数、組織や細胞の種類、サンプル調製、プロトコル、キット、測定条件、実験デザインなどによって大きく変わるためです。

そのため、一般論として紹介されている解析手順が、あなたのデータに合っているかどうかは、実際のデータを見なければ判断できません。

これからRNA-Seqデータ解析を学ぶのであれば、まずは自分の目的に近いGEO SeriesをAIで探し、そのデータを実際に可視化してみることをお勧めします。

ベストプラクティスとは、固定された手順ではありません。 データを見て、確認し、判断するための考え方です。

Ignoring The Fortune Teller

サポート Help - 解析理論とケーススタディ RNA-Seqデータ解析のベストプラクティスとは？ - AI時代は、似たデータを見ることから始める