RNA-Seq解析ソフトをどう選ぶべきか - 自動解析で結果を出すだけで十分なのか

  • Gene Expression
  • High-Throughput Sequencing

RNA-Seq解析ソフトを選ぶとき、多くの人は、 FASTQファイルから発現量を計算できるか、 発現差解析を実行できるか、 Volcano plotやヒートマップを作れるか、 GO解析やPathway解析まで進められるかを確認します。

もちろん、これらは重要な機能です。 しかし、解析に求められるのはそれだけではありません。 得られた結果が、 データの歪みやバッチエフェクトによる見せかけではなく信頼できるものか、 研究目的に合った発現パターンを抽出できているか、 などをきちんと確認できることも必要です。

AIによるコード生成や、ブラウザー上でボタンを押すだけの自動解析ツールによって、 RNA-Seq解析を実行するための敷居は今後さらに下がっていくと考えられます。 しかし、実行が簡単になることは、 正しい解析結果が得られることを意味しません。 むしろ、データの性質を確認しないまま、 研究目的と統計モデルの適合性も検討せずに有名なツールを実行するだけのパイプラインは、 もっともらしい結果を大量に出力する危険性を高めるでしょう。

AIによって、RNA-Seq解析の自動化はさらに進む

これまでは、RNA-Seq解析を行うために、 Linuxコマンド、R、Python、統計手法、各種ツールの使い方を学ぶ必要がありました。

しかし現在は、AIに指示すれば、 Salmonやkallistoを実行するコマンド、 tximportでgene-level counts tableを作成するRコード、 edgeRやDESeq2でp値を計算するスクリプト、 Volcano plotやヒートマップを作るコードまで生成できます。

この変化によって、RNA-Seq解析はますます自動化されていきます。 これまで大きな壁だった「コードを書くこと」や「ツールを動かすこと」は、 以前ほど難しい作業ではなくなっていくでしょう。

しかし、ここで注意しなければならないのは、 コードが作れることと、正しい解析ができることは違うという点です。 AIが生成したコードは、指定された処理を実行することはできます。 しかし、そのデータにその処理を適用してよいかどうかまでは、 自動的には判断してくれません。

実際のRNA-Seqデータは、統計モデルが想定するほどきれいではない

RNA-Seq解析で使われる統計手法は、 データが一定の前提を満たしていることを想定しています。 たとえば、サンプル間の比較が可能な状態に正規化できること、 低Count領域のばらつきが適切に扱われていること、 極端な外れ値や強いバッチ効果が結果を支配していないことなどです。

しかし、現実のRNA-Seqデータは、 統計モデルが想定するような、きれいに整ったデータばかりではありません。 RNA品質、サンプル量、細胞組成、ライブラリ調製、シーケンス深度、 マッピング率、低発現遺伝子のばらつき、外れ値、バッチ効果など、 さまざまな要因が解析結果に影響します。

特に、公共データベースから取得したRNA-Seqデータや、 biopsy由来のサンプル、低入力RNA-Seq、細胞組成が異なるサンプルでは、 サンプルごとのデータ品質や分布が大きく異なることがよくあります。 このようなデータでは、統計手法を実行する前に、 データの状態を確認することが欠かせません。

それでも、AIが生成したコードや自動解析ツールにデータを入力すると、 一見もっともらしい結果が得られることが問題なのです。 それらが本当に生物学的な差を反映しているのか、 それともデータ品質や分布の偏りを反映しているのかは、 出力結果だけを見ても判断できないからです。

DEG解析は、edgeR、DESeq2、limmaを使えばよいという単純な話ではない

RNA-Seqの発現差解析では、 edgeR、DESeq2、limmaなどの手法がよく使われます。 これらは重要な統計手法であり、 RNA-Seq解析において大きな役割を果たしてきました。 しかし、実際のRNA-Seqデータには、 統計モデルをそのまま適用するだけでは見落としや誤解につながる要因が含まれています

そのため、どれか一つの有名な手法を選べば、 常に正しい発現差遺伝子が得られるわけではありません。 DEG解析は、単にp値を計算する作業ではないからです。

実際の解析では、研究目的によって、 探したい発現パターンは変わります。
大きく変動する遺伝子を見つけたいのか、
低発現だが特定の条件でON/OFFのように変化する遺伝子を見たいのか、
群内分散が小さい安定した変化を拾いたいのか、
個体差を考慮したpaired designで変化を見たいのかによって、
見るべきデータの領域も、使うべき手法も変わります。

したがって、DEG解析では、 研究目的に応じて、どの発現パターンを抽出したいのかを考え、 その目的に合う前処理、フィルタリング、統計手法、可視化確認を 組み合わせる必要があります

RNA-Seq解析ソフトに必要なのは、結果を出す機能だけではない

RNA-Seq解析ソフトを選ぶときには、 どの解析を自動実行できるかだけでなく、 データをどのように確認できるかを見る必要があります。

たとえば、正規化前後の分布、 低Count領域の状態、 サンプル間のダイナミックレンジの違い、 PCAやクラスタリングで見える外れ値、 ヒートマップで見える発現パターン、 発現差解析で抽出された遺伝子の分布などを確認できることが重要です。

また、発現差解析の結果についても、 p値の小さい遺伝子を並べるだけでは不十分です。 その遺伝子がどの程度発現しているのか、 どのサンプルで変化しているのか、 低Count領域のばらつきに影響されていないか、 生物学的に解釈可能なパターンを示しているかを確認する必要があります。

自動化とデータ確認を組み合わせる運用が現実的

もちろん、自動化そのものが問題なのではありません。 FASTQファイルの処理、発現量テーブルの作成、edgeRやDESeq2によるp値計算、 グラフ作成などは、AIや既存ツールを利用して効率化できます。 定型的な処理を自動化することは、解析作業を進めるうえで大きな助けになります。

問題は、自動化された処理の出力を、 データの状態や研究目的と照らし合わせずに、そのまま結論として扱ってしまうことです。

大量のデータを処理する必要のある現場では、 自動化された処理で結果を効率よく得ながら、 その結果を可視化し、確認し、研究目的に合っているかを判断する運用が必要になります。

Autopilot Needs Human Judgment

RNA-Seq解析ソフトを選ぶときの確認ポイント

各種解析機能に加えて、下記の点を確認できることをお勧めします。

  • Gene Counts、TPM、FPKM、RPKMを区別して扱えるか
  • 正規化前後のデータ分布を確認できるか
  • 特定の発現パターンがデータの歪みを反映したものでないかを確認できるか
  • 低Count領域や欠測値の状態を確認できるか
  • 発現差解析結果をp値だけでなく、発現パターンとして確認できるか
  • GO解析・Pathway解析の結果を元データと対応づけて確認できるか
  • 他の解析ツールで得られた結果と比較・統合できるか
  • 研究目的に応じて、解析方法や抽出条件を見直せるか

Subio Platformは、データを見ながら判断するためのRNA-Seq解析ソフトです

Subio Platformは、RNA-SeqのGene Counts、TPM、FPKMなどの発現量データを取り込み、 正規化、フィルタリング、PCA、クラスタリング、ヒートマップ、 発現差解析結果の確認、GO解析・Pathway解析までを、 プログラミングなしで進められるRNA-Seq解析ソフトです。

Subio Platformが重視しているのは、 データの状態を確認しながら、 統計解析や生物学的解釈をひとつひとつ丁寧に進めることです。

解析結果を見直し、共有し、再解析できることも重要

また、RNA-Seq解析では、 一度得られた解析結果をその場限りで終わらせず、 後から見直し、共有し、別の条件で再解析できることも重要です。 解析手順や表示状態を含めて保存できれば、 研究室内で結果を共有したり、 別の研究者が同じデータを確認し直したりすることが容易になります。

Subio Platformでは、 解析データを再利用可能な形で蓄積し、 SSAファイルとして共有することで、 同じ解析結果をすぐに開き、確認・再解析できます。 このような解析データの資産化と共有化は、 個人の解析作業だけでなく、 研究室全体の解析能力を底上げするためにも重要です。 この点については、 プラグインなしでも、ここまでできる: Subio Platformの無料基本機能が支えるオミクス解析 で説明しています。

Subio Platformは、 RNA-Seqデータの状態を確認しながら丁寧に解析を進め、 得られた結果を共有・再利用しながら、 次の解析や検証につなげるための解析環境です。