RNA-Seq DEG解析の基本 - 発現差遺伝子をGene Countsから抽出する考え方

  • Gene Expression
  • High-Throughput Sequencing

RNA-SeqのDEG解析は、edgeRやDESeq2の推奨プロトコルに従えば十分だ。
そう思ってはいませんか?

しかし、実際の解析は、そう単純ではありません。 DEG解析は、RNA-Seq解析全体の中の一部であり、 正規化、低発現遺伝子の扱い、PCAやクラスタリングによるデータ確認、 そして研究目的に応じた遺伝子リストの使い方と切り離して考えることはできません。

このページでは、RNA-Seq DEG解析を行う前に知っておきたい基本的な考え方を整理します。 特に、TPMやFPKMではなくGene Countsを出発点にする理由
edgeRやDESeq2を使えば常に十分とは限らない理由
そして研究目的に応じてDEG抽出の厳しさをどう考えるかについて説明します。

RNA-Seq DEG解析では、Gene Countsを出発点にする

RNA-Seq解析では、DEG解析、PCA、クラスタリングなどを、 TPM、FPKM、RPKMではなく、 Gene Countsを出発点にした正規化・変換データで一貫して行うことが重要です。

ここでいうGene Countsを使うとは、 生のGene CountsをそのままPCAやクラスタリングに使うという意味ではありません。 Gene Countsを出発点として、適切な正規化、log変換、Low Signal Cutoff、 欠損値の補完などを行ったうえで、 同じ考え方に基づくデータとして解析全体を進めるという意味です。

TPMやFPKMは、遺伝子長で補正された発現量です。 遺伝子長による補正を行うと、 低Count領域に由来する不安定な測定値が、 十分に発現している信頼性の高い測定値と混じり合います。 その結果、抽出された発現差の妥当性を判断しにくくなります。

TPMやFPKMはPCAやクラスタリングなどの視覚化には向いている と言われることもあります。 しかし、DEG解析にはGene Countsを使い、 PCAやクラスタリングにはTPMやFPKMを使う、 などと使い分けようとすると、 解析に混乱をもたらすことになります。 なぜなら、DEG解析、PCA、クラスタリングなどは、独立して行うのではなく、 それぞれの結果を見比べて、それぞれの結果の妥当性を確認するからです。 つまり、Gene Countsを出発点にした解析にそろえる方が現実的です。

詳しくは、 RNA-Seqの発現差解析にTPM・FPKM・RPKMを使わない理由 - DEG解析はGene Countsから で解説しています。

edgeRやDESeq2を使えばよい、とは限らない

RNA-SeqのDEG解析では、edgeRやDESeq2が標準的な手法として広く使われています。 これらは、Gene Countsの性質を考慮して設計された有力な統計手法です。

しかし、edgeRやDESeq2を使えば、 どのRNA-Seqデータでも自動的に信頼できるDEGリストが得られるわけではありません。

RNA-Seqと一言でいっても、データの性質は大きく異なります。 リード数、サンプル間のばらつき、インプットRNA量、 サンプリング条件、ライブラリ調製法、シーケンサーの違いなど、 さまざまな要因によって得られるGene Countsの性質は大きく変わります。

さらに、研究目的によっても、抽出したい遺伝子は変わります。 探索的に候補遺伝子を広く拾いたい場合と、 診断マーカー候補として再現性の高い遺伝子を絞り込みたい場合では、 DEGリストに求める性質は同じではありません。

つまり、RNA-Seq DEG解析には、 どのデータにもそのまま適用できる魔法のような方法があるわけではありません。 実務における解析者は、 それぞれの手法がどのような発現パターンを有意と判定しやすいのか、 あるいは有意と判定しにくいのかという特徴を知ったうえで、 適切な手法を選んで使いこなすことが求められます。

また、Gene Countsをパイプラインに投入すれば結果が得られるという簡便さは、 バッチエフェクトや、サンプル間のダイナミックレンジの違いなどを 見落とす原因にもなります。 現実のRNA-Seqデータは、教科書や統計モデルが想定するような、 きれいに整ったデータとは限りません。

そのため、実際の解析では、 まずデータの質を見極め、 適切な解析方針を考えるところから始める必要があります。 最初の見立てがそのまま使えるとは限らないため、 解析を実行しながら、問題が解決できているかを確認する、 試行錯誤のサイクルになることも少なくありません。

詳しくは、 RNA-SeqではT検定はダメなのか? - DESeq2・edgeRと統計モデルを過信しない考え方 で解説しています。

手法の違いよりも、前処理とフィルタリングの影響が大きい

実際のRNA-Seq実験データを比較すると、 edgeR、DESeq2、t検定のどれを使うかだけでなく、 検定にかける前の前処理やフィルタリングが、 DEGリストに大きな影響を与えることが分かります。

特に重要なのは、低Count領域の扱いです。 低Count領域では、検出されるかされないかの違いや、 ダイナミックレンジの違いに由来する 正規化後Gene Countsの下限値のずれによって、 見かけ上の差が生じることがあります。 この領域をそのまま統計検定にかけると、 DEGリストに信頼できない遺伝子が紛れ込むことになります。

一方で、適切に前処理されたGene Countsデータであれば、 edgeR、DESeq2、t検定の間で得られる結果の違いは小さくなります。

ただし、手法間の差が完全になくなるわけではありません。 edgeR、DESeq2、t検定には、 それぞれ有意と判定しやすい発現パターン、 あるいは判定しにくい発現パターンがあります。 そのため、DEG解析の実務では、 目的に合った発現パターンを抽出しやすい手法を選ばなくてはいけません。

この考え方については、 実際のRNA-Seqデータを複数のタイプに分けて検証した結果をもとに、 RNA-Seq発現差解析におけるedgeR・DESeq2・t検定の使い分け - 原理とデータタイプ別の実践ルール で詳しく説明しています。

統計学的有意差は、研究目的に応じて使い分ける

DEG解析では、P値やFDRによって統計学的有意差を評価します。 しかし、統計学的有意差そのものを目的にしても、 実務上は十分ではありません。

どの統計モデルも、現実の実験データを完全に表しているわけではありません。 重要なのは、統計手法を使って、 研究目的に合った候補遺伝子をどのように見つけるかです。

統計学的有意に発現差がある遺伝子の発現パターンとは、 基本的には、群内のばらつきが小さく、 群間の差が大きい、 階段状の動きです。 診断マーカーや分類モデルの開発であれば、 このような発現パターンを目的に抽出するとよいでしょう。

一方で、研究目的が原因に近い上流の生物現象を探ることであれば、 必ずしもそのような階段状の発現パターンだけが重要とは限りません。 例えば、複数の条件が重なったときにだけ変化するケースや、 Inhibitorによって効果が相殺されるケースなどを考えてみるといいでしょう。 また、生物学的に重要な変化は、小さな変化として現れることもあります。 特定の種類の細胞に関連する遺伝子などは、Bulk RNA-Seqでは 非常に小さい変動幅かつ低分散の発現パターンとして観測されるかもしれません。 もしそのような遺伝子を探しているなら、t検定が有効でしょう。

このため、DEG解析では、 「有意差があるかどうか」だけではなく、 その遺伝子リストを何に使うのかを考える必要があります。 探索的解析なのか、 バイオマーカー候補の選定なのか、 論文執筆や学会発表のためのデータづくりなのか、 GO解析やPathway解析のインプットのためのリストなのかによって、 DEG候補の扱い方は変わります。

解析目的 DEG候補の扱い方の例
探索的解析 複数手法で検出されたDEGsの和集合も含め、広めに候補を検討する。
バイオマーカー候補の選定 複数手法で共通して検出される遺伝子を、より再現性の高い候補として重視する。
論文での主張に用いる解析 FDRやFold Changeなど、事前に定めた基準を明確にして慎重に解釈する。
パスウェイ・エンリッチメント解析 生物学的傾向を見る目的で、やや広めに候補を残すこともある。
後続の検証実験を前提とする解析 有望な候補を見落とさないよう、やや広めに候補を残すこともある。

このように、DEG解析では、 統計学的に厳密な条件を常に一律に適用するのではなく、 研究目的と解析段階に応じて、 厳しさと広さのバランスを考えることが重要です。

この考え方は、 コーディングなしで学ぶRNA-Seqデータ解析チュートリアル の「発現差のある遺伝子の抽出」でも説明しています。
また、複数の要因が重なるモデルや、Inhibitorのあるモデルと有意差の関係については、 ケーススタディ No.199 でも取り上げています。

背景を理解したら、実際にDEG解析を行う

ここまでの背景を理解したら、次は実際のデータでDEG解析を行うやり方について説明します。 Subio Platformでは、プラグインを使って、 t検定、Paired T-test、ANOVAなどによる発現差解析を行うことができます。

edgeRやDESeq2を使う場合は、 Subio PlatformからGene Countsのテーブルを出力し、 RでedgeRやDESeq2を実行した後、 得られたP値やFDRをSubio Platformに戻して可視化することができます。

この流れについては、 ChatGPTを使ったedgeR・DESeq2解析(RによるRNA-Seqチュートリアル) で、Gene Countsの出力、Rスクリプトの作成、edgeR・DESeq2の実行、 結果の再インポートまでを解説しています。

まとめ

RNA-Seq DEG解析では、 どの統計手法を使うかだけでなく、 どのデータを出発点にするか、 どのように前処理するか、 どのような目的で遺伝子リストを使うかが重要です。

TPMやFPKMではなくGene Countsを出発点にし、 適切な正規化、log変換、Low Signal Cutoff、フィルタリングなどを行ったうえで、 PCA、クラスタリング、DEG解析を一貫して進めることで、 それぞれの結果の妥当性を確認できます。

edgeR、DESeq2、t検定はいずれも道具であり、 それぞれに有意と判定しやすい発現パターンがあります。 重要なのは、特定の手法を過信することではなく、 データの質を見極め、 研究目的に合ったDEG候補を選ぶことです。

DEG解析は、単にP値の小さい遺伝子を集める作業ではありません。 細胞の中で起こっている現象を理解するための、 複雑な解析プロセスの一環です。

Photographer Choosing The Right Lens