RNA-Seqのリード数とダイナミックレンジ

  • Gene Expression
  • High-Throughput Sequencing

RNA-Seqのリード数とダイナミックレンジ

RNA-Seqで信頼して扱える発現量の範囲は、リード数に大きく依存します。 ここでいうダイナミックレンジとは、単に測定値全体の分布幅ではなく、 ノイズの影響が大きい低カウント領域を除いた、 解析対象として信頼しやすいシグナル領域のことです。

リード数が少ない場合、得られるリードの多くは、 発現量の高い比較的少数の遺伝子によって占められます。 一方、低発現遺伝子の発現量を安定して測定するには、 より多くのリード数が必要になります。

つまり、RNA-Seqでは、低発現遺伝子まで解析対象に含めたいほど、 必要なリード数は増えていきます。 リード数を増やせば、より多くの遺伝子がシグナル領域に入ってきますが、 低発現側までダイナミックレンジを広げようとすると、 必要なリード数は急激に増加します。

注: この記事でいうリード数は、シングルエンド換算で表しています。 ペアエンドRNA-Seqの場合は、1ペアを1フラグメントとして考えます。 そのため、リード1とリード2を別々に数えた総リード数として報告されている場合は、 この記事中のリード数と比較するときに、およそ半分として考えてください。

Fig1 Rna Seq Read Depth And Dynamic Range

たとえば、リード数が1000万程度のRNA-Seqデータでは、 フィルタリング条件やサンプルの性質にもよりますが、 発現量の高いほうからおよそ1万遺伝子程度を、 比較的安定した解析対象として扱えることが見込まれます。 しかし、そこからさらに低発現領域まで解析対象を広げようとすると、 必要なリード数は大きく増加します

この点は、TPM、FPKM、RPKMなどに変換した後の値だけを見ていると、 見落としやすくなります。 TPMやFPKMでは、遺伝子長による正規化によって値の範囲が広がって見えることがあります。 しかし、それは低カウント領域の測定信頼性が高くなったことを意味しません。
詳しくは、RNA-Seqの発現差解析でTPM、FPKM、RPKMを使うべきではない理由 もご参照ください。

RNA-Seqのダイナミックレンジを検討する場合は、 TPM、FPKM、RPKMではなく、元のCount値やリード数を確認することが重要です。

インプットRNA量にも注意する

リード数だけでなく、インプットRNAの量も、 RNA-Seqで信頼して扱える発現量の範囲に大きく影響します。 超微量インプットのRNA-Seqsingle-cell RNA-Seqでは、 1サンプルまたは1細胞から得られる分子数が限られるため、 bulk RNA-Seqとは異なる制約を受けます。 技術の進歩によって改善は進んでいますが、 低発現遺伝子を安定して定量するには、 bulk RNA-Seq以上に注意が必要です。 特に、低カウント領域では、発現していないのか、 たまたま検出されなかったのかを慎重に判断する必要があります。

サンプル間のリード数差にも注意する

同じRNA-Seqデータセット内でも、サンプルごとの総リード数には差が出ます。 複数のデータセットを見ていると、 総リード数の多いサンプルと少ないサンプルの間で、 2倍程度の差があることも珍しくありません。

データ解析では、最もリード数の少ないサンプルに合わせて、 フィルタリングや解釈の範囲を考える必要があります。 したがって、実験計画の段階では、 シーケンサーのカタログ上の理論値だけを前提にするのではなく、 実際に解析で使える有効リード数は、 理論値の半分程度になる可能性も見込んでおく方が安全です。

Fig2 Rna Seq Read Depth And Dynamic Range Summary

3' RNA-Seqでもリード数の制約は残る

3' RNA-Seqは、転写産物全体ではなく、主に3'末端付近をシーケンスする方法です。 遺伝子長の影響を受けにくく、多数のサンプルを効率よく処理しやすいという利点があります。

一方で、3' RNA-Seqにすれば、少ないリード数でも低発現遺伝子まで安定して測定できる、 という意味ではありません。 低発現遺伝子を信頼して扱うには、やはり十分な分子数とリード数が必要です。

まとめ

RNA-Seqでは、正規化後の値や解析結果だけを見ていると、 そもそも十分なリード数が得られているかどうかを見落としやすくなります。 しかし、リード数が不足していれば、 低発現領域の解釈は不安定になります。

RNA-Seqのダイナミックレンジを考えるときは、 まずリード数を確認し、そのうえでCount分布やサンプル間の再現性を実際に見ながら判断してください。