「視覚」で理解するRNA-Seq解析:生データ(FASTQ)から生物学的発見への最短ルート

本チュートリアルでは、直感的な操作と高度な視覚化を両立した解析ソフト Subio Platform を使用し、膨大なデータから「生物学的発見」へと至る最短ルートを提示します。

オミクス解析を学び始める際、多くの初心者が R や Bioconductor の高い壁にぶつかります。コードのデバッグやコマンドの習得に忙殺され、本来最も時間をかけるべき「データの解釈」や「生物学的な洞察」がおろそかになってしまうのは、非常にもったいないことです。

Subio Platform を使う最大のメリットは、「自分の操作がデータにどのような変化を与え、どのような特徴をあぶり出すのか」を、一歩ずつ視覚的に確認しながら進められる点にあります。

  • 「作業」ではなく「対話」を: ブラックボックス化したアルゴリズムにデータを放り込むのではなく、ヒストグラムや散布図を通じてデータと対話する感覚を養えます。
  • 将来 R を使う人にも: たとえ将来的に R での解析を目指すとしても、各プロセスが持つ「統計的な意味」を視覚的に理解していることは、プロの解析者として不可欠な基礎となります。
  • 確実な成果: Subio Platform は、数多くの学会発表や論文投稿で信頼されている実戦的なツールです。

「ツールに使われる」のではなく、「解析を支配する」ための第一歩として、まずはこのチュートリアルでデータ解析の本質を体感してください。

さらに深く学びたい方へ:
解析の現場で直面する「バッチエフェクト」や、統計数値を超えた「解析者の決断」について、ケーススタディ403 [CPM正規化がバッチエフェクトを「捏造」する?] も併せてご覧ください。(チュートリアルを進める中での『判断基準』を養うのに役立ちます。)

本チュートリアルの流れ

データ解析の「作業」をこなすのではなく、各ステップでデータがどう変化するかを理解しながら進めていきましょう。

  1. データの準備とインポート
    • 1-a. FASTQファイルのインポート(生データからの処理)
    • 1-b. 遺伝子レベルの発現量データのインポート(既存データ活用)
  2. Seriesの作成と設定:実験情報の整理
  3. 正規化と前処理:データの「歪み」を整える
  4. フィルタリング(Quality Control):解析に値する遺伝子の抽出
  5. PCA(主成分分析)とクラスタリング:全体像を俯瞰する
  6. 発現差のある遺伝子(DEG)の抽出
  7. 遺伝子アノテーションとエンリッチメント解析
  8. ゲノム上の位置特異的な解析とモチーフ検索
  9. おわりに:ツールを使いこなし、「決断」できる解析者へ

1-a.FASTQファイルのインポート

Key Takeaway: 解析の第一歩は、測定した実験データの取り込みです。生データ(FASTQ)から処理する場合と、すでに遺伝子ごとの発現量 (gene counts, FPKM, TPMなど) に変換された場合に分けて説明します。

Subio PlatformにRNA-SeqのFASTQファイルをインポートするのは、  fastp HISAT2 StringTie という3つのツールからなるパイプラインを実行させ、発現量を計算することになります。ただし、ワークステーションも、UNIXのコマンドラインによる操作スキルも必要ありません。普通のWindowsまたはMacのコンピューターで動かせます。コマンドラインを使える方にとっても、Subio Platformを使う方が操作がずっとラクです。

パイプラインを実行する前に、これらのツールをインストールする必要があります。もし難しいようでしたら、FASTQ処理の問題解決サービスをご注文ください。

FASTQファイルは、.gz圧縮形式のままにしておいてください。同じフォルダー内に、途中結果のファイルが大量に生成されますので、ディスクに十分な空きスペースがあること(FASTQファイルの合計サイズの5倍以上)をご確認ください。もし、実行途中にディスクが足りなくなった場合は、途中で止まります。FASTQファイルは、外付けディスクに置いてあっても大丈夫です。

Paired-end サンプルのFASTQファイルをインポートする場合は、ファイル名の付け方のルールに従ってください。また、何らかのトラブルで実行できないときは、トラブルシューティングをお試しください。

RNA-Seq FASTQ ファイルをインポートする。

目次に戻る

1-b.遺伝子レベルの発現量データのインポート

すでに遺伝子レベルの発現量データ(gene counts, FPKM, TPMなど)に変換されたデータをお持ちでしたら、FASTQファイルを処理するために頑張る必要はありません。そのテキストファイルをSubio Platformにインポートしてください。 

ここでは、例としてGSE49110  の 発現量のテキストファイルをダウンロード してインポートしてみましょう。または、SSAファイルをダウンロードして次のステップに飛ばすこともできます。

まずはダウンロードしたファイルをエクセルで編集しますが、ここにあるとおりちょっとしたコツがあります。いらない列と行を削除して、IDである遺伝子名と発現量のテーブルに整形します。

この編集したテキストファイルを Subio Platform にインポートします。Import Samples ウィザードを開始したら、最初のページで “Multiple Samples in One File” オプションを使い、次のページで “Create A New Platform” を使って下さい。

インポートが完了したら、SOFT formatted family file からサンプルの属性情報を取り込んでおきます。これでより多くの情報を見ることができ、また、キーワードでフィルターをかけられるようになります。

それでは、この8個のSampleから成るSeriesを作って、データの視覚化および解析をしましょう。

RNA-Seq データ解析チュートリアル (01) - RNA-SeqのCountsデータのインポート

上のムービーは、日本語字幕を表示できます。

目次に戻る

2.Series の作成と設定

Key Takeaway: 統計解析において「実験デザイン(どのサンプルがどの群か)」を正確に定義しなければ解析を始められません。属性情報を整理し、比較の「軸」を明確にすることで、迷いのない解析環境を整えます。

Seriesがロードされたら、画面左のSeriesパネルにMeasurement ListやDataSetなどのオブジェクトが表示されます。Analysis Browserの上段ではデフォルトでScatter Plotが描画されます。一方、下段ではSetup Seriesタブが開きます。
Setup Seriesタブでは、基本的に画面の左から順にボタンを押していけばいいですので、最初のボタンEdit Parametersを押します。通常は、Sample Informationから情報をインポートするのが早いです。このデータセットは、4つの状態(コントロールと3種類のsiRNA処理)があり、それぞれ2回の反復があります。

Setup DataSetタブに移動し、DataSetの編集と作成を行います。先ほど設定したParameterの優先順位を設定することでSample Groupを定義・整理するのがこのタブの役割です。このチュートリアルでは2つのDataSetを設定します。さらに、Sample Info.タブに情報を記録し、関連する添付ファイルを保存します。

RNA-Seq データ解析チュートリアル (02) - Series の作成と設定

上のムービーは、日本語字幕を表示できます。

目次に戻る

3.正規化と前処理

Key Takeaway: 正規化は、総リード数などの違いによって生じる系統誤差を補正する不可欠な工程ですが、盲信は禁物です。(Case Study 379参照)プリセットに頼り切らず、ヒストグラムで補正前・補正後の分布を視覚的に確認し、データの歪みが正しく解消されているかを見極める目を養います。

正規化および前処理は、これをどうするかによってその後の解析結果が変わってしまう大事なステップです。しかも、実際のデータは教科書が想定しているようなものとは限りません。目の前のデータの特徴を正しく理解し、それにあった処理をしなければ、その後の解析で誤った結論を導き出してしまうので十分に注意して下さい。

このチュートリアルでは、プリセットの「RNA-Seq (Counts)」というシナリオから出発して、データに合わせて調整します。その過程で、何を知るためにどこを見るか(操作するか)、そしてどのように判断するかの一例を学んでください。繰り返しますが、ここで紹介するやり方がどんなデータにも通用するわけではありません。実際のデータ解析では、そのデータに合わせてその都度調整が必要です。自信を持てない場合は、どうぞデータ解析サービスをご利用ください。

こちらを併せてご覧ください。

RNA-Seq データ解析チュートリアル (03) - 正規化と前処理

上のムービーは、日本語字幕を表示できます。

目次に戻る

4.フィルタリング(Quality Control)

Key Takeaway: 「ゴミを入れれば、ゴミが出る(Garbage In, Garbage Out)」。低発現で信頼性の低い遺伝子や、変化のないノイズを適切に除外することで、真に生物学的な意味を持つシグナルだけを抽出するテクニックを学びます。

この前の正規化の説明で見たとおり、測定値があったとしてもすべての測定値が信頼できるわけではありません。解析する前に、解析に値する測定値を抽出し、解析不能の値は解析の邪魔にならないように操作する必要があります。ここで使うのが、Basic Plug-inに含まれるFilterツールです。プラグインをお持ちでない方は、5日間の無料お試しをご利用ください

フィルターを使う際の基本的な考え方は、「信頼できる遺伝子を抽出する」ではなく、「解析に値しない遺伝子を抽出して除く」です。この二つの違いは解析経験がないとまず分からないでしょう。前者は、例えばコントロールでは発現していなかったのに、何らかの処理をすると発現してくる遺伝子を逃してしまうことになります。この違いを、フィルターツールを実際に使ってみて確かめてください。

もう一つの基本的な考え方は、2段階で行うということです。まず、値が低すぎる遺伝子を除きます。次に、発現変動しない遺伝子を除きます。

たとえば、RDESeq2を使った解析手順を独学していると、次のようなサンプルコードがあります。

dds <- dds[rowSums(counts(dds)) >= 10,]

こういうとき、「どんなデータでも同じ閾値を適用していいのかな?」と迷いながらも、よくわからないので同じいいやとコピペしてはいませんか?適切な閾値はどうやって決めたらいいのでしょうか?答えは、「データを見ないと分からない」です。だから100サンプル未満の小さなデータセットであれば、このチュートリアルのように「データを見ながら進める」のが正解だし、100サンプル以上の大きなデータセットであれば、ランダムに100サンプルくらいピックアップして行う仮解析で閾値を見定めたうえで、全体の解析パイプラインを動かすのが正解です。データを見もしないでサンプルコードをそのまま走らせると、とんでもない解析結果が出てくるのは仕方のないことです。

RNA-Seq データ解析チュートリアル (04) - フィルタリング (Quality Control)

上のムービーは、日本語字幕を表示できます。

目次に戻る

5.PCAとクラスタリング

Key Takeaway: 数万個の遺伝子の動きは人間の理解を超えますので、理解可能なものにする必要があります。サンプルのバラツキ(実験の質)や群間の類似性を直感的に把握し、「このデータで次に何を調べるべきか」という全体像を俯瞰する視点を手に入れます。

前段までで準備が整いましたので、ここからいよいよ、さまざまな解析手法を駆使してデータから何らかの意味を抽出する段階に入ります。すべての遺伝子を対象とするのでなく、フィルターを使ってQuality Controlを通過した遺伝子群だけを対象とすることにご注意ください。

まずは発現プロファイルの全体像を俯瞰することで、データの概観を把握し、解析のポイントを明らかにするのがよいでしょう。この目的で役に立つのが主成分分析(PCA)です。PCAの結果を見るときの要点は3つです。まず、点と点の距離が近ければ発現プロファイルが似ている、そして離れていれば発現プロファイルも大きく異なることを表します。次に、原点からの方向です。同じ方向であればある遺伝子群が似たような動きをしていることを表し、原点から遠いほど変動幅が大きいことを表します。また、原点を挟んで点があるということは、発現変動が逆向きであることを示しています。そして、最後に主成分と寄与率です。縦方向と横方向は、あるいはそれぞれの主成分は異なる遺伝子群の動きを代表していると言えます。寄与率が大きいほど、そのような動きをする遺伝子の数が多く、概観を捉えていると言っていいでしょう。しかし、寄与率が大きいことが必ずしも生物学的に重要というわけではありません。生物学では、ごく少数の遺伝子群の動きが将来の方向性を決定づけることはよくあります。つまり、寄与率の小さな主成分が決定的な動きを捉えているかもしれません。

以上を踏まえて、このデータのPCAの結果を見てみましょう。繰り返しの2点間の距離は、siRNA間の距離に比べてずっと小さく、ばらつきの小さい良質の実験データであることが分かります。原点のコントロールと比べて、各siRNA処理群は同一方向(右下)への動きと、個別の動き(右と下)があるようです。

次に、階層型クラスタリングを適用してみます。ヒートマップを概観すると、すべてのsiRNAで共通で発現上昇(赤)する遺伝子は多くあるのと対照的に、発現が下降(青)する遺伝子はsiRNAごとに異なっていることが分かります。解析者がすべきことは、発現差のある遺伝子リストや図を作ることではなく、このような違いや特徴に気づき、細胞内で何が起きているかを洞察することです。

また、PCAと階層型クラスタリングは、基本的には同様の解析結果を違う見方をしているにすぎません。二つの結果を見比べながら、データの理解を深めましょう。

RNA-Seq データ解析チュートリアル (05) - PCAとクラスタリング

上のムービーは、日本語字幕を表示できます。

目次に戻る

6.発現差のある遺伝子の抽出

Key Takeaway: 単なるP値のカットオフだけでなく、ベン図などを活用して多角的に遺伝子を絞り込みます。異なる条件間で「共通して動くもの」と「固有に動くもの」を明確にし、次の考察のターゲットを決定します。

このケースでは、前章のクラスタリングで見た通り、発現が上昇する遺伝子群は3種のsiRNAで共通なのに対し、発現が下降する遺伝子群の共通項はあまりに少ないという偏りがありそうです。Basic Plug-inのツールを使って発現差のある遺伝子を抽出したら、Venn Diagramツールで確認してみましょう。

RNA-Seq データ解析チュートリアル (06) - 発現差のある遺伝子の抽出

上のムービーは、日本語字幕を表示できます。

目次に戻る

7.遺伝子アノテーションと、エンリッチメント解析

Key Takeaway: 「数字のリスト」を「生物学的な言葉」に翻訳します。統計的に有意な変動が、細胞内のどのような機能(GO)や代謝経路(Pathway)に集約されているかを突き止め、発見のヒントを得ます。

RNA-Seqのデータの場合、countまたはFPKMのテーブルにGene Symbol(ENSGやENSTのID、Entrez Gene IDの場合もある)しか付いていないことも多いです。そこで、遺伝子アノテーションのテーブルをデータベースサイトから取得して埋める必要があります。ここではNCBI FTP Siteサイトを使いますが、ENSGやENSTのIDがついている場合は Ensembl BioMartから取得してください。それ以外のIDの場合は、そのIDと遺伝子アノテーションを管理しているデータベースサイトを使ってください。

遺伝子アノテーションのインポートが終わると、Subio Platformでの検索機能や、Advanced Plug-inに含まれるEnrichment Analysisツールが活用できるようになります。

用語が紛らわしいのですが、Gene Ontology (GO) 解析、パスウェイ解析、ネットワーク解析などのキーワードで尋ねてこられる場合、その多くがエンリッチメント解析のことをおっしゃっています。Gene Set Enrichment Analysis(GSEA)、Ingenuity Pathway Analysis (IPA)、David Functional Annotation、Meatscapeなどはエンリッチメント解析を行うツールです。

エンリッチメント解析については、別に詳しいチュートリアルがありますので、併せてご覧ください。

RNA-Seq データ解析チュートリアル (07) - 遺伝子アノテーションと、エンリッチメント解析

上のムービーは、日本語字幕を表示できます。

目次に戻る

8.ゲノム上の位置特異的に発現制御されている遺伝子と、モチーフ配列

Key Takeaway: 物理的な位置関係から、新たな制御メカニズムの可能性を探ります。特定のゲノム領域に依存した変動や、転写因子が結合する「モチーフ配列」との関連を調べることで、発現変動の背景にある「要因」を推察する手がかりを得ます。

発現差のある遺伝子を抽出したり、クラスタリングで特定の発現パターンを持つ遺伝子群を特定したら、それらがゲノム上に偏って存在していないかを確認してみるのも一つの手です。

もし特定の領域にある遺伝子群が一斉に発現上昇または下降していれば、その領域のエピジェネティックな状態変化や、染色体の構造変化が発現変動に関与している可能性が考えられます。特に偏りが見られなければ、転写因子による制御の可能性がより高いと推測できるかもしれません。

また、モチーフ配列の検索機能を活用することで、転写開始点(TSS)近傍に特定の配列を持つ遺伝子を特定し、それらの発現パターンを確認することも可能です。こうした位置情報を活用した解析を組み合わせることで、データに対する理解の解像度をさらに高めることが期待できます。ちなみに、モチーフ配列の検索は、 IUPAC nucleotide code に対応しています。

このケースでは、ゲノム上の位置に偏った発現制御はないように見えます。siRNAによって抑制したERR alphaの結合モチーフ配列はWikipediaで見つけることができたので、これを転写開始位置近傍に持つ遺伝子を抽出することができました。これと、3種すべてのsiRNAで発現抑制された遺伝子リストとの重複を調べると、一つの遺伝子に辿り着きました。しかし、上述のとおり、3種すべてで抑制されている必要はないかもしれないですし、発現差解析の閾値がきつすぎだった可能性もあります。これらの条件を緩めることで、ERR alphaが直接制御する遺伝子の候補はもう少し広がるでしょう。

RNA-Seq データ解析チュートリアル (08) - ゲノム上の位置特異的に発現制御されている遺伝子と、モチーフ配列

上のムービーは、日本語字幕を表示できます。

目次に戻る

9.おわりに:ツールを使いこなし、「決断」できる解析者へ

Key Takeaway: チュートリアルはあくまで「手法」の紹介に過ぎません。実際の解析現場で、どの閾値が妥当か、このバッチエフェクトをどう扱うべきかを判断するのは、ツールではなく解析者自身です。客観的な数値を超えた、主観を伴う「決断」の重要性を再確認しましょう。

このチュートリアルでは、RNA-Seqデータ解析の標準的な流れを一通り紹介してきました。しかし、実際のデータ解析は、決して一本道のマニュアル通りには進みません。データの特性や研究の目的によって、最適な「正解」は刻々と変化します。

大切なのは、ツールの計算結果を盲信することではなく、Viewerを通じてデータと対話し、違和感に気づき、自分なりの根拠を持って解析を進めることです。手法を学ぶ段階を終えたら、次は「解析者としての決断」という、より本質的なステップが待っています。

さらに一歩進んだ解析を目指す方へ

  • 解析の哲学を学ぶ: 統計的な数値に振り回されず、データから「真実」を見抜くための思考法については、Case Study 403:解析の本質は主観と決断にある をぜひご一読ください。
  • 専門家の知見を借りる: もし、ご自身のデータで「どの手法が適切か」「この結果をどう解釈すべきか」という判断に迷われたなら、お気軽に私たちの データ解析サービス にご相談ください。単なる外注ではなく、ウェブ会議を通じてデータの特徴を共に読み解き、納得のいく結論に達するまで伴走いたします。

Subio Platformは、あなたが「ツールに使われる作業者」から「解析を支配する研究者」へと進化するための強力なパートナーです。さあ、あなたのデータから、世界で唯一の発見を導き出しましょう。

目次に戻る