RNA-Seqデータ解析の新しいスタイル|R/Pythonで解析 × Subioで可視化・データ管理

Subio Platform X R Python

Subio Platformでは、データの可視化や前処理を直感的に行うことができます。

一方で、RやPythonを用いることで、より高度な統計解析やカスタム解析を実行することが可能です。

これらを組み合わせることで、「理解しながら解析する」ワークフローを実現できます。

本ページでは、Subio PlatformとR / Pythonを連携させるためのデータ形式と、実際の解析の流れについて解説します。


なぜSubioとR / Pythonを連携するのか

Subio Platformは、データの可視化とデータの蓄積・管理(データベース化)に強みがあります。

一方で、RやPythonは、様々な高度な統計処理に適しています。

この2つを組み合わせることで:

  • データの状態を可視化しながら確認できる
  • 統計解析を柔軟に実行できる
  • 結果を再び可視化して解釈できる
  • 解析結果を蓄積し、いつでも呼び出して再解析できる

解析手法の柔軟な選択と、解析結果の資産化が可能になります。


Subio Platformからエクスポートできるデータ

Subio Platformからは、以下のようなデータをエクスポートし、R / Pythonで利用することができます。

データ 形式 主な用途
Gene Count / TPM / FPKM(生データまたは前処理後) TSV 差分解析(DESeq2 / edgeR)、PCA・UMAP、クラスタリング、機械学習による分類・予測など
サンプル情報(グループ・条件など) TSV 差分解析のグループ設定、分類・ラベル付け(教師付き機械学習など)、バッチ情報の管理
アノテーション付き遺伝子リスト TSV エンリッチメント解析、ネットワーク解析
値付きゲノム領域リスト(ChIP-Seq、メチル化、CNVなど) BED ゲノム位置に基づく解析、マルチオミクス統合解析

これらのデータは、RやPythonでそのまま読み込むことができます。


Subio Platformにインポートできるデータ

RやPythonで解析した結果は、Subio Platformに取り込み、可視化・解釈することができます。

たとえば、以下のようなデータをインポートできます:

  • 統計モデルを用いた差次的発現解析結果(P値、FDR など)
    Measurement Listとしてインポートすることで、差次的発現遺伝子の可視化や、ベン図による条件間の比較・組み合わせが可能
  • 正規化・補正済みデータ
    別のサンプルとしてインポートすることで、元データとの比較や補正手法どうしの違いを可視化して検証
  • クラスタリングや機械学習による分類・特徴づけ
    サンプル属性情報として取り込み、可視化・比較・検証、生存曲線分析などに利用
  • ゲノム領域とそれに付加された数値
    ゲノムブラウザー上で棒グラフやヒートマップとして可視化し、遺伝子発現との対応関係や相関の解析に利用
  • PCAのloadings(各遺伝子の係数)や、NMF・ICAなどで得られる成分ベクトル
    Profile(Scatter Plot of Samplesでの可視化に利用)

※ PCAやNMFなどの線形手法では、これらの係数を用いてサンプルのスコア(位置)を計算できます。

※ UMAPやt-SNEなどの非線形手法では同様の係数は定義されませんが、サンプルの座標として可視化に利用できます。

これらのデータを取り込むことで、解析結果をさまざまな視点から可視化し、解釈することができます。


よくある注意点

RやPythonとの連携では、以下の点に注意が必要です:

  • Subio PlatformはTSV形式のみ対応しており、CSVには対応していません
  • 遺伝子IDやサンプル名は柔軟に対応可能ですが、解析や可視化の際の対応関係を明確にするため、使用するIDや命名ルールは統一しておくことを推奨します

これらが適切に対応していない場合、サンプルや遺伝子の対応関係がずれ、解析結果の解釈を誤る原因となることがあります。


AI(ChatGPTなど)を活用した解析

近年では、ChatGPTを用いてRやPythonのコードを生成し、解析を実行することも一般的になっています。

Subio Platformでデータを整理し、必要な部分だけコード生成することで:

  • コードの量を最小限にできる
  • エラーの修正が容易になる
  • メンテナンスが簡単になる

大規模なパイプラインをAIで一度に構築するのはリスクがありますが、小さなプログラムを組み合わせて使うことで、現実的かつ効率的な運用が可能になります。


次のステップ

RNA-Seqデータ解析の全体の流れについては、以下のチュートリアルをご覧ください:

RNA-Seqデータ解析チュートリアル

Subio PlatformとR / Pythonを組み合わせた解析を、実際のデータを使ってステップごとに進めることができます。