
Subio Platformでは、データの可視化や前処理を直感的に行うことができます。
一方で、RやPythonを用いることで、より高度な統計解析やカスタム解析を実行することが可能です。
これらを組み合わせることで、「理解しながら解析する」ワークフローを実現できます。
本ページでは、Subio PlatformとR / Pythonを連携させるためのデータ形式と、実際の解析の流れについて解説します。
なぜSubioとR / Pythonを連携するのか
Subio Platformは、データの可視化とデータの蓄積・管理(データベース化)に強みがあります。
一方で、RやPythonは、様々な高度な統計処理に適しています。
この2つを組み合わせることで:
- データの状態を可視化しながら確認できる
- 統計解析を柔軟に実行できる
- 結果を再び可視化して解釈できる
- 解析結果を蓄積し、いつでも呼び出して再解析できる
解析手法の柔軟な選択と、解析結果の資産化が可能になります。
Subio Platformからエクスポートできるデータ
Subio Platformからは、以下のようなデータをエクスポートし、R / Pythonで利用することができます。
| データ | 形式 | 主な用途 |
|---|---|---|
| Gene Count / TPM / FPKM(生データまたは前処理後) | TSV | 差分解析(DESeq2 / edgeR)、PCA・UMAP、クラスタリング、機械学習による分類・予測など |
| サンプル情報(グループ・条件など) | TSV | 差分解析のグループ設定、分類・ラベル付け(教師付き機械学習など)、バッチ情報の管理 |
| アノテーション付き遺伝子リスト | TSV | エンリッチメント解析、ネットワーク解析 |
| 値付きゲノム領域リスト(ChIP-Seq、メチル化、CNVなど) | BED | ゲノム位置に基づく解析、マルチオミクス統合解析 |
これらのデータは、RやPythonでそのまま読み込むことができます。
Subio Platformにインポートできるデータ
RやPythonで解析した結果は、Subio Platformに取り込み、可視化・解釈することができます。
たとえば、以下のようなデータをインポートできます:
-
統計モデルを用いた差次的発現解析結果(P値、FDR など)
Measurement Listとしてインポートすることで、差次的発現遺伝子の可視化や、ベン図による条件間の比較・組み合わせが可能 -
正規化・補正済みデータ
別のサンプルとしてインポートすることで、元データとの比較や補正手法どうしの違いを可視化して検証 -
クラスタリングや機械学習による分類・特徴づけ
サンプル属性情報として取り込み、可視化・比較・検証、生存曲線分析などに利用 -
ゲノム領域とそれに付加された数値
ゲノムブラウザー上で棒グラフやヒートマップとして可視化し、遺伝子発現との対応関係や相関の解析に利用 -
PCAのloadings(各遺伝子の係数)や、NMF・ICAなどで得られる成分ベクトル
Profile(Scatter Plot of Samplesでの可視化に利用)
※ PCAやNMFなどの線形手法では、これらの係数を用いてサンプルのスコア(位置)を計算できます。
※ UMAPやt-SNEなどの非線形手法では同様の係数は定義されませんが、サンプルの座標として可視化に利用できます。
これらのデータを取り込むことで、解析結果をさまざまな視点から可視化し、解釈することができます。
よくある注意点
RやPythonとの連携では、以下の点に注意が必要です:
- Subio PlatformはTSV形式のみ対応しており、CSVには対応していません
- 遺伝子IDやサンプル名は柔軟に対応可能ですが、解析や可視化の際の対応関係を明確にするため、使用するIDや命名ルールは統一しておくことを推奨します
これらが適切に対応していない場合、サンプルや遺伝子の対応関係がずれ、解析結果の解釈を誤る原因となることがあります。
AI(ChatGPTなど)を活用した解析
近年では、ChatGPTを用いてRやPythonのコードを生成し、解析を実行することも一般的になっています。
Subio Platformでデータを整理し、必要な部分だけコード生成することで:
- コードの量を最小限にできる
- エラーの修正が容易になる
- メンテナンスが簡単になる
大規模なパイプラインをAIで一度に構築するのはリスクがありますが、小さなプログラムを組み合わせて使うことで、現実的かつ効率的な運用が可能になります。
次のステップ
RNA-Seqデータ解析の全体の流れについては、以下のチュートリアルをご覧ください:
Subio PlatformとR / Pythonを組み合わせた解析を、実際のデータを使ってステップごとに進めることができます。