
Subio Platformでは、データの可視化や前処理を直感的に行うことができます。
一方で、RやPythonを用いることで、より高度な統計解析やカスタム解析を実行することが可能です。
これらを組み合わせることで、「理解しながら解析する」ワークフローを実現できます。
本ページでは、Subio PlatformとR / Pythonを連携させるためのデータ形式と、実際の解析の流れについて解説します。
なぜSubioとR / Pythonを連携するのか
Subio Platformは、データの可視化と解析結果の蓄積・再利用に強みがあります。
一方で、RやPythonは、さまざまな高度な統計処理に適しています。
この2つを組み合わせることで:
- データの状態を可視化しながら確認できる
- 統計解析を柔軟に実行できる
- 結果を再び可視化して解釈できる
- 解析結果を蓄積し、いつでも呼び出して再解析できる
解析手法の柔軟な選択と、解析結果の資産化が可能になります。
Subio Platformからエクスポートできるデータ
Subio Platformからは、以下のようなデータをエクスポートし、R / Pythonで利用することができます。
| データ | 形式 | 主な用途 |
|---|---|---|
| Gene Count / TPM / FPKM(生データまたは前処理後) | TSV | 発現差解析(DESeq2 / edgeR)、PCA・UMAP、クラスタリング、機械学習による分類・予測など |
| サンプル情報(グループ・条件など) | TSV | 発現差解析のグループ設定、分類・ラベル付け(教師付き機械学習など)、バッチ情報の管理 |
| アノテーション付き遺伝子リスト | TSV | エンリッチメント解析、ネットワーク解析 |
| 値付きゲノム領域リスト(ChIP-Seq、メチル化、CNVなど) | BED | ゲノム位置に基づく解析、マルチオミクス統合解析 |
これらのデータは、RやPythonでそのまま読み込むことができます。
Subio Platformにインポートできるデータ
RやPythonで解析した結果は、Subio Platformに取り込み、可視化・解釈することができます。
たとえば、以下のようなデータをインポートできます:
-
統計モデルを用いた発現差解析結果(P値、FDR など)
Measurement Listとしてインポートすることで、発現差のある遺伝子を可視化したり、ベン図で条件間の共通・特異的な遺伝子を比較したりできます。 -
正規化・補正済みデータ
別のサンプルとしてインポートすることで、元データとの比較や補正手法どうしの違いを可視化して検証 -
クラスタリングや機械学習による分類・特徴づけ
サンプル属性情報として取り込み、可視化・比較・検証、生存曲線分析などに利用 -
ゲノム領域とそれに付加された数値
ゲノムブラウザー上で棒グラフやヒートマップとして可視化し、遺伝子発現との対応関係や相関の解析に利用 -
高度な解析で得られる成分情報
PCAのloadings、NMF・ICAなどで得られる成分ベクトルを取り込み、 サンプルや遺伝子の特徴をSubio Platform上で可視化・確認できます。
※ PCAやNMFなどの線形手法では、これらの係数を用いてサンプルのスコア(位置)を計算できます。
※ UMAPやt-SNEなどの非線形手法では同様の係数は定義されませんが、サンプルの座標として可視化に利用できます。
これらのデータを取り込むことで、解析結果をさまざまな視点から可視化し、解釈することができます。
よくある注意点
RやPythonとの連携では、以下の点に注意が必要です:
- Subio Platformで表形式データを扱う場合は、TSV形式を使用します。CSV形式のファイルは、必要に応じてTSV形式に変換してから利用してください。
- 遺伝子IDやサンプル名は柔軟に対応可能ですが、解析や可視化の際の対応関係を明確にするため、使用するIDや命名ルールは統一しておくことを推奨します
これらが適切に対応していない場合、サンプルや遺伝子の対応関係がずれ、解析結果の解釈を誤る原因となることがあります。
AI(ChatGPTなど)を活用した解析
近年では、ChatGPTなどを使ってRやPythonのコードを作成し、 必要な解析を補助する使い方も広がっています。
Subio Platformでデータを整理し、必要な部分だけR/Pythonコードを作成することで:
- コードの量を最小限にできる
- エラーの原因を確認しやすくなる
- 解析手順を小さく分けて管理しやすくなる
大規模な解析パイプラインをAIで一度に構築するのはリスクがあります。 一方で、小さな処理を組み合わせて使うことで、 現実的かつ効率的な運用が可能になります。
最終的には解析者が確認する
生成AIを使ってR/Pythonスクリプトを作成することはできますが、 「その結果が妥当かどうか」を判断できるのは解析者です。
Subio Platformは、データをローカルで管理しながら、 RやPythonとの連携を含めた解析をローカル環境で進めることができます。 その上で、AIの出力結果を自分の目で検証できる環境を提供します。
【準備】Subioで全体像を把握し、解析用データを出力
【計算】AIで生成したコードをR/Pythonで実行
【解釈】結果をSubioに戻し、視覚的に検証して解釈
実際の操作は、以下の記事で具体的に解説しています。
- Subio PlatformとRを連携する(ChatGPTでコード生成し、edgeRやDESeq2を実行する)
- Subio PlatformとPythonを連携する(ChatGPTでコード生成し、Jupyterで実行する)
次のステップ
Subio Platformを使えば、RやPythonで得られた解析結果を、 再び可視化・比較・管理できる形で蓄積できます。 まずは無料版をダウンロードし、実際のデータで操作を確認してみてください。
RNA-Seqデータ解析チュートリアル では、 Gene Countsの取り込み、正規化、フィルタリング、PCA、クラスタリング、 発現差解析、enrichment analysisまでを、 各ステップでデータの状態を確認しながら進めます。
また、DESeq2やedgeRを使った発現差解析についても、 ChatGPTでRスクリプトを作成し、 Subio Platformで結果を可視化・確認する流れとして紹介しています。
手作業でデータを確認する経験は、RNA-Seqデータの性質や解析手法のクセを理解し、 その後の自動化戦略を考えるための土台になります。 この視点は、実験研究者だけでなく、 解析パイプラインやシステム設計を行うバイオインフォマティシャンにとっても有用です。