Subio PlatformでSOFT形式のfamilyファイルから実験データをインポートすると、サンプルのメタデータは自動的にSample Informationに取り込まれます。
GEOのデータでは、実験パラメータは Sample_characteristics_ch1 フィールドに格納されていることが多く、複数のパラメータが「///」で連結された形式になっています。
Import Samplesウィザードを使用した場合、このフィールドに含まれるすべてのパラメータが正しく取り込まれます。
しかし、現行バージョンのSubio Platformでは、Edit Parameters または Edit Sample Information の Look Up機能を使用すると、Sample_characteristics_ch1 フィールドの最後のパラメータのみが取り込まれ、それ以外は失われてしまいます。
これは現行バージョンにおける既知の問題です。
本記事では、この問題に対する実用的な対処方法を紹介します。
ChatGPTとPythonを用いたパラメータ抽出
この問題に対応するために、ChatGPTで生成したPythonコードをJupyterLab上で実行し、すべての実験パラメータを抽出する方法を紹介します。
この方法により、以下が可能になります:
- Characteristicsフィールドからすべてのパラメータを抽出する
- 構造化されたテーブル形式に変換する
- Subio Platformにインポートして解析に利用する
重要なポイント
この制限により、Look Up機能を使用した場合、Sample_characteristics_ch1 フィールドに含まれる本来の実験パラメータは完全には保持されません。
GEOサンプルのCharacteristicsフィールドについて
GEOのサンプルデータでは、実験パラメータは通常、Characteristicsフィールドにキーと値のペアとして格納されています。
これらのパラメータをすべてのサンプルからまとめて取得するには、コーディングなしでは難しい場合があります。
この動画では、以下の手順を紹介します:
- ChatGPTを用いてPythonコードを生成する
- JupyterLabでコードを実行する
- GEOサンプルからパラメータを抽出する
- 結果をSubio Platformにインポートする
次のステップ
RNA-Seqデータ解析の全体チュートリアルはこちらをご覧ください:
→ RNA-Seqデータ解析チュートリアル
データとパラメータの準備ができたら、このチュートリアルを参考に、その後の解析や解釈を進めることができます。