GEOのSOFTファイルに含まれる "Sample_characteristics_ch1" フィールドからすべてのパラメータを取得する

Subio PlatformでSOFT形式のfamilyファイルから実験データをインポートすると、サンプルのメタデータは自動的にSample Informationに取り込まれます。

GEOのデータでは、実験パラメータは Sample_characteristics_ch1 フィールドに格納されていることが多く、複数のパラメータが「///」で連結された形式になっています。

Import Samplesウィザードを使用した場合、このフィールドに含まれるすべてのパラメータが正しく取り込まれます。

しかし、現行バージョンのSubio Platformでは、Edit Parameters または Edit Sample Information の Look Up機能を使用すると、Sample_characteristics_ch1 フィールドの最後のパラメータのみが取り込まれ、それ以外は失われてしまいます。

これは現行バージョンにおける既知の問題です。
本記事では、この問題に対する実用的な対処方法を紹介します。

ChatGPTとPythonを用いたパラメータ抽出

この問題に対応するために、ChatGPTで生成したPythonコードをJupyterLab上で実行し、すべての実験パラメータを抽出する方法を紹介します。

この方法により、以下が可能になります:

  • Characteristicsフィールドからすべてのパラメータを抽出する
  • 構造化されたテーブル形式に変換する
  • Subio Platformにインポートして解析に利用する

重要なポイント

この制限により、Look Up機能を使用した場合、Sample_characteristics_ch1 フィールドに含まれる本来の実験パラメータは完全には保持されません。

GEOサンプルのCharacteristicsフィールドについて

GEOのサンプルデータでは、実験パラメータは通常、Characteristicsフィールドにキーと値のペアとして格納されています。

これらのパラメータをすべてのサンプルからまとめて取得するには、コーディングなしでは難しい場合があります。

この動画では、以下の手順を紹介します:

  • ChatGPTを用いてPythonコードを生成する
  • JupyterLabでコードを実行する
  • GEOサンプルからパラメータを抽出する
  • 結果をSubio Platformにインポートする

GEOのサンプルのCharacteristicsフィールドの実験パラメータを取得する

上のムービーは、日本語字幕を表示できます。

次のステップ

RNA-Seqデータ解析の全体チュートリアルはこちらをご覧ください:
RNA-Seqデータ解析チュートリアル

データとパラメータの準備ができたら、このチュートリアルを参考に、その後の解析や解釈を進めることができます。