Subio PlatformでFASTQ処理に時間がかかる場合は?Salmon / kallistoを使う選択肢

Subio Platformでは、FASTP、HISAT2、StringTieを用いて、 FASTQファイルからGene CountsやTPMを計算し、 そのままSubio Platformに取り込んで解析を進めることができます。

この流れを使うには、あらかじめFASTP、HISAT2、StringTieを実行できる環境を設定しておく必要があります。 WindowsではWSLを介してLinux用プログラムを実行できるようにし、 macOSではAnacondaなどを使って必要なツールをインストールします。 設定方法と実行手順は、別ページで詳しく説明しています。

一度この環境を設定しておけば、 Subio PlatformからFASTQファイル処理を実行し、 Gene CountsやTPMの作成からデータインポートまでを進めることができます。 以降は、基本的にはFASTQファイルを選択するだけで実行できるため、 少数のサンプルであればこの流れが簡単で手間がかかりません。

一方で、サンプル数が多い場合には、処理時間が問題になります。 FASTP、HISAT2、StringTieを使う流れではread mappingを含むため、 PCの性能やFASTQファイルのサイズによっては、 1サンプルあたり数時間かかることがあります。

たとえば1サンプルあたり5〜6時間かかる環境では、 24時間連続で処理しても4〜5サンプル程度です。 数サンプルであれば大きな問題にならなくても、 数十サンプル以上のFASTQファイルを処理する場合には、 Salmonやkallistoなどの高速なquantificationツールを使い、 Gene Counts相当のテーブルを作成してからSubio Platformに取り込む方法を検討する価値があります。

大量のFASTQファイルを処理するなら、ローカル環境が現実的

ローカル環境で実行する場合には、 Jupyter Notebookなどを使うと、 コマンドやメモを一つのノートブックにまとめながら進めることができます。 どのサンプルにどのコマンドを実行したか、 どの参照データを使ったか、 どの出力ファイルを作成したかを記録しやすいです。

ただし、ローカルPCでFASTQファイルを処理するには、 ある程度の計算環境が必要です。 目安としては、少なくとも16 GB程度のRAMと、 FASTQファイル、indexファイル、出力結果を保存できる十分なディスク空き容量を用意しておく必要があります。

細かい手順はAIに自分の環境を伝えながら確認する

Salmonやkallistoの具体的な使い方は、 OS、PCの環境、single-end / paired-endの違い、 参照データ、FASTQファイル名、出力形式によって変わります。

そのため、すべての環境に対応した手順を一つの記事で固定的に説明するよりも、 自分の環境をAIに伝えながら、 インストール、index作成、各サンプルの実行、 結果ファイルのまとめ方を確認していく方が実用的です。

全体の流れとしては、Salmonやkallistoで先に発現量を定量し、 その出力結果をRのtximportなどを使って、 遺伝子ごとのGene Counts相当のテーブルにまとめます。 その後、そのテーブルをSubio Platformに取り込み、 通常の発現量データと同じように可視化や解析を進めます。

AIへの質問例:

paired-endのRNA-Seq FASTQファイルがあります。
Windows PC上のJupyter NotebookでSalmonを使って発現量を定量し、
Rのtximportなどを使って、Subio Platformに取り込める
gene-levelのcounts tableを作りたいです。
conda環境の作成、Salmonのインストール、transcriptome indexの準備、
多数のFASTQファイルをまとめて実行する方法、
tximportによるgene-level counts tableの作成方法を、
初心者向けに順番に教えてください。

このように質問すると、 AIは現在の環境に合わせて手順を整理してくれます。 途中でエラーが出た場合にも、 エラーメッセージをそのままAIに示すことで、 原因の切り分けや修正方法を相談できます。

まとめ

どの方法でFASTQファイルを処理しても、 最終的に重要なのは、作成した発現量テーブルをどう確認し、どう解釈するかです。 Subio Platformで発現量データを可視化しながら確認し、 正規化、PCA、クラスタリング、発現差解析、 GO解析・Pathway解析へ進めてください。

Choosing The Right Grinding Method