GEO RNA-Seqデータ解析の準備|Gene Count・遺伝子アノテーション・サンプル情報の取得と統合

GEO(Gene Expression Omnibus) には、多くのRNA-Seqデータが公開されています。
これらのデータセットの中には、FASTQファイルだけでなく、すぐに解析に使えるGene Countデータが
Supplementary Fileとして提供されているものがあります。

GEO-calculated Gene Countデータを取得する場合は、以下のURLを利用できます。
[GSE_accession_number] を対象のGSE番号に置き換えてください:
https://www.ncbi.nlm.nih.gov/geo/download/?acc=[GSE_accession_number]

ただし、RNA-Seqデータ解析を始めるには、Gene Countデータだけでは不十分です。
遺伝子アノテーション、サンプル情報などを整理し、
発現データと対応づけておく必要があります。

この動画では、GEOからRNA-SeqのGene Countデータを取得し、
遺伝子アノテーション、実験パラメーターを含むサンプル情報と統合して、
Subio Platformで解析を始める準備を整える流れを紹介します。
Gene Countテーブルが取得できれば、FASTQファイルの前処理を行わなくても、
正規化、フィルタリング、PCA、発現差解析などの下流解析へ進むことができます。

GEOのRNA-Seqデータを解析する準備:Gene Countデータとサンプル情報の統合

上のムービーは、日本語字幕を表示できます。

Gene Countデータの2つの取得方法:Supplementary File版とGEO-calculated版

このページでは、Supplementary File版とGEO-calculated版という
2種類のGene Countデータを対象に、取得方法と、
Subio Platformで解析に使える形に整える手順を紹介しています。

サンプル名(Sample_title)を実験パラメーターとして使える場合は、
この動画で扱っています。
Sample_characteristics_ch1から実験パラメーターを抽出する場合は、
こちらの記事も併せてご覧ください。

Supplementary File版のメリットとデメリット

GEOに登録されているRNA-Seqデータでは、Supplementary Fileとして
Gene Countのテキストファイルが提供されていることが多くあります。

Supplementary File版は論文の解析結果と対応しやすいという利点がありますが、
FASTQファイルの処理方法は研究ごとに異なるため、
異なるSeries間での統合解析には適さない場合があります。

Supplementary File版では、遺伝子IDにEnsembl Gene IDが使われていることが多いです。
その場合は、Ensembl Gene IDに対応した遺伝子アノテーションが
Subio Platformにプリインストールされているため、
アノテーションを別途取得する必要がなく、スムーズに解析を始められます。

また、Ensembl Gene IDを使ったデータセット同士であれば、
遺伝子単位で解析結果を比較しやすい場合があります。
ただし、異なるSeries間では実験条件や前処理方法が異なるため、
そのまま統合解析に利用できるとは限りません。

Supplementary File版で注意が必要なのは、Gene Countテーブル内のサンプル名と、
GEOに登録されているSample Titleが一致しないことがある点です。
そのような場合は、Gene Countテーブルのサンプル列とGEOのサンプル情報を対応づける作業が必要です。

GEO-calculated版のメリットとデメリット

Supplementary Fileが用意されていない場合でも、
GEOが標準化された方法で計算したGene Countデータが提供されていることがあります。
その場合は、以下のリンクから取得できます:
https://www.ncbi.nlm.nih.gov/geo/download/?acc=[GSE_accession_number]

GEOが提供する標準化されたGene Countデータを利用することで、
GEOに登録されている複数のデータセットを同じ条件で扱いやすくなり、
統合的な再解析を検討しやすくなります。

ただし、実際に統合解析に利用できるかどうかは、
データの分布やバッチ効果などを確認して判断する必要があります。

なお、GEO-calculated版のGene Countデータでは、NCBI Gene IDが使われています。
そのため、この動画ではNCBI Gene IDに対応した遺伝子アノテーションを取得し、
Gene Countデータと統合する手順も紹介しています。

一方で、多くのRNA-SeqデータではEnsembl Gene IDが使われています。
そのため、Ensembl Gene IDを使ったデータセットの解析結果と比較したい場合は、
IDの変換が必要になります。

次のステップ

GEOからGene Countデータを取得したことで、RNA-Seqデータ解析を始める準備が整いました。

続きは、以下のチュートリアルで解説しています。
データのインポートが終わったところなので、「2. Seriesの作成と設定」に進んでください:

RNA-Seqデータ解析チュートリアル

関連ページ

Gene Countデータが利用できない場合や、特殊な手法で計算したい場合などは、
FASTQファイルから解析を始める必要があります。
その場合は、以下の記事をご覧ください。
.fastq.gz ファイルを Gene Expression Omnibus (GEO) から入手する方法