最近、Simply Statistics という統計・データ解析に関するブログに出会い、いくつかの記事を読みました。 印象に残ったのは、 統計手法そのものよりも、データ解析をどのように考えるかという姿勢でした。
私は、統計学やデータ解析を、体系的に統計学として学んできたわけではありません。 最初にあったのは、生物学的な問題でした。 遺伝子発現データをどう見ればよいのか。 サンプル間の違いは本当に生物学的な違いなのか。 抽出された遺伝子リストをどこまで信じてよいのか。 そうした問題に対応するために、解析ツールや手法を試しながら経験を積んできました。
そのため、解析理論そのものや、手法の優劣だけを議論している文章を読んでも、 正直なところ、そこだけを切り出した議論には、あまり強い関心を持てません。 重要なのは、その手法が理論的にどれほど美しいかではなく、 目の前の生物学的な問題を理解するうえで、何が見えるようになり、 何を見落としやすくなるのかだと感じてきたからです。
一方で、統計学やデータサイエンスを専門にする人たちにとっては、 個々の生物学的な背景そのものが、必ずしも中心的な関心ではないのかもしれません。 統計学の側から見ると重要なのは、 データからどのように情報を取り出すか、 どのような推論が妥当なのか、 どのような可視化や解析が誤解を生みやすいのか、 という問題なのだと思います。
では、統計学の側からデータを見る人と、 生物学の側からデータ解析に入った人の間にある距離は、 どのように埋めればよいのでしょうか。 Simply Statisticsの記事を読んで考えたのは、 その鍵は、問いの立て方、データの見方、結果の確かめ方を共有することではないか、ということです。
きれいな図は、必ずしもよい解析を意味しない
Simply Statisticsの記事の中で、特に印象的だったものの一つが、 UMAPプロットに関する記事です。
UMAPは、single-cell RNA-Seqなどの高次元データを可視化するうえで非常に便利な手法です。 しかし、2次元上にきれいなクラスターが見えたからといって、 その距離や形をそのまま生物学的な実体として解釈してよいとは限りません。
これは、RNA-Seq解析全般にも通じる問題です。 PCAでサンプルが分かれた、クラスタリングで群が分かれた、 ヒートマップできれいなパターンが見えた。 こうした図は、解析の出発点としては有用ですが、 それだけで結論を出すことはできません。
重要なのは、その図が何を表しているのかを理解することです。 正規化やフィルタリングの影響はないのか。 低Count領域のばらつきやバッチ効果が、見えている構造に関係していないか。 図を作ることではなく、図を読めることが重要です。 この意味で、UMAPやt-SNEなどの手法を使えば、 複雑なデータを理解できたことになるかのような風潮には違和感を覚えます。
解析の失敗は、データを理解する入口になる
別の記事では、データ解析における失敗について考察されています。 ここでいう失敗とは、単にコードが動かないことではありません。 期待していた結果と違う結果が出たとき、 それはデータ、解析方法、あるいは研究上の理解のどこかに、 まだ十分に理解できていない部分があることを示しています。
実務でRNA-Seqデータを扱っていると、 このような状況はよく起こります。 同じ条件のサンプルがPCAで離れて見える。 edgeRとDESeq2とt検定で抽出される遺伝子が大きく違う。 GO解析の結果が、期待していた生物学的解釈と合わない。
このとき大切なのは、すぐに「どの手法が正しいか」を決めようとすることではありません。 なぜその結果になったのかを確認することです。 データ分布、サンプル間の関係、低発現遺伝子の挙動、外れサンプル、バッチ効果、 正規化後の見え方を確認することで、 解析結果の意味が少しずつ見えてきます。
期待通りの結果が出ないことは、失敗のように感じられます。 しかし、その違和感こそが、次に確認すべきポイントを教えてくれることがあります。 うまくいかなかった解析を単に捨てるのではなく、 なぜそう見えたのかを考えることが、データを理解する入口になります。
再現性は、生データを残すだけでは保てない
再現性に関する記事も印象的でした。 GEOなどの公共データベースは、 生データを保存し、公開することで、 科学的な再現性を支えるという考え方に基づいています。 この考え方は非常に重要です。 元データが残っていなければ、後から別の視点で再解析することはできません。
しかし、実務で古いGEOデータや過去のマイクロアレイデータを扱っていると、 生データが公開されていることと、 その解析を現実的に再確認できることは同じではないと感じます。
FASTQファイルやCELファイルが残っていても、 それを処理するツールや実行環境は、時間とともに失われていきます。 アカデミアでは一般に、ツールの開発にはインセンティブがあっても、 長期的な保守にはインセンティブが少なく、費用の捻出も難しいのが現実です。 さらに、当時の前処理、フィルタリング、解釈の判断が分からなければ、 論文で示された結果の意味を再現することは簡単ではありません。
生データから解析をやり直すことは可能でも、 必要な作業量が大きすぎると、実際にはほとんど誰もそこまで確認しません。 再現性を担保する仕組みが形式的にはあっても、 現実的な時間とコストの範囲で確認できなければ、 実質的には機能しにくくなります。
その意味で、実務上重要なのは、 厳密な意味で同じ解析を完全に再現できることだけではありません。 現実的な時間とコストの範囲で、 必要なレベルの確認ができることです。 どのデータを使い、どのように前処理し、どの条件で可視化し、 どのような判断を行ったのかを、後から追える形で残しておくことが重要です。
私たちは、この考え方に基づいてSSAファイルの仕組みを設計しました。 解析結果だけでなく、 データ、可視化、解析条件、解釈の過程を確認しやすい形で残すことで、 必要なレベルの再確認と再解釈ができる状態を目指しています。
よい解析は、よい問いを作るところから始まる
John Tukeyに関する記事では、 データ解析の目的は、最初から正しい答えを出すことではなく、 よりよい問いを作っていくことだという考え方が紹介されています。
これは、RNA-Seqやマイクロアレイなどのオミクスデータ解析でも、 非常に重要な考え方です。 RNA-Seqデータを前にして、最初から明確な問いを持てるとは限りません。 どのサンプルを比較すべきか。 どの遺伝子群に注目すべきか。 発現差解析をすべきなのか、まずデータ品質を確認すべきなのか。 GO解析の結果をどう解釈すべきか。
データを見ながら、問いそのものを修正していく必要があります。 最初の問いがあいまいでも、 PCA、クラスタリング、ヒートマップ、遺伝子リスト、発現パターンを確認することで、 次に見るべきポイントが少しずつ明確になります。
データ解析は、最初に決めた手順を最後まで実行する作業ではありません。 データを見て、問いを少し変え、 もう一度見て、解釈を修正し、 必要であれば別の方法で確認する。 そのような往復の中で、ようやく生物学的な意味が見えてきます。
統計学と生物学のあいだを埋めるもの
統計学の側からデータを見る人と、 生物学の側からデータ解析に入った人では、 同じデータを見ていても、関心の置き方が違います。
統計学の側では、 推論の妥当性、モデルの前提、可視化の限界、再現性、誤解されやすい解析手法などが重要になります。 一方、生物学の側では、 その違いがどの細胞、どの組織、どの経路、どの現象に関係しているのかが重要になります。
その間を埋めるためには、 統計学者が生物学者の言葉をすべて覚えることでも、 生物学者が統計理論をすべて理解することでもなく、 問いの立て方、データの見方、結果の確かめ方を共有することが必要なのだと思います。
現状では、データ解析について語られるとき、 統計モデルや手法の妥当性に関する議論は、 ウェブ上にも出版物にも数えきれないほどあります。 一方で、その結果が生物学的な問いにどうつながるのか、 研究者がどこで迷い、何を確認しながら解釈に進むのかについては、 十分に語られていないように感じます。 このギャップが、これからデータ解析を学ぶ人に、 「データ解析とは手法を選び、正しく適用することだ」 という偏った印象を与えてしまっているのではないでしょうか。
この不足している部分を埋めるには、 統計学の言葉だけでも、生物学の言葉だけでも足りません。 データを見ながら、 「この違いは何を意味するのか」 「この結果はどこまで信頼できるのか」 「次に何を確認すべきなのか」 を一緒に考えられる接点が必要なのだと思います。
解析結果を出すことから、解析結果を読めることへ
Subio Platformでも、解析結果をそのまま受け取るのではなく、 データを見ながら理解することを重視しています。
RNA-Seqやマイクロアレイのデータでは、 正規化、フィルタリング、PCA、クラスタリング、発現差解析、GO解析、Pathway解析など、 多くのステップがあります。 それぞれのステップで、データの見え方は変わります。
そのため、解析ソフトウェアに求められるのは、 単に計算結果を出すことだけではありません。 データ分布、サンプル間の関係、遺伝子クラスター、発現パターン、 解析条件を変えたときの結果の変化を確認しながら、 自分で判断できる環境が必要です。
Simply Statisticsを読んで改めて感じたのは、 データ解析において本当に重要なのは、 「どの手法を使ったか」だけではなく、 「その結果をどのように確認し、どのように説明できるか」だということです。
統計学と生物学のあいだにある距離は、 一方がもう一方に完全に合わせることで埋まるものではないと思います。 大切なのは、同じデータを見ながら、 問いを立て、結果を確認し、解釈を共有していくことです。
Simply Statisticsは、そのようなデータ解析の考え方を学ぶうえで、 非常に参考になるサイトだと感じました。 統計学を専門にしていない立場からでも、 データ解析を「手法を適用する作業」ではなく、 データを見て、問いを立て、結果を確かめるプロセスとして考え直すきっかけになります。
