たとえば、授業や講習会でRNA-Seqやマイクロアレイのデータ解析を学ぶとします。ほとんどの場合、解析必要なツールやデータを揃えてセットアップしたり、生データを処理するところから始まります。そこからデータ処理をして、統計解析、生物学的解釈と進んでいくでしょう。いちばん大事なのは最後の生物学的解釈のところなのですが、ここにはあまり時間が割かれません。その前のたいして重要でもないところに多くの時間が費やされます。たくさんの情報を詰め込まれて、心地いい疲労感の中で何かを得たような気分がするのもその時だけです。いざ自分のデータを解析してみようとすると、教えてもらっていない様々なエラーに遭遇し、ちっとも解析が進まないことに気づくのです。これって、ものすごい時間の無駄だと思いませんか?
そこで、私たちは次のように考えてみることをお勧めします。
オミクスデータ解析の 難しさには、二つの側面があります。
- データから生物学的意味を引き出すことの難しさ
- データ処理や、プログラムを実行させるの難しさ
前者は避けようのない本質的な難しさです。データをどのように扱えば生物学的な答えを引き出せるのかは、世界中の誰にもわかりません。これは揺るがない前提条件です。とうことは、生命科学研究者の集中力と時間はできるだけこの問題に充てるべきで、それ以外に割かれるべきではありません。
一方、後者は、もしあなたが難しいと感じるのなら避けていいところです。なぜなら、ツールが使える人がデータから生物学的意味を引き出せるわけではありません。むしろ、そのツールの前提条件と限界をきちんと理解し、そのツールが出した解析結果によって生物学的解釈を誤らせないようにするのが、バイオインフォマティクスの本質です。そうであれば、操作の習得を捨てる代わりに、負担軽減した分を動作原理の理解に集中するのです。実際の操作は、他の誰かにやってもらって構わないのですから。
ここで、いったん視点を変えます。 一般に、あるシステムによって観測されたデータの解析過程は、二つのパートに分けられます。
- 測定技術に依存する部分
- 測定技術に依存しない部分
依存する部分のスキルは、技術の進歩とともに変わっていくので、比較的短期間で使えなくなります。これに対し、依存しない部分のスキルは、測定対象が変わらない限りずっと使えるものです。 したがって学習の順序は、後者を優先するのが合理的です。
上記の二つの結論を合わせてみましょう。「生物学的な難しさ」の多くは「測定システムに依存しない部分」と被っていることにお気づきでしょう。もしすべてを一人でできない のであれば、何を優先して学ぶべきかお分かりでしょう。
私たちは、初心者の方にはまずSubio Platformの各Viewerを使いこなして、データを理解し、それを生物学的に正しく解釈できるようになることを目指すようお勧めしています。 最初からすべてを自分でやろうとせず、安価なデータ解析サービスを利用することで、あまり重要でないところに時間を浪費するのを避けることが、効率的にデータ解析を学ぶ近道なのです。