多くの人が気づいていないようなのですが、正規化と前処理はデータ解析において最も重要な部分です。複雑なデータに隠れた知識を読み出せるようにするステップだからです。
次の項目はデータの特徴に大きな影響を与えます。
- 測定装置・試薬キット・研究所・実験日
- RNA-Seqの場合、総リード数・RNAのインプット量・品質
- 細胞や組織の種類・細胞の選別の有無
- 生検か保存試料か培養細胞か
- 成育条件・感染やコンタミ
- 数値化処理の手法
このため、オミクスデータの品質や特徴はデータセットによって様々で、この過程を標準化したり自動化したりすることは難しいのが現実です。その都度解析者判が断する必要があるからです。
Subio Platform は、一つ一つの処理がデータにどのように作用したかを見て確認することができるように設計されています。ユーザーは、設定を少しずつ変えてみるなどの調整ができます。その試行錯誤によりデータに対する理解が一層深まり、それがこの後の解析手順の選択や、解析結果の解釈にとても重要なのです。データの特徴を理解しないまま自動処理で解析を済ませてしまうと、誤った結論や解釈を導き出しかねないのです。
正規化と前処理の適切なやり方を見つける。
Subio Platformでは、下記のプリセットのシナリオを用意しています。データに合わせて選択し、それをベースにデータの特徴に合わせて調整していくと簡単にできます。
- Expression Microarray
- RNA-Seq (Count)
- RNA-Seq (FPKM, TPM, RPKM)
- Methylation Beta Values
- Pre-normalized Log2 Data - すでに正規化・対数比化までの処理が終わっている場合に選択します。
- Nothing - なにもしない状態に戻すときに使います。
ただ、解析の経験がないと適切な処理ができているかどうか判断するのが難しいかもしれません。 オンライントレーニング では、あなたが解析したいデータでインポート・正規化・解析までひととおり学んでいただけます。