P値は、生物学にとってそれほど重要ではない

  • Gene Expression
  • Microarray
  • High-Throughput Sequencing

経験の浅い人ほどP値を過信する傾向がありますが、P値を上手に使うためにはバランスの取れた視点が必要です。P値は物差しの一つでしかありません。

まず、P値とは何かを正確に知るべきです。統計学的有意であることと、生物学的有意であることの間には、なんの関係もありません。下記のStatementをよくご覧ください。

AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES

1. P-values can indicate how incompatible the data are with a specified statistical model.
2. P-values do not measure the probability that the studied hypothesis is true, or the
probability that the data were produced by random chance alone.
3. Scientific conclusions and business or policy decisions should not be based only on
whether a p-value passes a specific threshold.
4. Proper inference requires full reporting and transparency.
5. A p-value, or statistical significance, does not measure the size of an effect or the
importance of a result.
6. By itself, a p-value does not provide a good measure of evidence regarding a model or
hypothesis.

次に、マイクロアレイやRNA-Seqのデータから発現差のある遺伝子リストを作るのには、P値だけよりも、Fold値と弱いP値を組み合わせて使うほうが優れているということが、大規模な研究から既に分かっています。

Investigating the concordance of Gene Ontology terms reveals the intra- and inter-platform reproducibility of enrichment analysis

Handbook of Statistical Bioinformatics; 9.4.7 The Rat Toxicogenomics Study; A Valication of Reproducibility of Microarray Results. page 188.

Most of the previous studies questioning the reproducibility and reliability of microarrays for gene expression analysis are based on the statistical significance (P value) alone instead of the actual measured quantity of differential expression (fold change or ratio) for selecting DEGs. The reliance on only P value to create DEGs lists has resulted in the apparent irreproducibility between test sites and between microarray platforms. Our results from analyzing data sets from the MAQC human reference RNA samples and the rat toxicogenomics study samples indicate that a straightforward approach of fold change ranking combined with a non-stringent P value cutfoff can successfully generate reliable DEG lists. Furthermore, compared to P value ranking, this joint method can minimize the impact of normalization methods on the reproducibility of DEGs lists. That is, the DEG list from P value ranking based gene selection methods is more susceptible to the choice or normalization methods. We recommend a straightforward approach of fold change ranking combined with a non-stringent P value cutoff as a baseline practice for microarray data analysis to reproducible lists of DEGs. The fold change criterion ensures the reproducibility of DEGs and the P value criterion controls false positives.

自然科学として大事なのは、第三者により再現可能な結果を出すことです。値の小さなP値の濫用は、over-fittingの問題を引き起こすということに注意が必要です。

3つ目に、論文全体の論理構造を考えてみると、遺伝子のP値は多くの場合重要ではありません。そもそもオミクスは発見の段階でつかわれるのがほとんどで、この段階では偽陽性よりも偽陰性を減らすことに注意を払うべきです。そこから生まれた数々の仮説を検証する段階で、例えば、RT-PCRなどで検証するでしょう。そしてそれは別の手法によってそのような発現パターンを証明しているのであり、それは同じ測定方法のサンプルを追加するよりも強い証拠になります。そして、最終的に開発の前の段階で、P値で偽陽性を抑制することが重要になるのです。

そして最後に、一般的な生物学的モデルから考えて、P値が極めて低い(有意)なものは生物学的に重要でない可能性が高いです。むしろ、P値が極端に低くない遺伝子こそ、生物学的に重要な遺伝子が集まっている可能性が高いと言えます。P値が極端に小さい遺伝子は、パスウェイの下流の遺伝子で、診断や予測の目的には非常に有用ですが、原因遺伝子ではない可能性が高いと考えられます。