はじめに
このページでは、プロモーターのメチル化と遺伝子発現の関係について、TCGAのデータをもとに実際に視覚化しながら見ていきます。
一般的に、プロモーターがメチル化されると遺伝子発現は抑制されると考えられています。
では、その関係はどの程度成り立っているのでしょうか。
実際にデータを見てみると、単純な説明では捉えきれない点がいくつも見えてきます。
では、実際にデータを見てみましょう。
Subio Platformを使うと、TCGAのRNA-SeqデータとDNAメチル化アレイデータを簡単にインポートし、並べて確認することができます。(インポートの操作については、「 TCGAのRNA-Seqデータをインポートする 」および「 TCGAのDNAメチル化データをインポートして解析する 」のチュートリアルをご覧ください。)
ここでは、TCGA-LIHC(Liver Hepatocellular Carcinoma)を例に、実際のデータを眺めながら、メチル化と遺伝子発現の関係を見ていきます。具体的には、RNA-Seqで測定されている各遺伝子について、その転写開始点(TSS)から4kbp以内に存在するメチル化サイトを対応づけています。
このDNAメチル化データは、Illumina社のInfinium HumanMethylation450 BeadChipによって測定されています。このアレイは、転写開始点(TSS)の上流200bpおよび1500bp以内や、CpGアイランド周辺に存在するメチル化サイトを重点的にカバーするよう設計されています。そのため、ゲノム全体のメチル化サイトが均等に測定されているわけではありません。
実際にTSS周辺のベータ値(beta value:メチル化の度合いを0〜1で表す指標)の分布をプロットしてみると、TSS近傍に点が集まっているように見えてきます(Fig. 1)。一見すると、TSS近傍にメチル化サイトが集中しているように見えますが、これはアレイ設計による影響であり、生物学的な特徴をそのまま反映しているとは限りません。
TCGA-LIHC メチル化データの概要
Fig. 1は、ベータ値のTSSプロットです。図を見てみると、CpGアイランドでは多くのサイトが脱メチル化状態にある一方で、TSS近傍では一部のサイトで高メチル化状態が見られます。
一方、CpGアイランド以外では全体として高メチル化状態が見られますが、TSSの周辺(およそ1〜1.5kbp以内)に限ると、脱メチル化しているサイトも多く見られます。

Fig. 2のTSSプロットでは、NormalとTumorにおけるベータ値の変化量を縦軸に取っています。縦軸の正の値はTumorでよりメチル化されたことを、負の値はTumorで脱メチル化されたことを示しています。
図を見てみると、CpGアイランドでは多くのサイトでベータ値の変化が小さく、メチル化レベルが比較的一定に保たれているように見えます。一方で、TSS近傍では一部のサイトでベータ値の変動が見られます。 その変動の多くは、メチル化が増加する方向に偏っているように見えます。
一方、CpGアイランド以外のサイトでは、CpGアイランドに比べてベータ値の変動が明らかに大きいように見えます。また、変化の方向は脱メチル化に強く偏っており、高メチル化の方向に変化しているサイトはTSS近傍のごく一部に限られるように見えます。
こうした違いを踏まえると、CpGアイランドとそれ以外の領域では、異なる制御機構が関与している可能性があるように思われます。

Fig. 3は、Normal(横軸)とTumor(縦軸)におけるベータ値の平均値を比較した散布図です。 図を見てみると、CpGアイランドでは、脱メチル化状態にあるサイトの一部で、Tumorにおいてメチル化が亢進しているように見えます。
一方、CpGアイランド以外のサイトでは、もともと高メチル化状態にあるサイトの中には、Tumorで脱メチル化の方向に変化しているものも少なくないように見えます。
このように、CpGアイランドとそれ以外の領域では、Tumorにおける変化の方向がおおよそ逆向きであることが、ここでも確認できます。

メチル化と発現パターンの相関
ここからが本題です。これまで見てきたメチル化状態の変化は、近傍遺伝子の発現量とどの程度関係しているのでしょうか。
Fig. 4は、メチル化の変動パターンと近傍遺伝子の発現変動パターンとの相関係数の分布を示したものです。
図を見てみると、ほとんどの組み合わせで相関係数は0付近に集中しており、両者の変動パターンには強い逆相関はほとんどないことが分かります。教科書的に「メチル化が発現を抑制する」と考えていると、強い逆相関がはっきりと現れることを期待してしまいますが、実際のデータからは、そのような単純な関係は成立していないことが分かります。
しかし、よく見てみると分布はわずかに左に偏っており、一部の組み合わせでは弱い逆相関が見られます。
ちなみに、RNA-Seqとメチル化アレイのサンプルの対応をランダムに入れ替えて同様の計算を行うと、この偏りは消失します(Negative control)。このことから、この弱い逆相関への偏りは偶然ではなく、統計的に意味のある偏りであると考えられます。
ここでは、逆相関を示す組み合わせとして、相関係数が-0.3以下のものを抽出しました。実際の解析では、この閾値は目的に応じて調整してください。

逆相関はどこで起きているのか
縦軸に相関係数をとったTSSプロット(Fig. 5)を見てみると、逆相関を示すサイトはTSSのごく近傍(300bp以内)に集中しており、TSSから離れるにつれてほとんど見られなくなります。
逆相関を示すサイトの数は、CpGアイランドに1,007個、CpGアイランド外に715個ありました。数だけを見るとCpGアイランドの方が多いように見えますが、もともとプローブ数に偏りがあるため、この差をそのまま比較することはできません。そこで、相関係数が-0.3を下回るサイトの割合を比較すると、CpGアイランドで1.4%、CpGアイランド外で1.3%となり、両者に大きな差は見られませんでした。

Fig. 6は、ゲノムブラウザー上に遺伝子とそのTSS周辺4kbpに存在するメチル化サイトを配置し、各サイトにおけるメチル化パターンと近傍遺伝子の発現パターンとの相関係数を棒グラフで示したものです。黒い棒はCpGアイランド、緑の棒はCpGアイランド外のサイトを表しています。
実際に見てみると、ほとんどの遺伝子のTSS周辺では相関係数は0に近い値にとどまっていますが、ときどき-0.2の目盛りを下回るサイトが見られます。
こうした逆相関を示すサイトは、CpGアイランドの領域内にとどまらず、その近傍にもごく狭い範囲で連続して見られることがあります。さらに、隣接するメチル化サイト同士で相関係数が似た値を示している点も興味深く見えます。
これらのことから、TSSから極めて近い距離にあるCpGアイランドとその近傍のメチル化サイトは、ばらばらに振る舞うというよりも、近傍遺伝子の発現との関係の強さや方向が類似しているように見えます。

CpGアイランドのメチル化状態と、近傍遺伝子の発現量の関係
ここまで個々のメチル化サイトについて見てきましたが、前述のとおり、TSS近傍では隣接するメチル化サイト同士で近傍遺伝子の発現との相関係数が類似していることから、CpGアイランド単位で平均化して扱うことにします。
そのために、まずCpGアイランドごとにベータ値の平均値を求め、TSSから500bp以内にCpGアイランドを持つTCGA-LIHCのRNA-Seqデータで発現量が測定されているタンパク質コーディング遺伝子と対応付けたところ、11,035対のペアが得られました。
メチル化と発現の関係は対称ではない
Fig. 9は、CpGアイランドの平均ベータ値(縦軸)と近傍遺伝子の発現量(横軸)との関係を散布図で示したものです。ここでは、例としてTCGA-2V-A95SとTCGA-ZS-A9CGの2サンプルを示しています。
散布図を見てみると、点の分布は三角形のような形をしています。この形から何が読み取れるでしょうか。「メチル化が遺伝子発現を抑制する」という有名な関係は確かに観察されますが、「脱メチル化が遺伝子発現を亢進する」という対称的な関係は成立していないことが見えてきます。
これらCpGアイランドの平均ベータ値を、全患者について俯瞰したのがFig. 10です。
図を見てみると、大部分の遺伝子のCpGアイランドは、すべての患者で脱メチル化状態に保たれていることが分かります。一方で、ごく一部では、CpGアイランドが全患者で高いメチル化レベルに保たれている遺伝子も見られます。これらは、分化の過程でサイレンシングされている遺伝子群である可能性もあります。ここでは詳しく扱いませんが、実際にどのような遺伝子が該当するのかを確認してみると、新たな気づきが得られるかもしれません。
これらを除いた約4,000個のCpGアイランドでは、平均ベータ値が患者間で変動しており、この変動が近傍遺伝子の発現量に影響している可能性があると考えられます。
Fig. 11は、CpGアイランドの平均ベータ値の変動パターンと近傍遺伝子の発現パターンとの相関係数の分布を示したものです。ピークは無相関を示す0付近にありますが、全体としては逆相関の方向に偏りが見られます。このことから、プロモーターのメチル化状態が近傍遺伝子の発現と関係していることが分かります。
さらに、Fig. 10で示されたように、プロモーターを脱メチル化状態に保たれているものと、メチル化状態が患者間で変動するものに分けて解析してみます。すると、脱メチル化状態に保たれているプロモーターでは近傍遺伝子の発現との間に明確な関係は見られませんでした。
一方で、メチル化状態が患者間で変動するプロモーターでは、近傍遺伝子の発現パターンとの相関係数が逆相関の方向に偏っていることが、より明確に見えてきます。
Fig 11で示された通り、たとえばB3GALT4のような強い逆相関を示す遺伝子(Fig 12の左)はごく少数に限られます。それよりも、たとえばNPNTのように点の集まりが三角形になる遺伝子が多く見られます。(Fig 12 の右)
このことから、プロモーターのメチル化度の上昇が近傍遺伝子の発現を抑制するという関係は広く見られる一方で、メチル化度の低下が発現量の増加につながる関係はごく限られていることが推察されます。この非対称的な関係が、弱い逆相関(相関係数が -0.2 から -0.4 程度)が主に観測される理由の一つではないでしょうか。
Fig.11からわかるように、多くの遺伝子ではプロモーターが低メチル化状態に偏っており、この領域では発現量は広くばらつくため、明確な相関はほとんど見られません。
しかし、メチル化状態が変動する一部のプロモーターに着目すると、その関係性は特定のがん種に依存せず、他のTCGAプロジェクトにおいても同様のパターンが観察されます。これは筆者の解析でも一貫して確認されています。
ポイントは、全遺伝子を一括で見るのではなく、メチル化が変動している遺伝子に絞ること、そしてその中で弱い逆相関として現れる傾向を捉えることです。
このような関係性は、散布図として可視化することで初めて明確に捉えることができます。ぜひ、ご自身のデータでも同様のパターンが見えるかを確認してみてください。
逆相関はプロモーター近傍に限られる
ところで、ここまで見てきた逆相関は、TSSから500bp以内のプロモーター領域に特異的に見られる現象です。Fig. 13で示す通り、TSSから500bp以上離れたCpGアイランドでは、メチル化パターンと発現パターンの間に明確な逆相関への偏りは見られなくなります。
ただし、偏りが見られなくなるだけで、個別に見ると比較的強い正相関や逆相関を示すものも存在する点には注意が必要です。これらが偶然なのか、それとも何らかの意味を持つのかは、ぜひご自身の目で確かめてみてください。
おわりに:データから何を読み取るか
ここまで見てきたように、プロモーターのメチル化と遺伝子発現の関係は単純ではありません。メチル化の上昇は発現の抑制と関係している一方で、メチル化の低下が必ずしも発現の増加につながるわけではなく、その関係は非対称的です。
現在ではAIに質問すれば、もっともらしい説明をすぐに得ることができます。しかし、それが現実の生物学的現象をどこまで反映しているかは別の問題です。
だからこそ、データを「自分の目」で確認し、そこから何が読み取れるのかを考えることが重要です。