ゲノムワイド遺伝子多型データを用いて、うつ状態の脆弱性を予測したこれまでの研究では、あまり高い予測精度が得られていない。その主な原因としては、一塩基多型の表現型に対する効果サイズが小さく、十分な検出力を得るのが難しいことがある。そして、表現型に効果をもたない null variants が多く予測モデルに含まれることにより、学習の段階では見かけ上、高い予測精度が得られるのにもかかわらず、テストデータで検証すると低い予測精度しかえられない、過剰適合という現象が起きてしまうためである。STMGP (Smooth-Threshold Multivariate Genetic Prediction)法は過剰適合を軽減させることで予測精度を向上させるために開発された、機械学習を用いたゲノムワイド遺伝子多型データに基づく予測モデルである。

ゲノムワイド遺伝子多型データからのうつ状態脆弱性の予測に STMGP 法を用いることで、従来法と比較して予測精度が向上するかどうかを検討する。

東北メディカル・メガバンク計画によって、宮城県でリクルートされた 3,685 人のゲノム情報を用いて予測モデルを学習させ、岩手県でリクルートされた 3,048 人のゲノム情報を用いて、予測モデルの予測精度を評価した。両方のコホートは東北メディカル・ メガバンクプロジェクトで収集されたもので、 ゲノタイピングはHumanOmniExpressExome BeadChip Array を用いて行った。うつ症状は Center for Epidemiologic Studies-Depression Scale(CES-D)で評価した。STMGP 法による予測精度と過剰適合の程度は、遺伝子スコア法、GBLUP(genomic best linear unbiased prediction)法, SBLUP(summary-data-based best linear unbiased prediction)法, BayesR 法, Ridge 回帰法と比較した。

STMGP 法による予測精度(predictive correlation coefficients ± 標準誤差)は 0.0769 ± 0.0173 であり、遺伝子スコア法(0.0332 ± 0.0178)、GBLUP 法(0.0309 ± 0.0178)、SBLUP 法(0.0164 ± 0.0178)、BayesR 法(0.0100 ± 0.0185)、Ridge回帰法(0.0260 ± 0.0178)よりも高かった。また STMGP 法ではトレーニングデータでの見かけ上の予測精度は 0.3232 ± 0.0153 であり、遺伝子スコア法(0.9027 ± 0.0076)、GBLUP 法(0.9627 ± 0.0017)、SBLUP 法(0.9554 ± 0.0019)、BayesR 法(0.9633 ± 0.0015)、Ridge 回帰法(0.9998 ± 0.000)よりも低く、過剰適合の程度が軽減されていた。

STMGP 法は過剰適合を軽減することで、従来法よりもゲノムワイド遺伝子多型データからうつ症状を予測する際に、高い精度を示した。ポリジーンモデルに従う複雑な遺伝疾患の脆弱性の予測に STMGP が有効であることが示唆された。



