田中, 凌慧 東京大学 DOI:10.15083/0002002049




1. 能動学習に基づくゲノミック予測モデルの効率的構築

 そこで、本研究では、能動学習をゲノミック予測に応用することで、予測精度を効率よく向上できるかをシミュレーションを用いて検証した。遺伝子型の選抜・淘汰を分類問題としてあつかい、サポートベクトルマシンを用いて分類モデルを構築した。能動学習には、最も標準的なアルゴリズムuncertainty samplingを採用した。4つの実データセットを用いて検証した結果、延べ22形質のうち17形質で能動学習により有意に分類精度が向上し、3形質で低下した。以上の結果から、能動学習がゲノミック予測の訓練データ選択法として有用であることが示された。

2. ベイズ最適化に基づく優良系統の効率的発見


3. ゲノミック予測における多環境試験デザインの最適化
 多環境試験は、遺伝子型と環境の交互作用(GxE; genotype-by-environment interaction)に関する情報を得るために必須である。しかし、多数の系統を用いた大規模な多環境試験を行うには大きな金銭的・労力的に大きなコストが必要であり、通常は、主要な系統に絞って多環境試験を実施し、それらの系統についてのみGxEを評価する。しかし、ゲノミック予測を多環境の表現型データに拡張する(多環境ゲノミック予測)ことで、一部の表現型データをもとに、試験しなかった表現型を補完することも可能である。つまり、ゲノム情報によって系統間の類似性が定義されていれば、必ずしも一部の系統を選んで多環境試験を行う必要はなく、それぞれの環境で異なる系統を試験しても、GxEに関する知見を得ることができる。

 この場合にも、能動学習により試験するべき系統を選んだ場合と同様に、各環境で試験すべき系統を適切に選ぶことにより、得られる予測モデルの精度が向上する可能性がある。本研究では、ゲノミック予測のモデル構築のためにどの系統を用いるか、という訓練集団の最適化のために提案された予測誤差分散(PEV; prediction error variance)および決定係数(CD; coefficient of determination)を多環境におけるゲノミック予測にも拡張し、どの系統をどこで試験すべきか、という多環境試験のデザインの最適化に用いた。PEVやCDを多環境試験のデザインの最適化に用いる場合には、遺伝子型値の環境間相関や、対象形質の遺伝率を超パラメータとして事前に設定する必要がある。本研究では、この超パラメータの設定が、PEVやCDによって得られる多環境試験のデザインを大きく左右することを明らかにした。例えば、環境間相関が低い場合には、すべての候補系統を満遍なく試験するようなデザインが選ばれ、逆に、環境間相関が高い場合には、一部の代表的な系統を複数の環境で試験するようなデザインが選ばれた。また、多環境試験のデザインをPEVやCDによって最適化する場合には、これら超パラメータを妥当な値に設定する必要があることを明らかにした。例えば、表現型値にGxEの影響がほとんどなく表現型値の環境間相関が0.9を超えるような場合に、環境間相関を0.25と設定してしまうと、PEVやCDを用いることにより、予測精度が逆に悪化した。しかし、真の状態と大きく異なる設定をしない限り、PEVやCDによる最適多環境試験デザインを用いて予測精度を改善できることがわかった。

4. ゲノミック予測に基づく交配後代の分離予測に関するシミュレーション研究

 後代の分離予測はゲノミック予測の重要な活用手段であるにも関わらず、分離予測の精度(つまり、後代遺伝子型値の平均値や分散の予測精度)については十分な検討がなされてこなかった。本研究では、ベイズリッジ回帰(BRR;Bayesian ridge regression)およびBayesAとよばれる2つの代表的な予測モデルについて、後代分離の予測精度に注目したモデル比較を行なった。





