リケラボ論文検索は、全国の大学リポジトリにある学位論文・教授論文を一括検索できる論文検索サービスです。

リケラボ 全国の大学リポジトリにある学位論文・教授論文を一括検索するならリケラボ論文検索大学・研究所にある論文を検索できる

リケラボ 全国の大学リポジトリにある学位論文・教授論文を一括検索するならリケラボ論文検索大学・研究所にある論文を検索できる

大学・研究所にある論文を検索できる 「RDkitを用いたインシリコスクリーングソフトの開発およびChooseLDとの性能比較」の論文概要。リケラボ論文検索は、全国の大学リポジトリにある学位論文・教授論文を一括検索できる論文検索サービスです。

コピーが完了しました

URLをコピーしました

論文の公開元へ論文の公開元へ
書き出し

RDkitを用いたインシリコスクリーングソフトの開発およびChooseLDとの性能比較

増田 彬宏 中央大学

2022.07.06

概要

本研究では、様々なコンピューター言語によって記載された岩舘研究室のインシリコスクリーニングソフト ChooseLD (CHOOse biological information Semi-Empirically on the Ligand Docking)[1]を 基に Python 言語を用いて記述し直すことにより、ソースコードを簡潔にし、新規にスクリプトを導入しやすくした新規ソフトを開発した。 また、Python 言語で使うことができるケモインフォマティクスパッケージの RDkit を用いることで、これまで独自に指定していた化学的情報を世界共通のフォーマットに変更した。さらに、全体を通して計算時間を要していた部分は、Python 言語に加えてC言語を用いることで高速化を図った。今回用いたデータセットは ChEMBL25 で、そのデータを使って新規に開発したソフトのパラメーター最適化を行った。最後に、ChooseLDと疎水性相互作用を導入したもの(ChooseLD+Hc_index) [2]、新規に開発したソフトそれぞれに対して ChEMBL データベースの情報を使うことによって相関を算出し、その算出結果からそれぞれのソフト間で精度の比較を行った。

ChooseLD を基に新規ソフトを開発する上で、大きな変更を 3 点行った。1 つ目が従来の ChooseLD では fingerprint という化合物の特徴を表す部分構造を最大直鎖4 原子で構成される独自の表記方法を用いていたのに対して、RDkit を用いることでケモインフォマティクスにおいて一般的に使用される表記である SMARTS(SMiles ARbitrary Target Specification)形式を用いて、MACCS fingerprint を使えるようにした。2 つ目が、全体としての最終的な計算結果は変わらないようにしつつも、計算速度のボトルネック部分になっている個所を工夫することによって高速化されるように変更した。最後に、スコア関数の変更を行い、より精度の高い計算結果を出力できるようにした。

FPAScore(fingerprint alignment score)はBaseScore、Overlap、Hc_index の加算によって求められようにした。 FPAScore が高いほど、相互作用既知のタンパク質-リガンド複合体構造を満たすように定義されている。 BaseScore は計算式(2)で示される。k1 は fingerprint の重ね合わせの精度どこまで厳密にするかのスケール因子で、アライメントされた fingerprint の重ね合わせの平均二乗偏差 (RMSD)が大きい場合に、分母が大きくなり、 fingerprint の一致度が高い場合でも、その fingerprint 間の重なりの精度が悪い場合にその候補を除外する意味を持って作られた。RawScore はアライメントされた fingerprint にあらかじめ与えられるスコア Case_S とfingerprint に属する原子セットの間が 1.0 Å以内にあった場合にその fingerprint セットの原子個数の自然対数を加算する nna(number of neighbor atom)で出来ている。計算式(4)の Overlap はfingerprint を用いてターゲットリガンドがターゲットタンパク質にドッキングした後、その複合体構造を評価するための関数である。grid というターゲットタンパク質を包括した立方体座標空間にターゲットタンパク質、ターゲットリガンド、既知のリガンドの情報が入っている。それを用いて、ドッキング後のターゲットリガンドが grid 内でターゲットタンパク質内部であった場合は-10 を、ターゲットタンパク質表面であった場合はパラメーターの値である k2 を、既知のリガンド原子上だった場合はその座標に存在するリガンド数分の値を加算している。Hc_index は Crippen の方法で求まる lopP に計算式(7)の原子間距離が大きくなれば影響が小さくなる計算方法を用いて算出している。βは定数でPratt-Chandler 理論から2 つの分子の間に水1 分子を挟み込んだ準安定状態を再現できるようとった値である。これらの値を grid のようにHc_grid という大規模な配列に保管した。Hc_grid に関しては設定したgridの刻みが 0.2Åに対して1.0Åと粗く設定したため、指定座標を取り囲む 8 点の Hc_grid の立方体座標を用いて平均ベクトル AAA を作成し、その値を代入することでHc_index を求めることとした。

ソフトの開発が終了した後、結果を比較するためのデータを ChEMBL データベースを用いて作成を行った。 ChEMBL25 を用いて、Ki 値またはIC50 が定まっているデータおよびCurated by のExpert、confidence_scoreの 9 であるChEMBL のアッセイデータを抽出した。抽出した結果、ターゲット数 817 個、アッセイ数 5921 個、化合物数 93916 個にデータに絞ることができたので、このデータを使って計算を行うことにした。

新規に開発したソフトの結果である個別の相関に関しては http://fams.bio.chuo-u.ac.jp/DrugSearch/で公開予定である。パラメーターを様々に変更することで k1・k2・k3 はそれぞれ 1.0・15.0・100.0 と決定した。新規に開発したソフトが完成したため、 ChooseLD および ChooseLD+Hc_index で行った場合の結果と比較することになった。実行結果について前提として、ChooseLD では 548 個、ChooseLD+Hc_index では 7567 個のターゲットリガンドの実行が出来なかった。表 1 にある相関はその分を考慮した数値となっている。

今回書き換えを行い、様々な改良を加えた結果、相関・実行速度どちらも向上した。相関も実行速度どちらも向上したが、相関が-0.1 と高いわけではなかった。また、ChooseLD+Hc_index に関しては創薬コンテストでも入賞する精度を持っているにも関わらず相関が-0.05 とあまり結果が良くなかった。これは、ChEMBL で取ってきたデータセットが網羅的なものであり様々な性質を混在させてしまったことが原因の可能性がある。そのため、今後は個々の相関とデータセットにどのような類似があるのか関係を探っていくことでソフトの相関向上に繋がると考えられる。

全国の大学の
卒論・修論・学位論文

一発検索!

この論文の関連論文を見る