リケラボ論文検索は、全国の大学リポジトリにある学位論文・教授論文を一括検索できる論文検索サービスです。

リケラボ 全国の大学リポジトリにある学位論文・教授論文を一括検索するならリケラボ論文検索大学・研究所にある論文を検索できる

リケラボ 全国の大学リポジトリにある学位論文・教授論文を一括検索するならリケラボ論文検索大学・研究所にある論文を検索できる

大学・研究所にある論文を検索できる 「テンソル分解を用いた二重鎖切断の起こりやすいヒト遺伝子の推定」の論文概要。リケラボ論文検索は、全国の大学リポジトリにある学位論文・教授論文を一括検索できる論文検索サービスです。

コピーが完了しました

URLをコピーしました

論文の公開元へ論文の公開元へ
書き出し

テンソル分解を用いた二重鎖切断の起こりやすいヒト遺伝子の推定

保坂 伸生 中央大学

2022.09.22

概要

1. 研究背景
二重鎖切断(DSB)とはDNA 損傷の一つで、DNA 損傷というのはDNA を構成する塩基と呼ばれる物質が損傷する ことを指す。中でもDSB は損傷のレベルが高く、二重螺旋構造を持つDNA の二本どちらにも損傷が起きている状態を指す。このDSB を含むDNA 損傷は太陽光に含まれる紫外線や呼吸によって生じる活性酸素、食物に含まれる発がん物質などによって生じ、日常的に起こる危険性をはらんでいる。

DSB はDNA 損傷の中でも修復が難しく、修復されない場合、細胞が死を選択してしまい、過剰に細胞が減ると病気になってしまうが、修復されたとしても後述する変異によって遺伝子を喪失してしまう可能性がある。DSB以外の修復は比較的簡単で、DNA はアデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4 つの塩基で構成されていて、中でもA とT、G とC が結合することで二重螺旋構造を作る。そのため、一本のみの損傷であれば、反対側の塩基を読み取ることで容易に修復できる。これが二本とも損傷している場合はとても難しく、修復方法には相同組換え(Homologous Recombination(HR)))と非相同末端結合(Non-Homologous End Joining(NHEJ))の2 つがある。HR では、損傷したDNA 塩基配列に似た配列のものを鋳型として使い、損傷した部位を作り直す。HR は比較的精度が良いがそれでも、似た配列を使っていることから若干の違いが生じる可能性があり、またHR は常にできるわけではなく細胞周期の一部でしか行われていない。NHEJ は損傷した先端部分を両者ともに削り、 平坦にしたところでそのまま結合するといったものになっている。これは損傷部位を完全に修復することをしていないことから損傷の度合いによっては塩基配列の大きな喪失となる。このような喪失を変異の一つである欠損 (Deletion)と呼ぶ。

HR、NHEJ どちらも欠損が生じた箇所に遺伝子が含まれていた場合遺伝子の塩基配列が変わることで遺伝子喪失の危険性がある。この遺伝子喪失ががんを抑制するような遺伝子で生じた場合、がんになるリスクが上昇してしまうことになる。このような点からDSB は様々な病気を引き起こす大変危険なDNA の病と言える。しかし、このような危険性に反して、DSB に関する研究はあまり芳しくない。特に機械学習を用いた解析は、多くのデータを必要とする性質上稀である。生物データは倫理、金銭、時間等様々な理由によって多くのデータを集めることが難しいためである。

2. 研究目的
本研究は、DSB とDSB を修復する経路の関係性を調べる先行研究[1]のデータに着目し、ヒトの常染色体1-22を平均化して解析を行っているところを常染色体毎に個別に解析することで、データとして取られているDNA についたタンパク質とDSB の関係性を遺伝子レベルで調べてDSB の起こりやすい遺伝子の位置を推定することを目的としている。

解析手法としてはテンソル分解を用いた教師なし学習による変数選択法[2]をヒトのDNA についたタンパク質のデータとDNA に生じたDSB を測定したデータに使い、DSB の起こりやすい遺伝子の位置を推定する。これにより、データが少ない環境下で行われる生物学に対する機械学習のモデルケースの一つという成果だけでなく、 DSB が起こりやすい遺伝子のリストが得られる。DSB の修復で変異が生じやすいことがわかっているので、変異が起こりやすい遺伝子がわかったことになる。この結果から、がんなどの遺伝子変異によって生じる病気の原因である遺伝子を上述のリストから新たに見つけることができるかもしれない。また、未来の技術であるが、遺伝子に対する治療が確立されたときに変異が起こりやすい遺伝子をリストによって絞り込むことで、約2 万個の中から探すよりも効率的に治療が行えると考えられる。

3. 研究方法
本研究では、テンソル分解にHOSVD(Higher Order Singular Value Decomposition)を用いる。これは日本語では高次元特異値分解と訳すことができ、特異値分解が行列つまり二次元を扱っていることから三次元以上の場合の特異値分解と考えられる。行列の表記をN×M 行列X をX(N,M)と表記することにすると、特異値分解は以下のように表せる(式(1))。ただし、X はX(N,M)(N>M)、U はU(N,M)、V はV(M,M)、ΣはΣ(M,M)でU、V は直交行 列、Σは対角行列。

研究に用いるデータは上述した論文[1]で得られたデータを使っている。このデータはヒトの常染色体1-22 の全塩基対について発生したDSB や付着したタンパク質を記録したものとなっている。このデータはDSB を故意に起こさせる薬品を加えたものとそうでないものの二種類ある。これらのデータからタンパク質の数DSB の数を要素に持ち、DSB とタンパク質群、塩基対の番号、薬品の有無の3 つの次元を持つテンソルを作った。ただし、塩基対の次元については常染色体1-22 全てのままでは非常に大きく解析ソフトで扱いにくいため、この次元を分けることで155 個の3 次元テンソルデータとなっている。これにHOSVD を使い、DSB が起こりやすい遺伝子を見つける。

SVD の話に戻ると、分解後は固有値と固有ベクトルのみで書き表すことができ、固有ベクトルが基底になることから固有値の絶対値が大きいかどうかが元の行列を書き表す上で重要となる。というのも固有値の絶対値が大きいほど元の行列に戻す際、固有ベクトルの寄与が大きくなるためだ。ここで、行列をデータとして考えると、固有ベクトルはデータの特徴と考えられる。これをHOSVD に置き換えて考えると、HOSVD で得られる行列は各次元の特徴を表す固有ベクトルとなっているので、この固有ベクトルからDSB が起こりやすい遺伝子の特徴を見つければよい。

式(5)の𝒖𝒍𝟏𝒊、𝒖𝒍𝟐𝒋、𝒖𝒍𝟑𝒌をDSB とタンパク質群、塩基対の番号、薬品の有無とすると、最終的に遺伝子が求めたいことからパラメータ𝑙2にこの特徴をもたせたい。DSB を表す特徴は𝒖𝒍𝟏𝒊からi にDSB を代入し絶対値が大きいパラメータ𝑙1を選ぶ。起こりやすいという特徴は、DSB が起こりやすい環境下では普段以上にDSB になるものをDSB が起こりやすいと考えて、薬品有りとなしのときで差が大きいパラメータ𝑙3を選ぶ。選ばれたパラメータ𝑙1、𝑙3をコアテンソルG に代入し絶対値が大きい𝑙2を選ぶことでこの特徴を選ぶことができる。

このパラメータを塩基対の行列𝒖𝒍𝟐𝒋に代入し、仮説検定をしてDSB が起こりやすい塩基対を求める。帰無仮説はここで得られた𝒖𝒍𝟐𝒋が無差別に選ばれておりそれぞれの値が独立な正規分布に従うというもので、対立仮説は DSB が起こりやすいような塩基対を選ぶことができているとなる。この条件で仮説検定をし、5%以下で帰無仮説を棄却したものをDSB が起こりやすい塩基対とする。

現状まだ塩基対を選べただけで遺伝子があるかどうかわかっていない。そこで、遺伝子は塩基対が連続していることから、仮説検定によって選ばれた塩基対の中で塩基対の番号が連続しているものをここでは遺伝子と考える。これによってDSB が起こりやすい遺伝子を解析で見つけることができる。

解析結果が実際にDSB を起こしやすい遺伝子について選べているか調べる。COSMIC[3]というがんに関するデータベースから欠損、挿入というDSB によって生じる変異が発生したことがあるmRNA のデータを入手し、UCSC genome browser[4]というゲノムデータベースからヒトのmRNA がどの塩基対にあるかマッピングされたデータを入手する。mRNA を使う理由については、遺伝子に比べて量が多く解析データが多いに越したことはない点、タンパク質を作るのに遺伝子全てを使うわけではなく遺伝子の一部を写したmRNA が使われていることから、mRNAの変異を見るほうがどの塩基配列に変異が生じたか正確にわかる点にある。解析データを含めたこの三種類のデータからフィッシャーの正確確率検定を行い、DSB を起こしやすい遺伝子が選べているかどうか調べる。解析データの塩基対の範囲にあるmRNA の数をa、その範囲のmRNA の中で変異を起こしたことがあるものの総数をb、aのmRNA の塩基配列内に解析で得られた𝒖𝒍𝟐𝒋が含まれるようなmRNA の総数をc、c の中で変異を起こしたことがあるmRNA に限定して𝒖𝒍𝟐𝒋が含まれているものをd とする。この4 つのパラメータからフィッシャーの正確確率検定でp 値を与える。

4. 研究結果
塩基対について分割したため解析データは155 個ある。この155 個のうちフィッシャーの正確確率検定で24個のデータが棄却され残った。5%以下で棄却したため、155 回の施行で24 回も5%以下の施行が起きたこととなる。これは偶然ではありえないため、テンソル分解を用いた教師なし学習法によって、DSB が起こりやすい遺伝子を推測することができたと言える。

5. 結論
我が国において、1981 年以来日本寺の死因ランキング一位は悪性腫瘍(がん)であり、国外を見ても特に先進国では悪性腫瘍による死因は多い。そのためがんの治療法を確立することは、とても重要なことである。そんな治療法を確立するためには、その病気について詳しい知識を得ることが必要不可欠である。本研究で注目した DSB は、悪性腫瘍の原因である遺伝子変異を起こす大本の一つと言える現象でそのDSB が起こりやすい遺伝子を推測することが、故意に起こされた薬品上でできたことから、実際のヒトにおいてもできると考えている。しかし、本研究ではmRNA を作る遺伝子に関しての推測という遺伝子の中での制限を設けて推測を行った。そのた め、更に拡張し、ノンコーディングRNA についても解析し遺伝子全てに対して推測することが今後の課題だと考えている。

参考文献

[1] Clouaire T, Rocher V, Lashgari A, Arnould C, Aguirrebengoa M, Biernacka A, et al. Comprehensive mapping of histone modifications at dna double-strand breaks deciphers repair pathway chromatin signatures. Molecular cell 72 (2018) 250–262.

[2] Y-hTaguchi. Tensor decomposition-based and principal-component-analysis-based unsupervised feature extraction applied to the gene expression and methylation profiles in the brains of social insects with multiple castes. BMC bioinformatics 19 (2018) 99.

[3] https://cancer.sanger.ac.uk/cosmic/download

[4] https://genome.ucsc.edu/cgi-bin/hgTables

参考文献をもっと見る

全国の大学の
卒論・修論・学位論文

一発検索!

この論文の関連論文を見る