RNAIndel: discovering somatic coding indels from tumor RNA-Seq data
概要
〔月的(Purpose))
トランスクリプトームシークエンシングは遺伝子発現や離合転写産物の解析に用いられるが、変異検出の目的に用いることは困難である。その理由としてライブラリーを調整する際に用いるPCRで導入される変や、スプライス部位周囲のマッピングが不完全なために生じる変異、正常組織のトランスクリプトームは癌組織とは遺伝子発現パターンが異なるためにコントロールして用いることができないことがあげられる。しかし、トランスクリブトームはシークエンスとデータのストレージにかかるコストが比較的低いことと、発現している遺伝子を見ているため、表現型への解釈がしやすい利点がある。本研究では特に解析が困難な挿入・欠損変異をトランスクリプトームで解析する手法を開発した。
〔方法ならびに成績(Methods/Resulls)]
挿入・欠損変異は常に一意に配列されるとは限らないため、変異配列を再配列し、同じ変異ならば同じ配列パターンとして認識される再配列の工程を開発し実装した。この再配列の結果にもとづき、がんゲノムに付随する体性変異に特徴的な塩基配列のパターンや遺伝子産物への効果を抽出し、それら特性量を学習させることでトランスクリプトーム中の挿入・欠損変異を体性・胚性・アーティファクトに分類した。小児がんを含む5種類のトランスクリプトームデータで性能を評価し、88-100%の感度を偽陽性数が一塩基挿入・欠変異と多塩基挿入・欠損変異ともに10個以下で得た。現在、トランスクリプトームでの変異検出で広く使われる手法にくらべても14倍低い陽性数で1.5倍以上感度よく検出できた。さらに、非小細胞肺がんデータにおいて、同~症例から採取された肺正常組織をコントロールとして用いて体性変異検出に特化したアルゴリズムと比較したところ、本手法は正常組織をコントロールとして用いないにもかかわらず、一塩基挿入・欠損変異で10倍低い腸性数で2倍の感度、多塩基挿入・欠損変異で2倍低い腸性数で1.5倍の感度を得た。大腸がんのデータを例に、マイクロサイト不安定性が存在する場合は本手法では効率よく検出できないことが示された。
〔総括 (Conclusion) )
本研究は挿入・欠損変異を分類する特性量を定義し、生物学的に興味深い。特に、挿入・欠損配列と周辺配列間の編集距離として定義された量は体性変異に特異的であることが示された。それら特性量の計算と学習のアルゴリズムはソフトウェアとしてまとめられた。