リケラボ論文検索は、全国の大学リポジトリにある学位論文・教授論文を一括検索できる論文検索サービスです。

リケラボ 全国の大学リポジトリにある学位論文・教授論文を一括検索するならリケラボ論文検索大学・研究所にある論文を検索できる

リケラボ 全国の大学リポジトリにある学位論文・教授論文を一括検索するならリケラボ論文検索大学・研究所にある論文を検索できる

大学・研究所にある論文を検索できる 「教師あり機械学習を用いた臨床試験レガシーデータからCDISC標準形式への半自動変換」の論文概要。リケラボ論文検索は、全国の大学リポジトリにある学位論文・教授論文を一括検索できる論文検索サービスです。

コピーが完了しました

URLをコピーしました

論文の公開元へ論文の公開元へ
書き出し

教師あり機械学習を用いた臨床試験レガシーデータからCDISC標準形式への半自動変換

小田 拓馬 東北大学

2022.03.25

概要

【背景】
過去の臨床試験データ、いわゆるレガシーデータからCDISC(Clinical Data Interchange Standards Consortium)標準の変換は規制当局の提出や医薬品開発の二次利用のために有益であるものの、その変換には多くのリソースが必要である。そのため、製薬企業やアカデミアではCDISC 標準形式へのデータ変換プロセスの自動化が待ち望まれているが、レガシーデータの形式が多種多様であるため自動化は困難な状況である。

【目的】
本研究では、マニュアルで実施していたレガシーデータ仕様書確認、データ変換仕様書作成、データ変換プログラム作成のステップを、特徴量抽出、教師あり機械学習、データ正規化で自動化することにより、レガシーデータを CDISC 標準の中で基本のデータ構造である CDISC SDTM(Study Data Tabulation Model)形式へ効率的に変換可能なプロセスを構築することを目的とした。

【方法】
レガシーデータの様々なデータ構造に対応するためにデータの正規化を行う。レガシーデータの変数ラベル、データセット名、変数名、値を機械学習の特徴量として使用するため、これらの文字列データを数値に変換する必要がある。そこで、ゲシュタルトパターンマッチング、Doc2vec によるベクトル化、およびDoc2vec によるベクトル化後のコサイン類似度を利用する。また、機械学習のアルゴリズムはデシジョンツリー、ランダムフォレスト、勾配ブースティング、ニューラルネットワーク、およびこれらを組み合わせたアンサンブルの 5 つを用いて予測モデルを生成し、最適なアルゴリズム、特徴量抽出方法を検討することとする。また、上記のデータ正規化、特徴量抽出、教師あり機械学習の自動化プロセスにマニュアルによる確認を組み込むことで半自動的にデータ変換を行う。

【結果】
アルゴリズムの比較では、ニューラルネットワークで最も正解率が高く、また、予測確率の分布でも正解と不正解の分布が分かれており、複数の試験データを用いた場合でも同様の結果であった。各特徴量の寄与の確認では、検証した試験間で結果の傾向が一致しなかった。データパターンの比較では、正解率の差は見られなかったが、予測確率の分布で若干の違いが見られた。マニュアルによる予測結果確認においては、重複レコードの削除により、効率化することができた。

【考察】
アルゴリズムの比較では、本研究におけるデータやタスクの複雑性のため、ニューラルネットワークが最も高い正解率となったと考えられる。各特徴量の寄与で は、結果の傾向が一致しなかったことから、安定した結果を得るためには全ての特徴量が揃っていることが重要であることが示唆された。データパターンの比較で は、正解率の差は見られなかったが、正解と不正解の 2 つの分布の間にある最も度数が低い地点をカットオフポイントとした場合、データセット名、変数名はゲシュタルトパターンマッチング、変数ラベルは 300 次元のベクトル化後のコサイン類似度を用いたデータで最も高い正解率であったことから、このデータパターンが最も適切であると考える。また、ニューラルネットワークの高い精度と特徴的な確率分布により、マニュアルによる予測結果確認が容易となると考えられる。

【結論】
マニュアルで実施していたレガシーデータ仕様書確認、データ変換仕様書作成、データ変換プログラム作成のステップを、特徴量抽出、教師あり機械学習、データ正規化で自動化することにより、レガシーデータを CDISC 標準の中で基本のデータ構造である CDISC SDTM 形式へ効率的に変換可能なプロセスを構築することができた。

この論文で使われている画像

参考文献

1. Souza T, Kush R, Evans JP: Global clinical data interchange standards are here! Drug Discovery Today, 2007; 12: 174-181

2. Kush R, Fukushima M, Takenouchi K, et al. 世界標準としての CDISC・その歴史,現状,将来展望, 臨床評価, 2012; 39: 547-557

3. CDISC (Clinical Data Interchange Standards Consortium) Membership <https://www.cdisc.org/membership>. Accessed on 4 Oct 2021

4. Providing Regulatory Submissions in Electronic Format — Certain Human Pharmaceutical Product Applications and Related Submissions Using the eCTD Specifications Guidance for Industry. <https://www.fda.gov/media/120094/download>. Accessed on 4 Oct 2021

5. 申請電子データ利用体制構築プロジェクトに関連する主な通知等. <https://www.pmda.go.jp/review-services/drug-reviews/about-reviews/p- drugs/0026.html>. Accessed on 4 Oct 2021

6. CDISC 2014 Business Case Highlights Significant Time and Cost Savings through Use of CDISC Standards in Medical Research Studies. Available at: https://www.cdisc.org/cdisc-2014-business-case-highlights-significant-time-and-cost-savings-through-use-cdisc-standards. Accessed on 4 Oct 2021

7. CDISC 2014 Business Case Highlights Significant Time and Cost Savings through Use of CDISC Standards in Medical Research Studies. <https://www.cdisc.org/cdisc-2014- business-case-highlights-significant-time-and-cost-savings-through-use-cdisc-standards>. Accessed on 4 Oct 2021

8. 武田 健太朗, 大庭 真梨, 柿爪 智行, et al.: 臨床試験におけるヒストリカルコントロールデータの利用, 計量生物学 2015; 36: 25–50

9. 吉田 易範: 電子データを利用した次世代審査・相談体制の構築に向けて, Regulatory Science of Medical Products, 2015; 5: 45−52

10. Tomioka S, SDTM Mapping based on Natural Language Process and Machine Learning, CDISC Interchange Japan 2018,<https://www.cdisc.org/system/files/all/event/restricted/2018_US/5C_MachineLearningA pproachtoSDTMMapping_Tomioka.pdf>. Accessed on 4 Oct 2021

11. Project Data Sphere® <https://data.projectdatasphere.org/projectdatasphere/html/home>. Accessed on 4 Oct 2021

12. CEO Roundtable on Cancer, <http://www.ceoroundtableoncancer.org/>. Accessed on 4 Oct 2021

13. Life Sciences Consortium, <http://ceo-lsc.org/>. Accessed on 4 Oct 2021

14. 日本製薬工業協会 データサイエンス部会, 臨床試験の個別被験者データの共有 CTDS(Clinical Trial Data Sharing)2017 年 6 月

15. Study Data Tabulation Model Implementation Guide: Human Clinical Trials Version 3.3.<https://www.cdisc.org/standards/foundational/sdtmig/sdtmig-v3- 3/html#Datasets+and+Domains>. Accessed on 4 Oct 2021

16. Mikolov T, Chen K, Corrado G, et al.: Efficient Estimation of Word Representations in Vector Space. International Conference on Learning Representations2013. < https://arxiv.org/pdf/1301.3781.pdf >. Accessed on 4 Oct 2021

17. Goldberg Y, Levy O. word2vec explained: deriving Mikolov et al's negative-sampling word-embedding method. <https://arxiv.org/pdf/1402.3722.pdf >. Accessed on 4 Oct 2021

18. Ratcliff JW: Pattern Matching: The Gestalt Approach, Dr. Dobb’s Journal, 1988; 46. <https://www.drdobbs.com/database/pattern-matching-the-gestalt-approach/184407970>. Accessed on 4 Oct 2021

19. Lau JH, Baldwin T. An Empirical Evaluation of doc2vec with Practical Insights into Document Embedding Generation. Association for Computational Linguistics; 2016; 78–86

20. Le Q, Mikolov T. Distributed representations of sentences and documents. Paper presented at: Proceedings of the 31st International Conference on Machine Learning 2014. <https://cs.stanford.edu/~quocle/paragraph_vector.pdf >. Accessed on 4 Oct 2021

21. difflib — Helpers for computing deltas. Available at: <https://docs.python.org/3/library/difflib.html #module-difflib>. Accessed on 4 Oct 2021

22. Sivic J, Efficient visual search of videos cast as text retrieval, TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2009; 31: 591–605

23. Rajaraman A; Ullman JD, Leskovec J: Mining of Massive Datasets. 2011; 1-17

24. International Council for Harmonisation of Technical Requirements for Pharmaceuticals for Human Use Guidelines <https://www.ich.org/page/ich-guidelines>. Accessed on 4 Oct 2021

25. Japkowicz N. The Class Imbalance Problem: Significance and Strategies. International Conference on Artificial Intelligence (ICAI)2000. < http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.35.1693&rep=rep1&type=pdf>. Accessed on 4 Oct 2021

26. Andrea C.M., Sarah G.: Python ではじめる機械学習, オライリー・ジャパン, 2017.

27. Takashi O, Boosting の過学習とその回避, 電子情報通信学会論文誌 D Vol.J85-D2, No.5, 776-784 2002.

参考文献をもっと見る

全国の大学の
卒論・修論・学位論文

一発検索!

この論文の関連論文を見る