リアルワールドデータを用いた医薬品有害事象の早期検出に関する研究
概要
リアルワールドデータを用いた医薬品有害事象の
早期検出に関する研究
2022
山本
浩貴
目次
緒言…………………………………………………………………………………….. 1
第 1 章 実臨床データベースに基づくゴールドスタンダートの作成…………….6
方法・結果…………………………………………………………………….7
考察………………………………………………………………………..….41
第 2 章 レセプトの相関ルールマイニングによる副作用シグナルの早期検出...43
方法…………………………………………………………………………...44
結果・考察…………………………………………………………………...47
本研究の貢献と限界………………………………………………………………….67
総括…………………………………………………………………………………….69
将来の展望…………………………………………………………………..………...70
謝辞…………………………………………………………………………………….72
発表論文目録………………………………………………………………………….73
参考文献…………………………………………………………………………….…74
緒言
医薬品使用に伴う好ましくない作用は医薬品有害事象(副作用)とされ、医薬
品の使用には常に副作用のリスクが伴う。米国の調査において副作用は死因の
第 4 位と推計され [1, 2]、また副作用の発見が遅れた場合、たった 1 種類の医薬
品で約 8 億ドル以上の医療費につながる健康被害を引き起こすとも推計される
(例:ロフェコキシブ-心筋梗塞)[3]。以前の検討において、米国食品医薬品局
(FDA)によって新規に承認された医薬品のうち、承認時に得られていない副作
用のために上市された医薬品の約 2%が市場から撤退し [4]、さらに約 32%が安
全性の懸念による警告の追加等のイベントを経験していることが示されている
[5]。したがって、副作用を迅速かつ適時に検出できれば、患者の健康リスクを大
幅に低減できる可能性がある。
一般に、臨床試験により医薬品の安全性の評価が行われるが、サンプルサイズ
が小さい、試験期間が短いなど多くの制約が挙げられ [6]、あらゆる副作用を捉
えることは非常に困難である [7]。そのため、自発報告システム(SRS:
Spontaneous Reporting System)を含めた市販後調査が最も重要であり、ファーマ
コビジランスでの必須のシステムである。主要な SRS の 1 つに米国 FDA が収
集・管理する有害事象自発報告システム(FAERS: FDA Adverse Event Reporting
System)が挙げられ、2019 年までに約 1,100 万人の患者が経験した様々な医薬品
有害事象に関する情報が含まれる。SRS の利用は重篤な副作用を検出する最も
効果的な方法であることが近年の研究で示されている [8–10]。
しかし、SRS には副作用の過小報告や医薬品を使用した母集団が不明などの
限界がある [11, 12]。これまでの研究で、重篤な副作用のうち約 6%しか SRS に
報告されていないと推計されている [13, 14]。過小報告の背景として、医薬品に
よる副作用であるかを評価する有用なツールはいくつか確立されているものの
[15, 16]、患者が経験した症状の変化が医薬品に起因するものか、原疾患に起因
するものかを区別することが困難であることが挙げられる [13]。これらの限界
は、副作用を認識・検出するための SRS によるデータ解析の質を低下させる可
能性がある。以上の背景から、副作用を効果的に検出するために SRS を補完で
きる方法が早急に求められている。
近年、大規模ヘルスケアデータを扱うための基盤が構築され、それらを活用し
た副作用研究への期待が高まっている。SRS とは異なり、電子カルテ情報(EMR:
Electronic Medical Record)や診療報酬明細書(レセプト)には、副作用の疑いが
あるか否かに関わらず、患者の症状の変化や処方情報が登録される。この特徴を
活かし、EMR を活用して副作用シグナルを検出する取り組みなど多数報告され
ている [17–19]。しかし、EMR は患者が他施設に転院する等のイベントを経験
1
すると症状の追跡が難しく、より広い範囲の患者をカバーした解析が困難とな
る場合がある [20]。一方、レセプトデータは患者が転院した場合でも症状の変
化や処方薬の情報を追跡することが可能なため、他の臨床データと比較して情
報の損失が比較的少ないと考えられる。情報は月単位で纏められるデメリット
はあるものの、数ヶ月後には匿名データとして利活用可能といった特徴も挙げ
られる。
Sequence Symmetry Analysis (SSA) はレセプトデータによる副作用シグナルの
検出に最も活用される解析手法の 1 種である [21, 22]。本手法を用いた副作用研
究は多数報告されているが、既報の大部分は長期データ(例:17 年間の蓄積デ
ータ)を使用し、また特定の医薬品クラス(糖尿病治療薬や睡眠薬など)とその
アウトカムに関する仮説を検討したもので、その有用性は限定的である [23–25]。
2018 年には処方箋データベースを用いて、特定の医薬品ではなく数種の医薬品
とそれに関係する副作用を評価するための解析研究が報告されているが [26–
29]、用いるデータは長期のデータに基づいており、早期検出の視点では検討さ
れていない。また、処方箋データベースには患者の症状が登録されていないため、
治療薬が存在しない副作用を解析対象とすることは困難であった。
以上の背景から本研究の目的は、早期に、広範な副作用シグナルの検出を可
能とする手法をレセプトデータで見出すことである。レセプトに登録される病
名を有害事象の発生と考えることで、広範な副作用シグナルを「能動的」に検出
する、この種の研究としては初めてとなる計算科学的な検討である。本研究では、
第1章で広範な医薬品とその副作用を対象に、データマイニングの性能を評価
するためのゴールドスタンダードを構築した。その上で第2章では大規模レセ
プトデータを用いて広範な副作用シグナルを早期に検出する方法を見出した。
これらの研究成果について、以下に論述する。
2
本文中および図中で使用した略語は以下の通りである。
ADR:
Adverse Drug Reaction
ARM:
ATC:
AUC:
EMR:
FAERS:
FDA:
FDR:
ICD10:
JADER:
MedDRA:
PMDA:
PR:
PT:
ROC:
ROR:
SMQ:
SNOMED-CT:
SRS:
SSA:
UMLS:
Association Rule Mining
Anatomical Therapeutic Chemical
Area Under the Curve
Electronic Medical Record
FDA Adverse Event Reporting System
Food and Drug Administration
False Discovery Rate
International Classification of Disease, 10th Revision
Japanese Adverse Drug–Event Report
Medical Dictionary for Regulatory Activities
Pharmaceuticals and Medical Devices Agency
Precision Recall
Preferred Terms
Receiver Operating Characteristic
Reporting Odds Ratio
Standardized MedDRA Queries
Systematized Nomenclature of Medicine-Clinical Terms
Spontaneous Reporting System
Sequence Symmetry Analysis
Unified Medical Language System
3
本研究で用いたデータベースは以下の通りである。
1. FDA Adverse Event Reporting System (FAERS) database
本データベースは第 1 章で活用した。FAERS は、米国食品医薬品局(FDA: Food
and Drug Administration)が管理する世界最大の有害事象自発報告データベース
である。2004 年から 2019 年までの世界各国から報告された有害事象は、FDA の
ウェブサイト(https://www.fda.gov/drugs/drug-approvals-and-databases/fda-adverseevent-reporting-system-faers)から入手した。
既報を参考に重複報告を排除し [30]、残りの 11,438,031 件の報告を解析した。
FAERS に登録されている医薬品名は任意記載形式であるため、ライフサイエン
ス辞書シソーラスを駆使したテキストマイニングにより医薬品名を一般名に統
一した。医薬品有害事象は、Medical Dictionary for Regulatory Activities (MedDRA,
http://www.meddra.org/; version 23.0) が推奨する用語集に従ってコード化された。
FAERS の解析には 226 種類の用語から成る標準化された Standardized MedDRA
Queries(SMQ)を使用した。
2. Japanese Adverse Drug–Event Report (JADER) database
本データベースは第 1 章で活用した。JADER は、医薬品医療機器総合機構
(PMDA: Pharmaceuticals and Medical Devices Agency)が管理する国内での有害
事象自発報告を集積したデータベースである。2004 年から 2019 年までの自発
報告は PMDA のウェブサイト(www.pmda.go.jp)から入手した。FAERS と異な
り、各医薬品の初回投与日や各有害事象の発症日など詳細な情報に富む 611,336
件の有害事象報告が収録されている。JADER の解析においても 226 種類の用語
から成る SMQ を使用した。
投与日や有害事象発症日のレコードには様々な桁数の数値が入力されてい
たため(例: 2011, 201102, 20110505, 20110506099, NULL など)、本検討では次の
前処理を行った。日付の桁数が 8 桁のレコードのみを抽出し、さらに「有害事
象の発現日」の日付が「投与開始日」の日付より後の日付となるレコードのみ
を抽出し、解析を行った。
3. JMDC insurance claims data (JMDC Claims)
本データベースは第 2 章で活用した。JMDC Claims は、7,438,470 人の従業員
とその扶養家族の毎月の医療診断と処方箋の請求が含まれる国内レセプトデー
タベースである。日本の国民健康保険制度と従業員層の特徴のため、患者は 65
4
歳以下が中心で、75 歳以上の患者は含まれていない。2005 年から 2019 年まで
のレセプトデータは、株式会社 JMDC(東京、日本)から購入した。このデータ
セ ッ ト に お け る 全 て の 診 断 は 国 際 疾 病 分 類 第 10 版 ( ICD10: International
Classification of Disease, 10th Revision)コードを用いて符号化され、また全ての医
薬品は解剖治療化学分類(ATC: Anatomical Therapeutic Chemical)コードに対応
付けられている。
本検討において ICD10 コードの「O00–O99: 妊娠・分娩及び産褥関連」、
「Q00–
Q99: 先天奇形・変形及び染色体異常関連」、「V01–Y98: 傷病及び死亡の外因関
連」
「Z00–Z99: 健康状態に影響を及ぼす要因及び保健サービスの利用関連」は医
薬品に起因した症状(副作用)とは考えにくいと判断し、これらのレコードは解
析から除外した。また医薬品については外用剤、輸液・灌流液、診断補助薬およ
び漢方薬(ATC コード:D,K,R,T,V)に関するレコードは解析から除外し
た。
本研究で扱った解析コードは以下に共有した。
https://github.com/HirokiYamamoto0222/ARM-on-Claims-data
5
第1章
実臨床データベースに基づくゴールドスタンダードの作成
近年、電子カルテやレセプトデータなどのヘルケアデータに対し、機械学習
などの解析を当てはめた副作用研究が進んでいる。機械学習や AI は専門家の知
識ベースを超える情報を与える可能性があるが、これらデータマイニングによ
る副作用シグナル検出法の性能を評価するためには、適切な参照基準(ゴールド
スタンダード)が必要となる。これまでにランダム化比較試験や添付文書情報、
文献情報を活用することで、数種のゴールドスタンダードが作成され [26, 31–
34]、またこれらゴールドスタンダードを用いて副作用検出の性能を評価した研
究も報告されている [28, 35–37]。Ryan らは「心筋梗塞」、
「腎障害」、
「肝障害」、
「消化管出血」など、ファーマコビジランス活動に不可欠な 4 つの有害事象を
対象とした 165 組の陽性対照と 234 組の陰性対照からなるゴールドスタンダー
ドを作成した [32]。Harpaz らは Med Watch を活用することで、2013 年に米国で
発令された安全性情報をもとに 62 組の陽性対照と 75 組の陰性対照で構成され
るゴールドスタンダードを作成した [33]。このゴールドスタンダードの特徴と
して医薬品が承認されてから添付文書が改訂されるまでの期間の情報が含まれ
る。しかし、ファーマコビジランスを加速させるためには、広範囲の医薬品と関
連する副作用にわたるゴールドスタンダードを確立することが極めて重要であ
る。また、実用性の視点でデータマイニング手法が有用であるかを評価するため
には、副作用の発生タイミングに関する情報も必要と考えるが、これらを満たす
ゴールドスタンダードは構築されていない。そこで、近年は大規模臨床データを
扱うための基盤が構築されていることから、実臨床データを用いることで上記
の限界点を補えると考えた。
本章では、世界最大の自発報告データベース FAERS と、医薬品投与日と有害
事象発現日の詳細な情報に富む国内自発報告データベース JADER を用いること
で、幅広い副作用を対象にし、また副作用の発症時期情報を含む新たなゴールド
スタンダートの構築を目的に検討を行った。
6
方法・結果
1. ゴールドスタンダード構築のフローチャート
初めに FAERS や JADER の前処理を行った。FAERS は世界中の有害事象報告
を集積しているため、様々な医薬品名がデータベースに登録される。そのため、
当研究室の薬物名辞書を用いて名寄せを行い、746,345 種類の医薬品の表記名を
3,060 種類ほどの成分名へ統一した。次に有害事象名の基本語は 20,000 種を超え
るため、MedDRA が推奨する用語集に従って有害事象の種類を 226 種の SMQ に
まとめた。その後、FAERS と JADER の両データベースに登録される約 3,000 種
の医薬品と 226 種類の SMQ のペアについて、不均衡分析(Disproportionality
analysis)と二項検定(Binomial test)の 2 種類の統計解析を網羅的に行い、図 1–
1 に示すフローチャートに従って最終的に 92 種類の陽性対照と 88 種類の陰性
対照からなるゴールドスタンダードを構築した。
Disproportionality Analysis
226 SMQ (adverse drug events)
Binomial Test
39 SMQ excluded because they were
not reported as ADRs.
47 SMQ excluded because it is difficult
to determine whether they were ADRs
(e.g. congenital abnormality, malignant
tumor)
Extracting drugs and SMQ that appear in
the positive controls, and selecting one
drug for each SMQ so that selected drug
is unlikely to be associated with the SMQ.
27 SMQ excluded because they were
similar to other SMQ
Check the product information to
examine whether the drug-event pairs
were recognized as truly associated
Check the product information and
biomedical literatures to examine whether
the drug-event pairs were highly unlikely
to be associated
21 SMQ were excluded because no
clinically appropriate drug-event pairs
remained
92 drug-event pairs
88 drug-event pairs
=
=
Positive controls
Negative controls
図 1–1 FAERS 及び JADER の網羅的解析による 92 種類の陽性対照と 88 種類
の陰性対照構築の全体像
7
2. 不均衡分析
不均衡分析は、各有害事象について有意に報告される医薬品を特定するため
に実施した。FAERS や JADER に登録される医薬品には、副作用の寄与として被
疑薬、併用薬、相互作用などの情報が登録される。本解析では「第一被疑薬」ま
たは「第二被疑薬」とされる報告のみを対象に解析を行った。各医薬品と各有
害事象(226 種類の SMQ)との関連について、報告オッズ比(ROR)と有意
性の指標となる Z score を網羅的に算出した [8]。具体的には、FAERS 及び
JADER に報告される症例を以下の 4 つのグループに分け解析を行った。
a:
b:
c:
d:
対象の医薬品を投与され、かつ特定の有害事象を発症した症例
対象の医薬品を投与されたが特定の有害事象を発症しなかった症例
対象の医薬品を投与されず、特定の有害事象を発症した症例
対象の医薬品を投与されず、特定の有害事象を発症しなかった症例
ROR と Z score は、以下の式で算出した。
ROR =
Z score =
𝑎/𝑏
𝑐/𝑑
log (ROR)
.1 + 1 + 1 + 1
𝑎 𝑏 𝑐 𝑑
ここで a、b、c、d は各群の症例数を示す。4 つのグループのうち 1 つでも
0 となる症例数がある場合、ROR 算出が困難となる。そのため本検討では、
Haldane–Anscombe 1/2 correction による補正(各症例数に 0.5 を加算)を行っ
た。「医薬品-有害事象」の陽性対照と陰性対照、さらに副作用の発症時期情
報は以下の基準で作成した。
8
3. 陽性対照
陽性対照は「医薬品-有害事象」の組合せのうち、「医薬品と有害事象間
に因果関係が認められる」と考え得る組合せと定義した。ここで、抗がん剤を
具体例に挙げた場合、悪心・嘔吐、倦怠感、脱毛、白血球減少症などその他
様々な有害事象が報告されると予想される。本検討では、その中でも他の有
害事象よりも有意に報告されているものを特定したいと考えた。そこで、各
医薬品について偶然報告よりも高い頻度で報告された有害事象を特定するた
め、二項検定(Binomial test)による統計解析を実施した [38]。具体的には、
対象となる医薬品について、報告された全ての有害事象発生の p-value を計算
し、Benjamini–Hochberg 法による False Discovery Rate(FDR)補正を行った
(R studio 'binom.test'関数を使用)。FDR 補正後の p-value が 0.01 未満の有害
事象については、その医薬品との関連が有意に高いと推定される。陽性対照
の作成は、二項検定の結果と不均衡度分析で有意(ROR > 1 および Z score >
1.96)と判定された「医薬品-有害事象」の組合せの中から作成した。
226 種類の SMQ のうち、39 種類は有害事象としての報告数が算出されな
かったため、以降の検討から除外された(表 1–1)。一部の SMQ は階層構造
になっており、複数の下位の SMQ の組合せからより包括的な上位の SMQ を
形成している [39]。今回は最も下位となる SMQ のみを対象にしたため、上位
SMQ は報告数が算出されなかった。また 47 種類の SMQ は有害事象であるか
の判定が困難であると判断し、以降の検討では除外した(表 1–2:例:先天性
異常など)。さらに 27 種類の SMQ は他の SMQ に類似していると判断し以
降の検討では除外した(表 1–3)。残った 113 種類の各 SMQ について、FAERS
及び JADER 解析で強い Z score を示した組合せから、以下の基準で 1 つの医
薬品を選択した。
1. 各 SMQ について FAERS と JADER で Z score 値が上位 30 位までの医薬
品を抽出
2. そのうち上位 3 組までについて製品情報を確認し、医薬品と有害事象の
組合せが妥当な関係であるかを検証。妥当と考えられる医薬品が
FAERS/JADER のデータベース間でサポートされていれば、その医薬品
を選択
3. 2.で基準を満たす医薬品が存在しなかった場合は、下順位を確認
表 1–4 に陽性対照作成の具体例を 2 つ記した。 ...