深層学習による小児口腔内写真の生成および生成画像の評価
概要
【緒言】
近年、畳み込みニューラルネットワークを用いた深層学習が発展し、医用画像に応用されている。敵対的生成ネットワーク(Generative Adversarial Network; GAN)は画像生成用の深層学習の1つであり、生成器と識別器の2つのネットワークで構成される教師なし深層学習である。1つの病院で入手可能な口腔内写真の量は限られているため、GANを用いた口腔内写真の生成が期待されている。GANを用いた医用画像の生成に成功している例が報告されているが、グレースケールのエックス線画像のみを対象としている報告が多く、また生成された医用画像の質について専門医による評価は行われていない。
口腔内診査は歯科医療の意思決定において重要な技術の一つであり、特に小児歯科においては成長に伴い変化していく口腔内環境を理解するために様々な状態の口腔内写真を学習しておくことが望ましい。しかし、プライバシー保護の観点から異なる病院間での口腔内写真の共有には制限がかかることが多く、多数の症例を学習、教育する機会を増やすことは困難である。そのため、経験の浅い小児歯科医と熟練した小児歯科医の差を補うための学習ツール開発が必要である。
そこで本研究では、医用画像を生成することでプライバシーが制御された疑似データとして応用出来ると考え、GANの一種であり初めて高解像度の画像生成に成功したProgressive Growing of Generative Adversarial Networks(PGGAN)を用いてフルカラーの口腔内写真の生成を行い、生成された口腔内写真の質を小児歯科医が評価することとした。
【材料および方法】
本研究は、大阪大学大学院歯学研究科・歯学部および歯学部附属病院倫理審査委員会の承認を得て行った(承認番号:R1-E29)。
1. データセット
本学歯学部附属病院小児歯科を受診した患者から得られた35,254枚の口腔内写真をPGGANの学習用の画像データとして利用した。全ての画像は匿名化されており、氏名や性別、年齢、病名、撮影したカメラなどのメタデータは含まれていなかった。乳歯列や混合歯列、永久歯列、健全歯、う蝕歯、処置歯など、多様な状態が含まれていた。全ての画像を128×128ピクセル、256×256ピクセル、512×512ピクセル、1,024×1,024ピクセルの4種類にリサイズし、JPEGに変換した。深層学習では学習するデータセットが少ないと過学習に陥る傾向があるといわれているため、画像の水増しを行った場合と行わなかった場合で結果を比較した。
2. 画像生成
GANの1種であるPGGANを採用した。PGGANは低解像度の画像から学習を開始し、生成器と識別器の両方に新しい層を徐々に追加していくことで初めて高解像度の画像生成に成功したアーキテクチャーを持つ。128×128ピクセル、256×256ピクセル、512×512ピクセル、1,024×1,024ピクセルにリサイズした口腔内写真を用いてPGGANを学習させ、各解像度で生成器が生成した画像を定性的および定量的に評価を行った。また、潜在変数を線形補間することで生成される口腔内写真のモーフィングが可能であるかどうか検討した。
3. 定量的評価
生成画像の定量的評価に用いられる計算指標としてSliced Wasserste in Distance(SWD)を採用した。SWDの値が小さい程、真正画像と生成画像が類似していることを示す。PGGANの学習中は一定時間毎にパラメータを保存し、最小のSWDを示す生成器のパラメータを用いて画像生成を行った。
4. 定性的評価
生成器からランダムに画像を生成させ、明らかに生成画像と識別可能なものは除外した。128×128ピクセル、256×256ピクセル、512×512ピクセル、1,024×1,024ピクセルの各解像度において、50枚の生成画像と50枚の真正画像をランダムに並べ替え、全ての解像度で異なる画像を用いて合計400枚の画像を用意した。画像を目視して観察し、真正画像か生成画像かを識別するよう本学小児歯科学教室に所属する12名の小児歯科医に指示した。生成画像と識別した場合、識別に至った判定箇所に手書きで印をつけるよう指示した。その後、判定箇所を集計して識別要素を分類し、各要素が識別に使用された回数を集計した。使用回数の解像度間における差はKruskal-Wallis検定で評価した。また、識別結果から信号検出理論に基づき各小児歯科医のd primeを算出した。d primeは与えられた情報を識別する能力を示す指標であり、判断基準による個人差の影響が少ないといわれている。本研究ではd primeの値が大きいほど正しい画像識別が可能であるといえるため、画像を識別する容易さを測る指標として用いた。d primeはShapiro-Wilk検定およびBartlett検定による正規性の確認後、分散分析(ANOVA)およびTukey's HSD検定を行った。ANOVAの結果から検定力を算出し、評価人数の妥当性を検討した。全ての有意水準は5%とした。
【結果】
定量的評価では、128×128ピクセル、256×256ピクセル、512×512ピクセルでは学習データの水増しによってSWDが減少し、生成画像の真正画像に対する類似度が向上した。一方で、1,024×1,024ピクセルではSWDが増加し、学習データの水増しにより生成画像の類似度は改善されなかった。定性的評価では、水増しした真正画像を学習したPGGANによる生成画像では、画像の辺縁が明らかに異なるため評価せず、水増ししていない真正画像を学習したPGGANによる生成画像のみを評価した。Shapiro-Wilk検定およびBartlett検定の結果、128×128ピクセル、256×256ピクセル、512×512ピクセル、1,024×1,024ピクセルの各解像度のd primeは正規分布に従い、等分散であることを確認出来たため、ANOVAおよびTukey's HSD検定を適応した。ANOVAの検定力は0.99であり、評価者の人数は十分であった。Tukey’s HSD検定の結果、1,024×1,024ピクセルのd primeは128×128ピクセル、256×256ピクセル、512×512ピクセルに比べて有意に高い値を示し、他の組み合わせでは有意差は認められなかった。画像を識別する際の判定箇所を集計したところ「歯」「歯列」「軟組織」「その他」の4要素に分類され、最も多く使用されていた判定箇所は「歯」であった。各要素の使用回数についてKruskal-Wallis検定を行ったところ、解像度間における有意な差は認められなかった。
【考察】
1,024×1,024ピクセルだけが有意に高いd primeを示し、SWDも高かった。1,024×1,024ピクセルの生成画像は他の解像度と比較して真正画像との識別が容易であり、類似度が低いと考えられる。512×512ピクセル以下で生成された口腔内写真は小児歯科医が真正画像か生成画像か明確に識別困難であり、類似度の高い画像生成に成功しているといえる。また、小児歯科医が画像を識別する際に最も使用された要素は「歯」であった。「歯列」や「軟組織」の種類よりも「歯」の解剖学的形状の種類が多く、本研究の少ないデータセットでは「歯」の特徴をPGGANが学習して生成することが出来なかったからではないかと考えられる。
乳歯列期、混合歯列期、永久歯列期の画像を生成する潜在変数を得た後、それらを線形補間することで様々な状態の口腔内写真を生成出来ることが示された。生成された口腔内写真は実在する患者から得た物ではなく、プライバシーが制御された疑似データであるため、教育や患者への説明用資料としての応用や口腔内写真に関する深層学習での水増し手法として性能向上に寄与できる可能性が示された。