画像品質及びデータ分布を考慮したデータ拡張

松田卓也早稲田大学

2020.03.24

概要

1.1 研究背景
　近年，AIは技術が向上しているだけでなく，既に様々な商品・サービスに導入されてきている．具体的には，検索サイトやスマートスピーカー，自動車の自動運転などが身近な例として挙げられる．しかし，AIの精度を最大限高めるには一般的に大量のデータセットが必要である．アメリカや中国では，政府や企業の製品・サービスを通じて効率的にデータを収集しており，一部大手IT企業はビッグデータを独占しつつある．それゆえ，AIの技術水準は高い．対して，日本にはグローバルなプラットフォーマ企業がなく，ビッグデータを確保できていないことから，AIの研究やビジネスにおいて遅れをとっていると考えられる．
　国内企業の研究者や開発者がこうした状況の中，世の中にある膨大な量のデータを集めるのは難しい．そこで，既に所有しているデータおよび少ないデータを利活用しようとする研究の取り組みが主に二つある．一つは，少量のデータを効率的に学習する技法であり，もう一つは，生成モデルを使って学習用データを生成する技法である．
　前者では，ファインチューニングや転移学習といった技法があげられる．ファインチューニングは，事前学習したモデルの重みパラメータを初期値として，再度新しいデータセットに対して学習するアルゴリズムである．一方，転移学習は事前学習したモデルの重みパラメータを固定して，新たに追加した層の重みパラメータのみ再度学習するアルゴリズムである．どちらのアルゴリズムも，一般的に事前学習の際に用いられるデータセットは大規模なものが多い．
　後者の例として，Generative Adversarial Network(GAN)[1]やAuto Encoder(AE)[2]が挙げられる．生成モデルに関する研究は近年数多くなされており，GANに関する論文や特許出願の件数は増加傾向にある[3]．GANは新しい画像を生成できるが，収束させることが難しい．対して，AEは安定して学習できるが，データセットと同じような画像しか生成できず，新しい画像を生成することが難しい．また，身近な例として，これらの生成モデルは，ファッションや広告用の新しい画像の生成や3Dモデルの生成，顔画像の老化フィルタ生成などの様々なアプリケーションに使われ始めている[4]．
　以上のように，生成モデルを用いることで様々な画像を生成することができる．様々な画像を生成することは，国内企業の研究者や開発者のデータセット不足を解決する支援になると考えられる．しかし，一部のクラスのデータセットは既に多く持っている場合や，同一クラスの似ているデータセットを多く持っている場合など，持っているデータセットの分布にはいくつかのパタンが考えられる．よって，データセットの分布のパタンを考慮して画像を生成する必要がある．

1.2 研究目的
　本研究では，画像の品質およびデータ分布を考慮してデータ拡張することで，AIのクラス分類精度を向上することを目的とする．また，画像データセットの分布を3パタンに分け，それぞれに対する提案手法を述べる．一つ目に，全てのクラスの画像データセットが少ない場合．二つ目に，同じクラス内に似た画像データセットが多くある場合．三つ目に，画像データセットが多いクラスと，画像データセットが少ないクラスが混在する場合．手法としては，一つ目のパタンに対して，Generative Adversarial Capsule Network(CapsuleGAN)[5]を用いて品質を考慮した画像を生成する．二つ目のパタンに対しては，Variational Auto-Encoder(VAE)[6]の潜在変数を操作して，同一クラス内に偏りが生じないように画像を生成する．三つ目のパタンに対しては，Adversarial Autoencoder(AAE)[7]とSynthetic Minority Over-sampling Technique(SMOTE)[8]を用いて少数クラスのデータを拡張する．

1.3 本論文の構成
　以下に本論文の構成を示す．
第１章本章であり，研究の背景および目的について述べる．
第２章本論文で用いる関連技術について述べる．
第３章提案手法について述べる．
第４章提案手法の実験概要と実験結果について記述し，実験結果の考察について述べる．第５章本論文の結論と今後の課題について述べる．

論文の公開元へ

分野

大学

学位論文種類・取得年

言語

画像品質及びデータ分布を考慮したデータ拡張

概要

この論文で使われている画像

関連論文

Comprehensive evaluation of preprocessing methods for visualizing single-cell RNA-seq count data

機械学習を用いた歯科診療内容推定基盤の構築

ニューラルネットワークの確率的正則化に関する研究

生体情報を用いた個々の映像視聴者及び複数映像視聴者間における感情分類及び推定に関する研究

距離行列を用いたスクワット分類

参考文献

分野

大学

学位論文種類・取得年

言語

コピーが完了しました

URLをコピーしました

画像品質及びデータ分布を考慮したデータ拡張

概要

この論文で使われている画像

関連論文

Comprehensive evaluation of preprocessing methods for visualizing single-cell RNA-seq count data

機械学習を用いた歯科診療内容推定基盤の構築

ニューラルネットワークの確率的正則化に関する研究

生体情報を用いた個々の映像視聴者及び複数映像視聴者間における感情分類及び推定に関する研究

距離行列を用いたスクワット分類

参考文献