ニューラルネットワークの確率的正則化に関する研究
概要
1.1 研究の背景と目的
ニューラルネットワークは生物の神経回路網を単純化したモデルであり,生物の神経回路網が果たす高度な処理の実現が期待され,長年に亘り計算機科学における研究対象とされてきた.ニューラルネットワークの最初期の取り組みは1943 年に遡る.McCullochらは,全か無かの法則として知られる,神経細胞の閾値を越える刺激を受けた際に一定の興奮状態を示す振る舞いに着目し,この振る舞いを形式ニューロンとしてモデル化した [10].形式ニューロンは複数の入力に対し,総和を計算して 0 もしくは 1 の値を出力するシンプルなモデルである.形式ニューロンは最も単純な構造を持つニューラルネットワークであり,今日に至るまであらゆるニューラルネットワークの基礎として重要な役割を果たしてきた.Rosenblatt は,形式ニューロンを基に,多数の形式ニューロンで構成されるパーセプトロンを提案した [11].パーセプトロンは神経回路網を単純化した階層構造を持つ.パーセプトロンの階層構造は,入力層と呼ばれる最初の層の形式ニューロンの出力が中間層と呼ばれる次の層の形式ニューロンの入力となり,中間層の形式ニューロンの出力が出力層の入力となるという,連鎖的な構造によって実現されている.パーセプトロンには生物の神経回路網が果たす高度な処理の実現が期待されたが,実際には線形分類可能な問題しか扱えず,線形分類不可能な場合は扱えないことが明らかとなった [12].この問題はパーセプトロンの中間層を2 つ以上に増やした多層パーセプトロンによって解決された [13].また,形式ニューロンの出力を 0 と 1 の代わりに実数値にすることで,多層パーセプトロンが効率的に計算可能になった [14] ことで,今日に至るニューラルネットワークの原型が完成していった.
しかし,1990 年頃を境にニューラルネットワークに関する研究は一旦下火となっていく. その原因は大きく分けて 2 つ存在する [15]. 1 つ目の原因は,ニューラルネットワークの理論的背景の乏しさである.ニューラルネットワークは層数や形式ニューロン数などを自由に決められるが,それらが最終的な性能とどのように結びつくかが明らかでなかった.性能を引き出すためにそれらをいかに決めるか,ノウハウはあれど理論がなく [16],カーネル法サポートベクターマシン [17] に代表される強力な後発手法が決定打となり,徐々に下火となっていった.2 つ目の原因は,複雑なパターンが表現可能なことから有利と考えられていた [18],多層パーセプトロンに端を発する多層な構造である.ニューラルネットワークは学習と呼ばれるパラメータの勾配の計算と調整を通して多くのタスクを実現する [14].しかし,一定の条件下では,いくら学習しても学習に用いたデータの多くを上手く認識できない,アンダーフィッティングと呼ばれる問題が発生する.アンダーフィッティングは主にパラメータ数が少ないことが原因で発生するが,パラメータ数が十分多い場合にも多層な構造が原因で,アンダーフィッティングが起こり得る [19].この問題は多層な構造によって多くのパラメータ の勾配が非常に小さな値や非常に大きな値となり学習が進まなくなることに起因する.この現象は勾配消失問題と呼ばれ [20],多層な構造をもつニューラルネットワークを扱う上で大きな課題となった.
2000 年代後半から進んだ近年のニューラルネットワークの復権は,勾配消失問題の解決と共にあった.その契機となったのが,事前学習である.事前学習は,学習前に予め学習に適したパラメータの初期値を得ることで,勾配消失問題を緩和する手法である.事前学習は当初,制約ボルツマンマシン [21] と呼ばれる手法が用いられていたが,後により単純なオートエンコーダ [22] と呼ばれる手法が用いられるようになった.更に,標準正規分布に基づく乱数を各層の形式ニューロン数に基づいてスケーリングし初期値として利用すること等で,事前学習なしに優れた初期値を得て勾配消失問題を緩和する手法が提案され [23, 24, 25],一層ニューラルネットワークの研究が進む契機となった.勾配消失問題を緩和する手法の中でも勾配消失を大幅に緩和し,近年のニューラルネットワークの復権に大きく寄与したのが ResNet [1, 26] である.ResNet は Residual Block と呼ばれる特殊な構造によって,従来は勾配消失問題により学習が困難であった 100 層以上の多層な構造での学習を容易にし,当時の一般物体認識と呼ばれるタスクにおける最高精度を達成した.ResNet の登場は大きな衝撃を与え,画期的な構造である Residual Block の改良に焦点が当たるようになった.Residual Block を異なる形で改良した Wide ResNet [2],PyramidNet [3],ResNeXt [4] は相次いで精度を改善し,これらの改良手法は現在の一般物体認識における標準的手法となっている.ResNet, Wide ResNet,PyramidNet,ResNeXt の 4 つをまとめて ResNet 及びその改良手法と呼称する.
ResNet 及びその改良手法は勾配消失問題を緩和したが,全ての問題を解決した訳ではなく,依然としてオーバーフィッティングと呼ばれる大きな問題が残っている.オーバーフィッティングとは,学習に用いたデータはほぼ全て認識できるが,学習に用いなかったデータの多くが認識できない現象である.対策として正則化と呼ばれる処理がある.正則化は学習の際に意図的にデータの一部を欠損させる等の工夫を施すことで,ニューラルネットワークに追加の情報を与え,学習に用いなかったデータの一部を認識可能にさせ,オーバーフィッティングを緩和する工夫である.先述の一般物体認識では Stochastic Gradient Descent [27, 28],Data Augmentation [29, 30, 31, 32, 33, 34], Weight Decay [35],Label Smoothing [36],Adversarial Training [37, 38],Mixup [39, 40, 41, 42],Batch Normalization [43, 44],Dropout [45, 46] 等が正則化として利用されている.実際に,ResNet 及びその改良手法では,Data Augmentation [29, 30, 31, 32, 33, 34], Weight Decay [35] 等,既に様々な正則化が使われている.しかし,ResNet 及びその改良手法においてオーバーフィッティングの影響は依然として大きく,効果的な正則化の研究が進んでいる.
ResNet 及びその改良手法の精度を改善するためには,それらで基本的には用いられていない正則化を導入することが有効であると考えられる.実際に,確率的にニューラルネットワーク構造を変化させる,確率的正則化と呼ばれる正則化の導入によって,それらの精度が改善することが知られている.ただし,ResNet 及びその改良手法に対する確率的正則化の研究には以下の 2 つの課題がある.1 つ目は,優れたニューラルネットワーク構造の多くで,有効な確率的正則化が検討されていない点である.2 つ目は,Residual Block 構造によらない,汎用的な確率的正則化が検討されていない点である.そこで本研究では,前述の2 つの課題に対応すべく,ResNet 及びその改良手法に導入する新たな確率的正則化を検討する.1 つ目の課題に対しては,ResNet に対する確率的正則化 RandomDrop [5] を PyramidNet に適用する事例を通して検討する.PyramidNetにRandomDrop を適用すると,条件によっては精度が改善しない.これはPyramidNetのネットワーク構造が原因であると考えられる.ResNet とPyramidNet はどちらも先述の Residual Block を積層した構造をもつ.ResNet は殆どの Residual Block で特徴のサイズが変わらない.対して,PyramidNet は全ての Reisdual Block で特徴のサイズが変わる.このサイズの変化の違いが精度の改善を妨げていると考えられる.そこで,サイズの変化を考慮した確率的正則化として,サイズが変化する部分とそうでない部分で処理を分けた確率的正則化を新たに設計し,精度を改善する.2 つ目の課題に対しては,Residual Block 構造によらない汎用的な確率的正則化を検討する.その中で,特定の構造にしか使えないが効果的な手法である確率的正則化 Shake-Shake [47, 6] を分析し,Residual Block 構造によらない汎用的な確率的正則化 ShakeDrop を提案する. Shake-Shake は学習時の勾配の計算を敢えて狂わせることで効果を発揮するが,この原理を単純に他のネットワーク構造に適用すると,適切な学習が行えずかえって認識精度が低下する.そこで,適切な学習が行えるよう,確率的正則化 RandomDrop を導入した提案手法 ShakeDrop を提案する.それぞれ一般物体認識の評価のために収集されたデータセットである CIFAR-10 および CIFAR-100 [7] の分類精度において,提案手法を用いた際の認識精度の改善を確認し,発表当時における最高精度を 2 度に亘って達成した [48, 49].更に,PyramidNet において,汎用的な手法として設計された提案手法 ShakeDrop を適用した場合,正則化を用いない場合や PyramidNet に特化した提案手法を適用した場合よりも,高い性能を示すことが分かった.一般物体認識用データセットの 1 つ CIFAR-100 における最高精度の推移を図 1.1 に示す.図のように,提案手法の 1 つである ShakeDrop は以降の手法に組み込まれ,今やこの分野の標準的手法となっている.
1.2 本論文の構成
本論文は以下の全 5 章から成る.
第 2 章では,以降の章で参照する内容として,一般物体認識において代的なニューラルネットワークと,それらに用いられる正則化について説明する.最初に多くの手法の基礎となった ResNet の画期的な構造 Residual Block に関する説明を行い,ResNet及びその改良手法であるWide ResNet,PyramidNet,ResNeXt の差異や概要を説明する.次に,ニューラルネットワークに利用される正則化,ならびに本研究において重要な先行研究である確率的正則化の RandomDrop とShake-Shake について,その仕組みや特徴について詳細に述べる.また,それらの評価に用いられる一般物体認識用データセットの概要を説明する.
第 3 章では,一般物体認識において代表的なニューラルネットワークの 1 つである PyramidNet と,確率的正則化の 1 つである RandomDrop の組み合わせに焦点を絞り,特定の構造に対して有効な確率的正則化について検討する.両者を単純に組み合わせるアイディアはPyramidNet の論文中で言及されているものの,具体的な実験結果は報告されておらず,充分に検討されていない.そこで,PyramidNet とRandomDrop の組み合わせである PyramidDrop,更に構造を考慮した PyramidSepDrop を提案して実験を通して比較,分析を行う.一般物体認識データセットCIFAR-100 を用いた実験では,幾つかの条件の変化に伴って,確率的正則化の効果が向上することが確認された.また,それぞれの条件で,Residual Block の構造を考慮した工夫を施した PyramidSepDropが他の手法を上回るか同等の認識精度を達成することが確認できた.PyramidSepDropは一般物体認識データセットCIFAR-10 及び CIFAR-100 の分類精度において発表当時の主なニューラルネットの分類精度を上回り,最高精度を達成した.
第 4 章では,あらゆるResidual Block で効果的な確率的正則化について検討する.その中で,より効果的な確率的正則化を実現する手がかりとして,世界最高精度を塗り替えた効果的な確率的正則化の 1 つであるShake-Shake に着目する.ニューラルネットワークは学習をする上でパラメータの勾配を計算する必要がある.Shake-Shake は勾配の計算を狂わせることによって世界最高精度を塗り替える効果的な確率的正則化を実現した.しかし ResNet の改良手法の 1 つ ResNeXt に特化した手法であり,汎用的であるとは言えない.Shake-Shake と同様に効果的で,かつ汎用的な確率的正則化が望ましい.しかし,ResNeXt でないニューラルネットワークで Shake-Shake と同様に単純に勾配を狂わせると,適切な学習が行えずかえって認識精度が低下する.Shake-Shakeは,ResNeXt に特化することでこの問題を解決する.そこで ResNeXt でないニューラルネットワークでも適切な学習が行えるように,新たな工夫を導入した汎用的な確率的正則化 ShakeDrop を提案し,ResNet 及びその派生手法での有効性を検証する.具体的には汎用的かつ効果的な手法を目指し,事前実験を通して複数の構造において特に有効な提案手法 ShakeDrop の条件を探索し,更に本実験として一般物体認識用データセットCIFAR-10,CIFAR-100,ImageNet,COCO を用いた実験によって,提案手法 ShakeDrop の有効性を確認した.その結果,多くの実験において提案手法 ShakeDropは他の手法を上回る認識精度を達成した.実験の中でPyramidNet に提案手法を適用することで CIFAR-10 および CIFAR-100 の分類精度において発表当時の最高精度を達成した.本論文執筆時点においても提案手法は他の手法が CIFAR-10 および CIFAR-100の最高精度を達成する際に用いられている.
最後に,第 5 章では本研究によって得られた知見をまとめ,今後の課題を述べる.表 1.1 は本論文における変数及び関数の一覧である.