浅見 莉絵子 早稲田大学



機械学習で使用するデータの多くは,ツリー,グループ,クラスター,シーケンスなどの構造化データである.そして多くの構造化データはグラフ構造として表現することができる [1].図 1.1 にグラフ構造の例を示す.グラフ構造はノードと,ノード間のつながりや経路を表すエッジから構成される.近年グラフ構造は,ソーシャルネットワークから医療工学 [2],バイオインフォマティクス [3],化学 [4],および天文学まで,多くの分野で注目されている.例えばソーシャルネットワークでは,ユーザー同士の繋がりをグラフ構造で表すことができる.これは現実世界における学校の交友関係や企業の同僚との関係を表す.ソーシャルネットワークのグラフを分析することにより,ユーザーの分類,コミュニティの検出,友達の推薦などを行うことができる [5].また化学における分子化合物では,各原子をノードとし,原子同士の結合をエッジとするグラフ構造表現によって記述できる.さらに,タンパク質の相互作用をグラフ構造で表現すると,ノードがタンパク質に対応し,エッジが相互作用するタンパク質間のリンクを表す.このように,グラフ構造表現は多くのアプリケーションで構造化データを記述する手段として有効であり,グラフ表現を用いることで数学的処理が可能となる.本論文では,グラフ構造を持ったデータをグラフデータと呼ぶ.


グラフデータに対する機械学習,統計,コンピュータビジョンの基本的な問題を表す一例として,Graph Matching(GM)がある [6].GM では,グラフデータのペア間でノードやエッジの不一致を最小限に抑えるような,最適なマッチングパラメータを探して調整する.これは,理論的にも実際的にも難しい問題であり,NP 完全問題 [7] としてよく知られている 2 次割り当て問題になる.Lawler QAP [8] と Koopmans Beckmann QAP [9] の二つはよく使われている定式化だが,計算が非常に複雑である.しかし GM 問題は,コンピュータビジョン [10],ネットワーク分析 [11],バイオインフォマティクス,生物学 [12],データマイニングなどの多くのアプリケーションで頻繁に発生する.例として,マルウェアサンプルの検出が挙げられる [11].グラフ構造表現でサンプルをコーディングすると,未知のサンプルに対する既知のマルウェアサンプルやクリーンサンプルとの比較を検出の難易度として,GM 問題と同様に再定式化できる.また,データベースの中の既知のタンパク質に対するグラフ表現されたタンパク質の分類では,実験で得られた新しいタンパク質を識別することができる.

上記のような GM 問題は,一般的に二つのカテゴリに分類される.一つ目は,1 対 1 マッピングとも呼ばれる Exact Graph Matching であり,ノードの数が同じ二つのグラフ間の厳密な対応が必要である.二つ目は Inexact Graph Matching で,多対多マッピングまたはベストグラフマッチングとも呼ばれる.Inexact Graph Matching では Exact Graph Matching が緩和され,複数のノードをマージすることで大きさの違うグラフをマッチングできるようになる.したがって,Inexact Graph Matching はノードの数が異なるグラフ間のマッチングに適用でき,より現実世界に近いデータに対応することができる.GM,グラフ分類,グラフクラスタリングなどのグラフベースの問題で扱うグラフ類似性を検討すると,ノード間のペアワイズ距離の類似性行列または共分散行列が,固有の構造情報を用いるために利用できる最も効果的な手法である.これらの手法は,着目するノードを絶対的な方法で表現するのではなく,残りのノードに対する相対的な方法で表現する.既存研究では,Random Walk [13, 14] および Shortest Path [15],Subtrees [4, 14],Cycles [16],Graphlets [17],Pyramid Matched Graphs [18] に基づくカーネルがあり,二つのグラフ構造化データ間の類似性を測定するグラフカーネルは,効果的なアプローチである [19].さらに,Weisfeiler–Lehman 手法 [20] を使用してパフォーマンスを改善することができる.このアプローチの顕著な利点は,取得したカーネルを Support Vector Machine(SVM)などの既存の機械学習手法にプラグインできることである.他にも,グラフ畳み込みネットワークは,エンドツーエンドでグラフ上の機能の最適な組み合わせを学習する手法であり既存手法よりも優れている [1, 21–24].また,最適輸送 [25, 26] に基づく手法では,グラフデータに確率測度を与える.例えば,最適輸送を用いた Gromov– Wasserstein (GW) 距離 [27–29] では,二つの異なる距離空間において,空間内のペアワイズ距離を用いて,二つの確率測度間の距離を計算する.しかし,いずれの手法でも完全な GM,グラフ分類,グラフクラスタリングを行うには至っていない.そこで本研究では GW に基づき,さらに構造の類似性を表す新たなパラメータを検討した.


