確率分布に基づいた言語埋め込みモデル

大竹梓月中央大学

2022.09.22

概要

1 はじめに
近年，人工知能の発展に伴い，その要素技術の 1 つである機械学習が多くの分野で活用されている．機械学習の目的の 1 つは，データからパターンを抽出し，それらのパターンを用いて予測を行うことである．学習を行う際の入力データの特徴は，学習パターンの性質や品質に大きな影響を及ぼすため，特徴を反映している入力データが重要な役割を果たす．入力データが既に実数値として表現されている場合は問題はないが，画像やテキスト，音声データのように単純に表現することができないものもある．これらの構造化されていない入力データを，特徴をもつ低次元のベクトルに落とし込むことを特徴埋め込みといい，また特にテキストデータにおけるこの低次元に埋め込まれたベクトルを単語の分散表現と呼ぶ．

自然言語処理の分野では，行列分解によって各単語の分散表現を獲得する潜在意味解析という手法から始まり，近年では Schwenk [2] が提案したニューラルネットワークを用いて単語をベクトルに埋め込むモデルであるニューラルネットワーク言語モデル (Neural Network Language Model, NNLM) [2] など数多くの研究が行われている．単語を分散表現として表すことにより，単語同士の類似度を測ったり，単語の加算や減算を行ったりすることができるようになる．一方で，単語の意味の広がりを捉えることができず，単語同士の意味の重なりや包含関係をこれらのモデルでは考慮することができないという欠点がある．

以上の課題を解決するため近年提案されているモデルが word2gauss [3] である．このモデルでは各単語を分散表現として埋め込むのではなく，埋め込み空間上に確率分布として埋め込むことを目的としている．各単語を確率分布として埋め込むことにより，その平均ベクトルを NNLM などで得られる分散表現として見ることができ，また分散を単語の意味の広がりとして捉えることができる．

本研究では，単語を分散表現として埋め込む 12 個のモデルと確率分布として埋め込む 3 個のモデルについて整理し，さらに word2gauss モデル [3] と word2gm [1] モデルの目的関数を変更したモデルについて検討する．

2 単語分散表現の埋め込み
単語の分散表現を学習するための手法は多く提案されており，本論文では 12 個のモデルについて整理した．ここでは，ニューラルネットワークを用いた手法である NNLM [2] を説明する．

2.1 NNLM: Neural Network Language Model
NNLM では，着目したある単語をその前に出現する n − 1 個の単語から予測することを基本的な考え方としており，その予測を入力層，隠れ層，出力層の 3 層のニューラルネットワークを用いて行う．通常のニューラルネットワークと異なる点は投影層の存在である．投影層は，入力層の n − 1 個のベクトルに重みを掛け，それを結合したものを出力する層である．

3 単語表現の確率分布への埋め込み
潜在意味解析やNNLM では，単語の意味の広がりや単語同士の包含関係を見ることができないという欠点があった．そこで，ガウス分布に単語を埋め込む word2gauss モデル [3] や混合ガウス分布へ埋め込む word2gmモデル [1] が提案されている．3.1 節，3.2 節でそれぞれのモデルについて説明し，3.3 節ではその 2 つのモデルを拡張し，目的関数を変更したモデルについて検討する．

3.1 word2gauss: Word Representations via Gaussian Embedding
Vilnis and McMallum [3] により提案された word2gauss モデル [3] は，NNLM などの埋め込みモデルの欠点であった意味の広がりを考慮したモデルである．word2gauss モデルでは単語をベクトルとして埋め込むのではなく，潜在的な関数，すなわち潜在空間における連続的な密度に埋め込むことを提案している．このように単語を無限次元の関数空間におけるガウス分布として直接埋め込むことにより，空間内の領域にマッピングできるので包含関係も捉えることが可能である．

3.2 word2gm
word2gauss モデルでは単語を 1 つの山の形でしか表現することができないので，この表現で学習された不確実性は複数の異なる意味をもつ単語，つまり多義語に対して過度に拡散してしまう可能性がある．そこで Athiwaratkun and Wilson [1] は複数の異なる意味をもつ単語の不確実性，及び解釈性の向上のために混合ガウス分布で各単語を表現する word2gm モデル [1] を提案した．

3.3 L2 ダイバージェンスを用いた word2gauss モデルと word2gm モデル
3.1 節，3.2 節のモデルに用いるエネルギー関数としては，word2gauss モデルでは期待尤度や KL ダイバージェンス，word2gm モデルでは期待尤度のみを使用していた．word2gm モデルにおいて KL ダイバージェンスを用いていないのは，エネルギー関数を閉じた形で表現できず，勾配計算によるパラメータ推定が困難となるためである．エネルギー関数としては 2 つの分布の近さを測るものを選択すれば良いため，他のダイバージェンスに置き換えることも可能である．ここでは，word2gm モデルにおいてもエネルギー関数を閉じた形として表現できるよう L2 ダイバージェンスを用いた場合の word2gauss モデルと word2gm モデルについて検討する．

4 おわりに
本研究では，自然言語処理に焦点を当て単語の特徴埋め込みモデルを整理し，L2 ダイバージェンスを用いたモデルを検討した．今後の研究課題として次の 2 つをあげる．1 つ目は，ガウス埋め込みのさらなる拡張である．本稿では単純にエネルギー関数の変更を行なったが，ガウス分布を他の分布，例えば楕円分布に置き換える方法も考えられる．2 つ目は，ダイバージェンスを変更したことによる影響や，L2 ダイバージェンスを用いた場合の埋め込みの特徴がどのようなものであるかを調べることである．これら 2 点が今後の研究課題である．

論文の公開元へ

分野

大学

学位論文種類・取得年

言語

確率分布に基づいた言語埋め込みモデル

概要

関連論文

関係データの連続的表現に関する研究

Classification and Representation of Physical States by Neural Networks

画像品質及びデータ分布を考慮したデータ拡張

ニューラルネットワークの確率的正則化に関する研究

アイデア創出のための特許文献からの知識発見に関する研究

参考文献

分野

大学

学位論文種類・取得年

言語

コピーが完了しました

URLをコピーしました

確率分布に基づいた言語埋め込みモデル

概要

関連論文

関係データの連続的表現に関する研究

Classification and Representation of Physical States by Neural Networks

画像品質及びデータ分布を考慮したデータ拡張

ニューラルネットワークの確率的正則化に関する研究

アイデア創出のための特許文献からの知識発見に関する研究

参考文献