順序尺度型の一対比較データを用いた逆強化学習
概要
近年,デジタル化の進展や計算機の性能向上により多様で膨大なデータを得ることが可能になり,行動選択ルールの最適化を扱う強化学習は多くの領域で活用されるようになった.強化学習は深層学習と組み合わせることにより,囲碁やビデオゲームにおいてはプロを超えるパフォーマンスを達成した.その他にも医療統計分野における治療(介入)を行動として強化学習の枠組みを用いる動的治療計画の研究やビジネスにおける交渉モデルなど,多岐にわたる領域での応用が期待されている.
強化学習では事前に報酬関数を設定し,与えられた環境の下で報酬を最大とするような行動をとるようにエージェント(学習者)を学習させていく.しかし,現実の複雑なタスクでは,状態空間が大きいだけでなく,目的に関係する要因を報酬関数として表現することが困難な場合がある.報酬関数の設計が不適切だと,我々が意図しない行動を学習してしまったり,学習の効率が著しく低下する恐れがある.
逆強化学習は,報酬を手動で設計せず,そのタスクにおいて最適な行動を実行できるような熟練者の存在を仮定し,熟練者が生成した状態行動対の軌跡を教師データとして報酬を推論するアルゴリズムである.逆強化学習においても深層学習と組み合わせることにより,ロボットの歩行やシミュレーション環境での運転など高次元のタスクでも学習が可能となった.しかし,逆強化学習による報酬関数の学習には最適な行動をすることで得られる軌跡が必要であったため,熟練者の行動を収集することが難しいタスクでは学習できなかった.この問題に対し,さまざまな質の軌跡から作成した一対比較データを用いて報酬を推論するT-REX[2]などのモデルが提案され,必ずしも熟練していないエージェントによる教師データからも学習を進めることができるようになった.
T-REXの学習に使用する一対比較データのラベルは,二つの軌跡の優劣しかつけられなかった.そこで,ラベルを順序尺度に拡張し,引き分けなど多段階のラベル付けに対応した逆強化学習モデルを提案する.