順序尺度型の一対比較データを用いた逆強化学習

坂本佳紀中央大学

2022.09.22

概要

近年,デジタル化の進展や計算機の性能向上により多様で膨大なデータを得ることが可能になり,行動選択ルールの最適化を扱う強化学習は多くの領域で活用されるようになった.強化学習は深層学習と組み合わせることにより,囲碁やビデオゲームにおいてはプロを超えるパフォーマンスを達成した.その他にも医療統計分野における治療(介入)を行動として強化学習の枠組みを用いる動的治療計画の研究やビジネスにおける交渉モデルなど,多岐にわたる領域での応用が期待されている.

強化学習では事前に報酬関数を設定し,与えられた環境の下で報酬を最大とするような行動をとるようにエージェント(学習者)を学習させていく.しかし,現実の複雑なタスクでは,状態空間が大きいだけでなく,目的に関係する要因を報酬関数として表現することが困難な場合がある.報酬関数の設計が不適切だと,我々が意図しない行動を学習してしまったり,学習の効率が著しく低下する恐れがある.

逆強化学習は,報酬を手動で設計せず,そのタスクにおいて最適な行動を実行できるような熟練者の存在を仮定し,熟練者が生成した状態行動対の軌跡を教師データとして報酬を推論するアルゴリズムである.逆強化学習においても深層学習と組み合わせることにより,ロボットの歩行やシミュレーション環境での運転など高次元のタスクでも学習が可能となった.しかし,逆強化学習による報酬関数の学習には最適な行動をすることで得られる軌跡が必要であったため,熟練者の行動を収集することが難しいタスクでは学習できなかった.この問題に対し,さまざまな質の軌跡から作成した一対比較データを用いて報酬を推論するT-REX[2]などのモデルが提案され,必ずしも熟練していないエージェントによる教師データからも学習を進めることができるようになった.

T-REXの学習に使用する一対比較データのラベルは,二つの軌跡の優劣しかつけられなかった.そこで,ラベルを順序尺度に拡張し,引き分けなど多段階のラベル付けに対応した逆強化学習モデルを提案する.

論文の公開元へ

分野

大学

学位論文種類・取得年

言語

順序尺度型の一対比較データを用いた逆強化学習

概要

関連論文

視覚探索課題を用いた作業記憶の定量化と中枢神経作用薬の影響

薬学教育における情報教育の過去・現在・未来

ペアトレーディング戦略とその周辺に関する研究

海馬神経回路における学習関連記憶の予測的表現と優先順位付きリプレイ

スポーツ映像解析のための特定物体検出に関する研究

参考文献

分野

大学

学位論文種類・取得年

言語

コピーが完了しました

URLをコピーしました

順序尺度型の一対比較データを用いた逆強化学習

概要

関連論文

視覚探索課題を用いた作業記憶の定量化と中枢神経作用薬の影響

薬学教育における情報教育の過去・現在・未来

ペアトレーディング戦略とその周辺に関する研究

海馬神経回路における学習関連記憶の予測的表現と優先順位付きリプレイ

スポーツ映像解析のための特定物体検出に関する研究

参考文献