リケラボ論文検索は、全国の大学リポジトリにある学位論文・教授論文を一括検索できる論文検索サービスです。

リケラボ 全国の大学リポジトリにある学位論文・教授論文を一括検索するならリケラボ論文検索大学・研究所にある論文を検索できる

リケラボ 全国の大学リポジトリにある学位論文・教授論文を一括検索するならリケラボ論文検索大学・研究所にある論文を検索できる

大学・研究所にある論文を検索できる 「順序尺度型の一対比較データを用いた逆強化学習」の論文概要。リケラボ論文検索は、全国の大学リポジトリにある学位論文・教授論文を一括検索できる論文検索サービスです。

コピーが完了しました

URLをコピーしました

論文の公開元へ論文の公開元へ
書き出し

順序尺度型の一対比較データを用いた逆強化学習

坂本 佳紀 中央大学

2022.09.22

概要

近年,デジタル化の進展や計算機の性能向上により多様で膨大なデータを得ることが可能になり,行動選択ルールの最適化を扱う強化学習は多くの領域で活用されるようになった.強化学習は深層学習と組み合わせることにより,囲碁やビデオゲームにおいてはプロを超えるパフォーマンスを達成した.その他にも医療統計分野における治療(介入)を行動として強化学習の枠組みを用いる動的治療計画の研究やビジネスにおける交渉モデルなど,多岐にわたる領域での応用が期待されている.

強化学習では事前に報酬関数を設定し,与えられた環境の下で報酬を最大とするような行動をとるようにエージェント(学習者)を学習させていく.しかし,現実の複雑なタスクでは,状態空間が大きいだけでなく,目的に関係する要因を報酬関数として表現することが困難な場合がある.報酬関数の設計が不適切だと,我々が意図しない行動を学習してしまったり,学習の効率が著しく低下する恐れがある.

逆強化学習は,報酬を手動で設計せず,そのタスクにおいて最適な行動を実行できるような熟練者の存在を仮定し,熟練者が生成した状態行動対の軌跡を教師データとして報酬を推論するアルゴリズムである.逆強化学習においても深層学習と組み合わせることにより,ロボットの歩行やシミュレーション環境での運転など高次元のタスクでも学習が可能となった.しかし,逆強化学習による報酬関数の学習には最適な行動をすることで得られる軌跡が必要であったため,熟練者の行動を収集することが難しいタスクでは学習できなかった.この問題に対し,さまざまな質の軌跡から作成した一対比較データを用いて報酬を推論するT-REX[2]などのモデルが提案され,必ずしも熟練していないエージェントによる教師データからも学習を進めることができるようになった.

T-REXの学習に使用する一対比較データのラベルは,二つの軌跡の優劣しかつけられなかった.そこで,ラベルを順序尺度に拡張し,引き分けなど多段階のラベル付けに対応した逆強化学習モデルを提案する.

参考文献

[1] Agresti, A. (1992). Analysis of ordinal paired comparison data, In Journal of the Royal Statistical Society. Series C (Applied Statistics), 41(2), pp.287-297.

[2] Brown, D. S., Goo, W., Prabhat, N., and Niekum, S. (2019). Extrapolating beyond suboptimal demonstrations via inverse reinforcement learning from observations, In Proceedings of 36th International Conference on Machine Learning, pp.783-792.

[3] Ramachandran, D., Amir, E. (2007). Bayesian inverse reinforcement learning, In Proceedings of the 20th international joint conference on Artifical intelligence, pp.2586-2591.

[4] Ziebart, B. D., Maas, A., Bagnell, J. A. (2008) Maximum entropy inverse reinforcement learning, In Proceedings of 23th Association for the Advancement of Artificial Intelligence, pp.1433-1438.

参考文献をもっと見る

全国の大学の
卒論・修論・学位論文

一発検索!

この論文の関連論文を見る