リケラボ論文検索は、全国の大学リポジトリにある学位論文・教授論文を一括検索できる論文検索サービスです。

リケラボ 全国の大学リポジトリにある学位論文・教授論文を一括検索するならリケラボ論文検索大学・研究所にある論文を検索できる

リケラボ 全国の大学リポジトリにある学位論文・教授論文を一括検索するならリケラボ論文検索大学・研究所にある論文を検索できる

大学・研究所にある論文を検索できる 「マルチエージェント分散協調問題における自律分散学習下での協調構造の創発と解析に関する研究」の論文概要。リケラボ論文検索は、全国の大学リポジトリにある学位論文・教授論文を一括検索できる論文検索サービスです。

コピーが完了しました

URLをコピーしました

論文の公開元へ論文の公開元へ
書き出し

マルチエージェント分散協調問題における自律分散学習下での協調構造の創発と解析に関する研究

宮下 裕貴 早稲田大学

2021.08.03

概要

近年、半導体と通信技術の発展に伴い様々なデバイスにセンサや通信機能が搭載され,複数のデバイスを統合した新たなサービスが実用化され始めている.一方,これらのサービスは,デバイス(センサやロボット)の増加や大規模化に伴い複雑化が生じるため,高度なサービスの実現には,個々のデバイスがその役割を達成するために自律的に行動するシステムが有効な方法の一つである.

個々のデバイスが自律的に行動するシステムを対象とした研究分野にマルチエージェントシステムがある.マルチエージェントシステムでは,自律的な意思決定主体のエージェントが疎に結合された系であり,各エージェントは,それぞれの目的を達成するタスクの処理のため,システム内の他エージェントと協調あるいは競争し、効率的なタスク処理を試みる.ここでエージェントは,システム内に存在する知的なデバイスや計算ノードが対応する.つまり,マルチエージェントシステムは,複雑なデバイスネットワークの中で情報を連携させながら分散かつ並列に処理し,システムの大規模化と効率化を理論的・基礎的な観点から吟味し、実現する技術である.特に,協力的なエージェントの集合から全体で共有した目的を実現させるインタラクションや協調の方法を解明することを自律分散協調問題と呼び,この問題の効果的な解決には,エージェントの協調行動を自然に発現させる協調構造の形成が有効な手段となる.

協調構造の設計には,環境の特徴,各エージェントの能力や数,タスク構造などのシステム全体を包括した理解が必要となるが,システムデザイン時に全体を把握し、適切に設計することは難しい.さらに安定した協調行動を確保するには,環境の動的な変化に従って,エージェントの行動や関係性も変化させる必要があり,予め静的に定めた協調構造は非効率となりうる.そのためエージェントが自律的に学習して、適切な協調構造の発現と環境の変化に適応して柔軟に協調構造を修正することが望ましい.

一方,深層強化学習をエージェントの行動学習に組み合わせ,複雑な環境下での学習の収束とシステム性能の向上が一部ではあるが可能になってきた。しかし,各エージェントが有するニューラルネットワークへ入力する情報とその構成が及ぼす学習の収束性、協調構造の発現性とその構造への影響は明らかになっていない.また,エージェントの行動学習には,自己が実施すべきタスクに必要な行動への評価と、他エージェントの協調行動を促すような「自己の役割には直接関係はないが、全体の効率に影響を与える行動」に対する評価のバランスが重要だが,具体的な評価方法や報酬量の配分などが与える学習の収束性・協調構造への影響、その結果得られるシステム効率性などは十分に解明されていない.

複雑な環境に多数のエージェントの存在が想定される実サービスでは,運用の観点から説明可能性と信頼性のある協調構造の生成が望ましい.しかし,特にニューラルネットワークを用いた場合の個々エージェントの振る舞いの理解は容易でなく,それらの相互作用が及ぼす影響は予測困難である.ニューラルネットワークへの入力構造、行動の評価と発現する協調構造の関係が明らかになれば,学習により発現した協調構造のデザインの調整・予測が可能となり,システムの説明可能性も向上する.さらに,協調構造の説明可能性によるエージェントの行動の理解が進み,システムの信頼性が向上するだけでなく,形成された協調構造の変化に対する頑強性や再利用性も予見できる.

そこで本研究では,マルチエージェント深層強化学習を適用したシステムの説明可能性と信頼性の向上を目標に,実サービスへの導入を想定したシミュレーション環境において,それぞれのエージェントが個々に有するニューラルネットワークへの入力値や,エージェントの行動に対する評価方法が,学習の収束・協調構造の発現とその特徴に与える影響を探求した.始めに,入力値の違いによりエージェントは異なる特徴を有した協調構造を自律的に発現することを確認した.次に,自己タスク処理の効率化と協調行動をともに生み出す報酬配分法を提案し,その報酬配分が自己がすべきタスク処理行動と他エージェントとの協調行動の学習へ及ぼす影響を調べた.

本論文の構成は,1章に当研究の背景と目的,2章に当該分野を俯瞰した関連研究,3章に本論文で共通に用いる分散協調問題のモデル,4章から6章に当該研究の主要成果,最後の7章に当該研究の総括である.

4章では,深層強化学習を適用したマルチエージェント学習において協調構造の自律的発現の確認を目的に,グリッド環境において複数エージェントが複数のタスクを継続的に回収し続ける単純な分散協調探索問題における協調構造の発現の有無、ニューラルネットワークへの入力情報とその構成に応じて、(1)異なる協調構造が発現すること、(2)それらの特徴の調査と、(3)協調構造ごとのシステム性能への影響を分析した.自己周辺の情報のみを入力値とした場合,タスクや他エージェント位置を考慮した柔軟なタスク回収行動を学習した.一方、自己周辺の情報に環境内の自己位置を加えると,他エージェントとのタスク回収の競合を回避するために,作業領域が重複させないような担当領域を自律的に形成した.

次に,4章の実験結果を受けて,5章では,より実サービスに近い環境を想定し,ロボットによる資材運搬作業を抽象化した問題における協調構造の発現とシステム性能を確認した.本問題では,移動時にエージェントの衝突が発生しやすい環境を想定し,それを防ぐために発現した入力構成ごとの協調構造の特徴を分析した.本環境において,自己周辺の情報を入力値とした場合は,移動の際の衝突を回避するため,状況に応じて柔軟に行動を変え,また,同期的に同じ方向に移動することで衝突を回避する行動を学習した.自己周辺の情報に環境内の自己位置を加えた入力構成の場合は,4章と同様に資材を配置する場所の担当領域を分割する協調構造が発現したが,移動の際に発生するエージェント間の衝突を解決する効率的な行動を学習できなかった.自己周辺の情報に環境内の自己位置の軌跡を加えた新たな入力構造では,移動の際の衝突を回避するために環境の全ルートに対して一方通行の規範を暗黙的に全体で形成し,エージェントは環境を巡回しながら資材を運搬する協調構造を発現した.これら実験結果より,実サービスの環境構造やタスク構成ごとに,適する入力値や入力構成を検討すべきことを示唆する.例えば,複数ロボットによる巡回警備などは担当領域を分割する協調構造,工事現場などの道幅が狭く通り抜けができない環境でのロボットの資材運搬などでは,同期的に同じ方向に移動する協調構造や一方向利用の規範を形成する協調構造が有効と考えられる.

最後に,6章ではシステムのタスク完了にエージェント間の逐次的相互作用が不可欠な環境におけるマルチエージェント学習と協調構造の発現を探求するため,異なるタイプのエージェントが協力し、ある秩序に基づいてタスクを完遂する問題を対象に、行動評価に遅延を導入した報酬体系を提案し、発現した協調構造の特徴とシステム性能を分析した.実験より,自己のサブタスク処理の報酬割合が多いと自分のタスク処理を効率的かつ優先させる行動を学習したが,実際には必要となる協調行動を軽視する傾向があった.一方,自己サブタスク処理の報酬割合が少ないとき,協調性を重視した行動を発現させたが,学習の収束は非効率的で,加えて自己のタスクを軽視することになり、結果としてシステム全体にとっても非効率となった.適切な報酬割合は,実サービスの環境構造に大きく依存することが推測され,環境ごとに自己サブタスク処理行動と他エージェントとの協調行動を両立する報酬配分の検討が必要となる.そこで,報酬配分割合を学習の進行に合わせて調整するGDR手法を提案し,パラメータの調整が比較的容易な中で自己に与えられたタスク処理行動と他の行動を促す協調行動を両立する行動学習が可能となった.

本研究では、マルチエージェント自律分散協調問題において,入力構造と行動の評価方法が学習により発現する協調構造に及ぼす影響を探求し,入力構造や行動評価の違いにより発現する協調構造の特徴とその性能を明らかにした.従来,実サービスで協調構造を設計するとき,複雑なシステムの全体を把握するコストや静的な協調構造によるシステム柔軟性の低下が課題であった.一方、マルチエージェント学習により発現する協調構造は調整が難しく,システムの信頼性や頑強性の判断が難しかった.本研究の成果は,学習により発現する協調構造のデザインの調整・予測を可能とし,システムの説明可能性向上,システム変化に対する頑強性・柔軟性の推測を可能とする。また,複雑な協調構造を設計する際のベンチマークとしての活用も考えられる。

参考文献

[1] A. Farinelli, L. Iocchi, and D. Nardi. Multirobot systems: a classification focused on coordination. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), Vol. 34, No. 5, pp. 2015–2028, 2004.

[2] Tucker Balch and Lynne E Parker. Robot teams: from diversity to polymorphism. CRC Press, 2002.

[3] Tucker Balch, Gary Boone, Thomas Collins, Harold Forbes, Doug MacKenzie, and Juan Carlos Santamar. Io, ganymede, and callisto a multiagent robot trash-collecting team. AI magazine, Vol. 16, No. 2, pp. 39–39, 1995.

[4] Mark d’Inverno, David Kinny, Michael Luck, and Michael Wooldridge. A formal specification of dmars. In Munindar P. Singh, Anand Rao, and Michael J. Wooldridge, editors, Intelligent Agents IV Agent Theories, Architectures, and Languages, pp. 155– 176, Berlin, Heidelberg, 1998. Springer Berlin Heidelberg.

[5] Barbara Dunin-Keplicz and Rineke Verbrugge. Teamwork in multi-agent systems: A formal approach, Vol. 21. John Wiley & Sons, 2011.

[6] Wojciech Jamroga and Thomas ˚Agotnes. Constructive knowledge: what agents can achieve under imperfect information. Journal of Applied Non-Classical Logics, Vol. 17, No. 4, pp. 423–475, 2007.

[7] C. M. Macal and M. J. North. Tutorial on agent-based modeling and simulation. In Proceedings of the Winter Simulation Conference, 2005., pp. 14 pp.–, 2005.

[8] Katia P. Sycara. Multiagent systems. AI Magazine, Vol. 19, No. 2, p. 79, Jun. 1998.

[9] Edmund H Durfee and Jeffrey S Rosenschein. Distributed problem solving and multi- agent systems: Comparisons and examples. In Proceedings of the Thirteenth Inter- national Distributed Artificial Intelligence Workshop, pp. 94–104, 1994.

[10] Jacques Ferber, Olivier Gutknecht, and Fabien Michel. From agents to organizations: An organizational view of multi-agent systems. In International workshop on agent- oriented software engineering, pp. 214–230, Berlin, Heidelberg, 2004. Springer Berlin Heidelberg.

[11] Lin Padgham and Michael Winikoff. Developing intelligent agent systems: A practical guide, Vol. 13. John Wiley & Sons, 2005.

[12] Bryan Horling and Victor Lesser. A survey of multi-agent organizational paradigms.Knowl. Eng. Rev., Vol. 19, No. 4, pp. 281–316, December 2004.

[13] Kumpati S Narendra and Mandayam AL Thathachar. Learning automata: an intro- duction. Courier corporation, 2012.

[14] Richard S Sutton and Andrew G Barto. Reinforcement learning: An introduction. MIT press, 2018.

[15] Karl Tuyls and Simon Parsons. What evolutionary game theory tells us about mul- tiagent learning. Artificial Intelligence, Vol. 171, No. 7, pp. 406–416, 2007.

[16] Spiros Kapetanakis and Daniel Kudenko. Reinforcement learning of coordination in cooperative multi-agent systems. AAAI/IAAI, Vol. 2002, pp. 326–331, 2002.

[17] Pieter Jan ’t Hoen, Karl Tuyls, Liviu Panait, Sean Luke, J. A.La Poutr¥’e. An overview of cooperative and competitive multiagent learning. In Karl Tuyls, Pieter Jan’t Hoen, Katja Verbeeck, and Sandip Sen, editors, Learning and Adaption in Multi-Agent Systems, pp. 1–46, Berlin, Heidelberg, 2006. Springer Berlin Heidel- berg.

[18] Gerald Tesauro. Practical issues in temporal difference learning. Mach. Learn., Vol. 8, No. 3–4, pp. 257–277, May 1992.

[19] M. J. Wooldridge and N. R. Jennings. Intelligent agents: Theory and practice. 1995.

[20] Hans Weigand and Virginia Dignum. I am autonomous, you are autonomous. In Matthias Nickles, Michael Rovatsos, and Gerhard Weiss, editors, Agents and Com- putational Autonomy, pp. 227–236, Berlin, Heidelberg, 2004. Springer Berlin Heidel- berg.

[21] Yoav Shoham and Kevin Leyton-Brown. Multiagent systems: Algorithmic, game- theoretic, and logical foundations. Cambridge University Press, 2008.

[22] Robert Duncan. What is the right organization structure? decision tree analysis provides the answer. Organizational Dynamics, Vol. 7, No. 3, pp. 59 – 80, 1979.

[23] Henry Mintzberg. Structure in fives: Designing effective organizations. Prentice-Hall, Inc, 1993.

[24] R. G. Smith and R. Davis. Frameworks for cooperation in distributed problem solving. IEEE Transactions on Systems, Man, and Cybernetics, Vol. 11, No. 1,pp. 61–70, 1981.

[25] Warren B Powell. Approximate Dynamic Programming: Solving the curses of dimen- sionality, Vol. 703. John Wiley & Sons, 2007.

[26] Thomas G Dietterich. Hierarchical reinforcement learning with the maxq value func- tion decomposition. Journal of artificial intelligence research, Vol. 13, pp. 227–303, 2000.

[27] Matthew E. Taylor, Shimon Whiteson, and Peter Stone. Comparing evolutionary and temporal difference methods in a reinforcement learning domain. In Proceedings of the 8th Annual Conference on Genetic and Evolutionary Computation, GECCO ’06,pp. 1321–1328, New York, NY, USA, 2006. Association for Computing Machinery.

[28] J. M. Vidal and E. H. Durfee. The moving target function problem in multi-agent learning. In Proceedings International Conference on Multi Agent Systems (Cat. No.98EX160), pp. 317–324, 1998.

[29] Katja Verbeeck, Ann Now´e, and Karl Tuyls. Coordinated exploration in multi- agent reinforcement learning: An application to load-balancing. In Proceedings of the Fourth International Joint Conference on Autonomous Agents and Multiagent Systems, AAMAS ’05, pp. 1105–1106, New York, NY, USA, 2005. Association for Computing Machinery.

[30] Mary McGlohon and Sandip Sen. Learning to cooperate in multi-agent systems by combining q-learning and evolutionary strategy. International Journal on Lateral Computing, Vol. 1, No. 2, pp. 58–64, 2005.

[31] Robert H Crites and Andrew G Barto. Improving elevator performance using re- inforcement learning. In Advances in neural information processing systems, pp. 1017–1023, 1996.

[32] Kagan Tumer and Adrian Agogino. Distributed agent-based air traffic flow man- agement. In Proceedings of the 6th International Joint Conference on Autonomous Agents and Multiagent Systems, AAMAS ’07, New York, NY, USA, 2007. Association for Computing Machinery.

[33] A. Agogino and K. Tumer. Efficient evaluation functions for evolving coordination.Evolutionary Computation, Vol. 16, No. 2, pp. 257–288, 2008. PMID: 18554102.

[34] DAVID H. WOLPERT and KAGAN TUMER. Optimal Payoff Functions for Mem- bers of Collectives, pp. 355–369. World Scientific, 2002.

[35] Adrian K Agogino and Kagan Tumer. Analyzing and visualizing multiagent rewards in dynamic and stochastic domains. Autonomous Agents and Multi-Agent Systems, Vol. 17, No. 2, pp. 320–338, 2008.

[36] Yoav Shoham, Rob Powers, and Trond Grenager. Multi-agent reinforcement learning: a critical survey. Technical report, Technical report, Stanford University, 2003.

[37] Lucian Busoniu, Robert Babuska, and Bart De Schutter. A comprehensive survey of multiagent reinforcement learning. IEEE Trans. Systems, Man, and Cybernetics, Part C, Vol. 38, No. 2, pp. 156–172, 2008.

[38] Caroline Claus and Craig Boutilier. The dynamics of reinforcement learning in co- operative multiagent systems. AAAI/IAAI, Vol. 1998, pp. 746–752, 1998.

[39] Michael L Littman. Markov games as a framework for multi-agent reinforcement learning. In Machine Learning Proceedings 1994, pp. 157–163. Elsevier, 1994.

[40] Junling Hu and Michael P Wellman. Nash Q-learning for general-sum stochastic games. Journal of machine learning research, Vol. 4, No. Nov, pp. 1039–1069, 2003.

[41] Amy Greenwald, Keith Hall, and Roberto Serrano. Correlated Q-learning. In ICML, Vol. 3, pp. 242–249, 2003.

[42] Ming Tan. Multi-agent reinforcement learning: Independent vs. cooperative agents. In Proceedings of the tenth international conference on machine learning, pp. 330– 337, 1993.

[43] MC Xie and A Tachibana. Cooperative behavior acquisition for multi-agent systems by Q-learning. In Foundations of Computational Intelligence, 2007. FOCI 2007. IEEE Symposium on, pp. 424–428. IEEE, 2007.

[44] Adrian K. Agogino and Kagan Tumer. Unifying temporal and structural credit assignment problems. In Proceedings of the Third International Joint Conference on Autonomous Agents and Multiagent Systems - Volume 2, AAMAS ’04, pp. 980–987, USA, 2004. IEEE Computer Society.

[45] Kagan Tumer and Adrian Agogino. Multiagent learning for black box system reward functions. Advances in Complex Systems, Vol. 12, No. 04n05, pp. 475–492, 2009.

[46] Raphen Becker, Shlomo Zilberstein, Victor Lesser, and Claudia Goldman. Solving transition independent decentralized markov decision processes. J. Artif. Intell. Res. (JAIR), Vol. 22, pp. 423–455, 07 2004.

[47] Yu-Han Chang, Tracey Ho, and Leslie Pack Kaelbling. All learning is local: Multi- agent learning in global reward games. In Proceedings of the 16th International Conference on Neural Information Processing Systems, NIPS’03, pp. 807–814, Cam- bridge, MA, USA, 2003. MIT Press.

[48] Sam Devlin, Logan Yliniemi, Daniel Kudenko, and Kagan Tumer. Potential-based difference rewards for multiagent reinforcement learning. In Proceedings of the 2014 international conference on Autonomous agents and multi-agent systems, pp. 165– 172, 2014.

[49] Hado Van Hasselt, Arthur Guez, and David Silver. Deep reinforcement learning with double q-learning. In AAAI, Vol. 2, p. 5. Phoenix, AZ, 2016.

[50] Shixiang Gu, Ethan Holly, Timothy Lillicrap, and Sergey Levine. Deep reinforcement learning for robotic manipulation with asynchronous off-policy updates. In 2017 IEEE international conference on robotics and automation (ICRA), pp. 3389–3396. IEEE, 2017.

[51] Xue Bin Peng, Marcin Andrychowicz, Wojciech Zaremba, and Pieter Abbeel. Sim- to-real transfer of robotic control with dynamics randomization. In 2018 IEEE In- ternational Conference on Robotics and Automation (ICRA), pp. 1–8. IEEE, 2018.

[52] Guillaume Lample and Devendra Singh Chaplot. Playing fps games with deep rein- forcement learning. In AAAI, pp. 2140–2146, 2017.

[53] Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, and Martin Riedmiller. Playing atari with deep re- inforcement learning. arXiv preprint arXiv:1312.5602, 2013.

[54] Tom Schaul, John Quan, Ioannis Antonoglou, and David Silver. Prioritized experi- ence replay. arXiv preprint arXiv:1511.05952, 2015.

[55] Gregory Palmer, Karl Tuyls, Daan Bloembergen, and Rahul Savani. Lenient multi- agent deep reinforcement learning. In Proceedings of the 17th International Con- ference on Autonomous Agents and MultiAgent Systems, pp. 443–451. International Foundation for Autonomous Agents and Multiagent Systems, 2018.

[56] Kun Shao, Yuanheng Zhu, and Dongbin Zhao. Starcraft micromanagement with rein- forcement learning and curriculum transfer learning. IEEE Transactions on Emerging Topics in Computational Intelligence, Vol. 3, No. 1, pp. 73–84, 2018.

[57] Ryan Lowe, Yi Wu, Aviv Tamar, Jean Harb, OpenAI Pieter Abbeel, and Igor Mor- datch. Multi-agent actor-critic for mixed cooperative-competitive environments. In Advances in Neural Information Processing Systems, pp. 6382–6393, 2017.

[58] Guillaume Sartoretti, Yue Wu, William Paivine, TK Satish Kumar, Sven Koenig, and Howie Choset. Distributed reinforcement learning for multi-robot decentralized col- lective construction. In Distributed Autonomous Robotic Systems, pp. 35–49. DARS, Springer, 2019.

[59] Jakob N Foerster, Gregory Farquhar, Triantafyllos Afouras, Nantas Nardelli, and Shimon Whiteson. Counterfactual multi-agent policy gradients. In AAAI 2018: Pro- ceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, February 2018.

[60] Duc Thien Nguyen, Akshat Kumar, and Hoong Chuin Lau. Credit assignment for collective multiagent rl with global rewards. In Proceedings of the 32nd International Conference on Neural Information Processing Systems, NIPS’18, pp. 8113–8124, Red Hook, NY, USA, 2018. Curran Associates Inc.

[61] Jiechuan Jiang and Zongqing Lu. Learning attentional communication for multi- agent cooperation. In Advances in neural information processing systems, pp. 7254– 7264, 2018.

[62] Tijmen Tieleman and Geoffrey Hinton. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural networks for machine learning, Vol. 4, No. 2, pp. 26–31, 2012.

[63] Wei Meng, Zhirong He, Rodney Teo, Rong Su, and Lihua Xie. Integrated multi-agent system framework: decentralised search, tasking and tracking. IET Control Theory & Applications, Vol. 9, No. 3, pp. 493–502, 2014.

[64] Patrick Mannion, Jim Duggan, and Enda Howley. An experimental review of rein- forcement learning algorithms for adaptive traffic signal control. In Autonomic Road Transport Support Systems, pp. 47–66. Springer, 2016.

[65] Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. Deep learning. nature, Vol. 521, No. 7553, p. 436, 2015.

[66] Christopher JCH Watkins and Peter Dayan. Q-learning. Machine learning, Vol. 8, No. 3-4, pp. 279–292, 1992.

[67] Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu, Joel Veness, Marc G Bellemare, Alex Graves, Martin Riedmiller, Andreas K Fidjeland, Georg Ostrovski, et al. Human-level control through deep reinforcement learning. Nature, Vol. 518, No. 7540, p. 529, 2015.

[68] Maximilian Hu¨ttenrauch, Adrian Sˇoˇsi´c, and Gerhard Neumann. Guided deep rein- forcement learning for swarm systems. arXiv preprint arXiv:1709.06011, 2017.

[69] Ayumi Sugiyama and Toshiharu Sugawara. Improvement of robustness to environ- mental changes by autonomous divisional cooperation in multi-agent cooperative patrol problem. In Yves Demazeau, Paul Davidsson, Javier Bajo, and Zita Vale, edi- tors, Advances in Practical Applications of Cyber-Physical Multi-Agent Systems: The PAAMS Collection, pp. 259–271, Cham, 2017. Springer International Publishing.

[70] Jakob Foerster, Nantas Nardelli, Gregory Farquhar, Philip Torr, Pushmeet Kohli, Shimon Whiteson, et al. Stabilising experience replay for deep multi-agent rein- forcement learning. Proceedings of the 34th International Conference on Machine Learning, Vol. 70, pp. 1146–1155, 2017.

[71] Yuki Miyashita and Toshiharu Sugawara. Coordination in collaborative work by deep reinforcement learning with various state descriptions. In Matteo Baldoni, Mehdi Dastani, Beishui Liao, Yuko Sakurai, and Rym Zalila Wenkstern, editors, PRIMA 2019: Principles and Practice of Multi-Agent Systems, pp. 550–558, Cham, 2019. Springer International Publishing.

参考文献をもっと見る

全国の大学の
卒論・修論・学位論文

一発検索!

この論文の関連論文を見る