論文: 2022年3月修了
題目: 強化学習と逆強化学習を用いたAGVのデッドロック回避経路計画手法
著者: 川嶋 太陽
概要: 近年,IoT技術の発展により,自動運転の制御や複数のAGV(Automated Guided Vehicle)に代表される大規模経路計画の運用が期待されている.複数のAGVが限られた領域で経路計画を行う場合,搬送経路上で他のAGVの存在により,あるAGVが移動不可となり,結果として全AGVが移動できなるという, デッドロックを生じることがある.これを回避するため,従来研究では,デッドロック回避方策を適用した強化学習による経路計画手法に関する研究が進められてきた.しかしながら,デッドロック回避されるものの,AGVが一つの経路に集中を避けることにより,デッドロック回避は達成されるが,搬送期間の増大が生じることがある.そこで,逆強化学習を用いて,最適経路から強化学習の報酬を推定することでエキスパート解に近い経路計画の実現を目指すことが求められる.本研究では,上記で説明した逆強化学習と強化学習を併用したデッドロック回避経路計画手法を提案する.まず,逆強化学習を用いて,自律分散型最適化手法によって得られたエキスパート解から報酬設計を行い,その報酬を用いて強化学習による経路計画を行う.その後,従来の強化学習のみを用いた手法と提案手法を比較し,提案手法の有用性を検証する.比較実験の結果,規模の小さい環境 (ノード数25) において,提案手法は従来手法より短い期間での経路計画を行うことが確認された.しかしながら,規模の大きい環境 (ノード数115) では提案手法では最短経路を選択するケースが確認されるものの, 最適経路から外れた経路を選択するケースも確認された.