デモビデオ
so33629687 の補助動画です。
強化学習部(Decision-Maker)の実験として、フードの獲得量を最大化するようにエージェントを学習させたものです。
学習したエージェント(青)は,高くて届かないフード(赤)は無視して地面にあるフード(緑)を効率的に取るように行動計画を決めます。
学習しないでルール通りにフードに向かって進むエージェント(黄)は,高くて届かないフード(赤)にトラップされて動けなくなります。
研究の詳細はこちらをご覧ください https://dmv.nico/ja/casestudy/rlcreature/