- Afiqe Anuar bin Muhammad Nor Hakim:汎用的な評価指標を用いた報酬の自己生成 -センサ入力に対する多面的評価の提案と危険検知の向上-
- 成田陸矩:学習空間の異なる複数の強化学習を用いた多角的な意思決定
- 花形知美:タスクの優先度で重み付けされた行動価値に基づく複数タスク下の意思決定手法の提案
- 三本ゆりな:行動の優先度に基づく複数タスク下におけるDDPGを用いた意思決定
- 池野圭:多面的な評価指標を用いた報酬の自己生成−危険性回避のための安全に関する評価指標の獲得−
- 今村航:センサ評価の統合による報酬の自己生成-複数行動間における安定したセンサ評価の無視による安全性認識の向上-
- 上村優真:単体ロボットにおけるHMARLを用いた行動学習-情報エントロピーを用いたエージェントの絞り込みによる学習性能の向上-
- 坂本悠真:多面的な評価指標を用いた報酬の自己生成-センサ入力に対する危険性を考慮した慣れの実現による危険認識の向上
- 佐々木恒熙:単体ロボットにおけるHMARLを用いた行動学習-DQNとQ学習の協調による学習性能の向上-
- 山内瞭:TD誤差に基づく行動選択を用いた探索タスクによる複数タスクの学習の向上
Last-modified: 2023-03-29 (水) 10:47:55