研究/各研究の話

強化学習における情報量を用いた探索と利用の自律的制御

  • 強化学習における探索と利用のトレードオフに注目
  • 探索と利用のバランスはロボットのメタパラメータで調整するが,このパラメータは人間が一意に設定することが多い.
  • 本研究ではロボットが自律的に環境に合わせてパラメータを調整することを提案
  • 提案手法ではロボットの経験から情報量を算出し,算出した情報量を用いてパラメータを決定する
    • 現在,迷路問題にて有用性を検証中
      ra.png

添付ファイル: filera.png 187件 [詳細]