[[研究/各研究の話/2013年度]] [報酬の差異による単体サブゴール発見手法の提案] -タスク達成のプロセスの一つを学習させるため,小目標(サブゴール)を設定する. -タスク達成時,サブゴールを達成しているか否かに応じてロボットの獲得報酬が変化する. -獲得報酬の差に関わる要素(サブゴール)をロボットが自律的に発見し,それを達成する行動を学習する. #ref(サブゴールの発見.png,left,80%) #ref(サブゴールの発見.png,left,50%)