トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS   ログイン

認知ロボティクス研究室>ゼミのお話>一覧>N本腕バンディットチャレンジ>スコア計算法

N本腕バンディットに対して,プレーヤーはより多くの報酬を得ることを目標とする.本演習では,プレーヤーは人ではなくN本腕バンディットを解くプログラムである.このプログラムが得た報酬を用いてプレーヤー(プログラム)のスコアを考える.

プレーヤーがN本腕バンディットのレバーを一回選択する行為を"1試行"という.この時,連続した10000試行の結果得た報酬の合計をプレーヤーのスコアとする.ただし,第一回目の試行から計算する必要はなく,試行途中の好きな時点からの試行でよい.

スコア計算法.png

基本的には,一回目の試行から計算を行い,全試行を通して最大の報酬をスコアとする.全試行数10,連続した3試行の結果得た報酬の合計をスコアとした場合の例を以下に示す.

スコア計算法例.png

添付ファイル: fileスコア計算法.png 923件 [詳細] fileスコア計算法例.png 996件 [詳細]

Last-modified: 2023-03-29 (水) 10:47:55