ゼミのお話/一覧/N本腕バンディットチャレンジ/スコア計算法

N本腕バンディットに対して，プレーヤーはより多くの報酬を得ることを目標とする．本演習では，プレーヤーは人ではなくN本腕バンディットを解くプログラムである．このプログラムが得た報酬を用いてプレーヤー(プログラム)のスコアを考える．

プレーヤーがN本腕バンディットのレバーを一回選択する行為を"1試行"という．この時，連続した10000試行の結果得た報酬の合計をプレーヤーのスコアとする．ただし，第一回目の試行から計算する必要はなく，試行途中の好きな時点からの試行でよい．

基本的には，一回目の試行から計算を行い，全試行を通して最大の報酬をスコアとする．全試行数10，連続した3試行の結果得た報酬の合計をスコアとした場合の例を以下に示す．

iRobotLab