N本腕バンディットに対して,プレーヤーはより多くの報酬を得ることを目標とする.本演習では,プレーヤーは人ではなくN本腕バンディットを解くプログラムである.このプログラムが得た報酬を用いてプレーヤー(プログラム)のスコアを考える.
プレーヤーがN本腕バンディットのレバーを一回選択する行為を"1試行"という.この時,連続した10000試行の結果得た報酬の合計をプレーヤーのスコアとする.ただし,第一回目の試行から計算する必要はなく,試行途中の好きな時点からの試行でよい.
基本的には,一回目の試行から計算を行い,全試行を通して最大の報酬をスコアとする.全試行数10,連続した3試行の結果得た報酬の合計をスコアとした場合の例を以下に示す.