トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS   ログイン

ゼミのお話/一覧/N本腕バンディットチャレンジ/スコア計算法 の変更点

N本腕バンディットに対して,プレーヤーはより多くの報酬を得ることを目標とする.本演習では,プレーヤーは人ではなくN本腕バンディットを解くプログラムである.このプログラムが得た報酬を用いてプレーヤー(プログラム)のスコアを考える.

プレーヤーがN本腕バンディットのレバーを一回選択する行為を"1試行"という.この時,連続した10000試行の結果得た報酬の合計をプレーヤーのスコアとする.ただし,第一回目の試行から計算する必要はなく,試行途中の好きな時点からの試行でよい.よって,結果として,"スコア"および"何回目からの試行から本番であるか"を明記しておくこと.
プレーヤーがN本腕バンディットのレバーを一回選択する行為を"1試行"という.この時,連続した10000試行の結果得た報酬の合計をプレーヤーのスコアとする.ただし,第一回目の試行から計算する必要はなく,試行途中の好きな時点からの試行でよい.

#ref(スコア計算法.png,center,zoom,75%)

基本的には,一回目の試行から計算を行い,全試行を通して最大の報酬をスコアとする.全試行数10,連続した3試行の結果得た報酬の合計をスコアとした場合の例を以下に示す.


#ref(スコア計算法例.png,center,zoom,75%)