強化学習

pythonでN本腕バンディット問題を解く強化学習のプログラムを作ってみた

N本腕バンディット問題とは一定の確率で報酬が出る選択肢の中から、どの報酬が一番高いのかを選ぶ問題です。 例えば、次のようなスロットマシンがあったとして、 内部の情報がこんな感じで当たりで渡されるコインが同じ量だとしたら、みなさんは多分Bを選ぶ…

強化学習についてPREP形式でまとめてみました。

前書き 最近、対戦パズルゲームのCPU*1の作り方を悩んでいまして、今の職場の機械学習のエンジニアさんにそのことを相談してみました。 Cacaponは機械学習に興味はあるのですが、最初の一歩をどうすればいいのかなぁと悩んでで進んでなかった感じでもあった…