前回、強化学習探索と利用のジレンマを解決する ε-greedyアルゴリズムとは? というnoteで 強化学習を改善するために解決しないといけない探索と利用のジレンマと それを解決するためのε-greedyアルゴリズムについて書きました。 今回はそれをさらに改良し ...