CSAの大会のあとはずっと就活をしていてなんとか内定ゲット。
最近やったのはRoot strapもどきをずっといじってます。
最近効果があった気がするのは評価関数そのまま使うのではなくシグモイド関数に
入れてからやるってやつ。
式にすると
OF=(H深-H浅)^2
じゃなくて
OF=(T(H深)-T(H浅))^2
とするといい感じ。(Tはシグモイド関数)
詰みを発見したときに評価値が無限大になるので
前は|H深-H浅|の値がある値をこえると0にしてたんだけど、
シグモイドVerはそれをしないでOK。なのでTDっぽく報酬が得られる。