最近妄想していることまとめ(自分用)

Root Strapをちょいと改良中。ただしよくなっているかは不明。

・今の局面から静止探索した局面(0手+静止探索)とn手+静止探索した局面の誤差を最小にするようにしてみた。(ボナメソにならい静止した局面同士を比較)

・着手の選択をε-greedyに変更(似たような対局を減らすため)
↑これはTDよりやり易い気がする。TDだと変な手を選ぶとそれが伝搬してしまう。Root Strapなら浅い探索を深い探索に近づけるだけだから変な手を選んでも影響はない。むしろランダムウォーク気味でもいいのかもしれない。

・最小二乗法ではなくHuber関数を用いる(最小二乗法よりロバストなので)
http://ibisforest.org/index.php?Huber%E9%96%A2%E6%95%B0
http://www.google.co.jp/url?sa=t&source=web&cd=1&ved=0CBkQFjAA&url=http%3A%2F%2Fsugiyama-www.cs.titech.ac.jp%2F~sugi%2F2010%2FNSC-MachineLearning3-jp.pdf&ei=WDaKTeTHH4-avgPkrZDIDg&usg=AFQjCNG_BUge1xHl_Cqyl_8h4mkDRn5Fyg&sig2=gb_uxqsyRfBS1lZREQDO_Q

・ペナルティを掛ける。L1、L2正則化など。(これをしないと発散気味になってしまう)
回帰を調べると最小二乗法ばっかり。最近研究室で先輩がSVR(サポートベクトル回帰)を使ってたけど、どうなんだろう。ちょっと興味あり。