gamidereの日記

最近妄想していることまとめ(自分用)

Root Strapをちょいと改良中。ただしよくなっているかは不明。

・今の局面から静止探索した局面(0手+静止探索)とn手+静止探索した局面の誤差を最小にするようにしてみた。(ボナメソにならい静止した局面同士を比較)

・着手の選択をε-greedyに変更(似たような対局を減らすため)
↑これはTDよりやり易い気がする。TDだと変な手を選ぶとそれが伝搬してしまう。Root Strapなら浅い探索を深い探索に近づけるだけだから変な手を選んでも影響はない。むしろランダムウォーク気味でもいいのかもしれない。

・最小二乗法ではなくHuber関数を用いる(最小二乗法よりロバストなので)
http://ibisforest.org/index.php?Huber%E9%96%A2%E6%95%B0
http://www.google.co.jp/url?sa=t&source=web&cd=1&ved=0CBkQFjAA&url=http%3A%2F%2Fsugiyama-www.cs.titech.ac.jp%2F~sugi%2F2010%2FNSC-MachineLearning3-jp.pdf&ei=WDaKTeTHH4-avgPkrZDIDg&usg=AFQjCNG_BUge1xHl_Cqyl_8h4mkDRn5Fyg&sig2=gb_uxqsyRfBS1lZREQDO_Q

・ペナルティを掛ける。L1、L2正則化など。(これをしないと発散気味になってしまう)
回帰を調べると最小二乗法ばっかり。最近研究室で先輩がSVR(サポートベクトル回帰)を使ってたけど、どうなんだろう。ちょっと興味あり。

世界コンピュータ将棋選手権に向けて

何をしているかというと何もしていないｗ。

とりあえずきちんと動くものを作らないと。。。

就職活動真っ盛りにプログラムを書いていていいのだろうか。。。。

しかも学校が停電することがあるので学習が。。。。

どうしたものか。

TODO：
・評価関数に２駒の関係を入れる
・探索を時間打ち切りに
・Futility Pruningとかいれて探索を強化する
・面接で祈られないように練習する
・エントリーシートを丁寧に書く

世界コンピュータ将棋選手権

に個人で参加しようかと考え中。

まだ全然プログラムは出来ていないのですが。。。

とりあえず今週中に名前を決めないとｗ

将棋所

正月は暇だったので自分のプログラムを将棋所に対応させようと思いいじってみた。

ほとんどれさ改のソースを流用したのにもかかわらず自作の部分でバグる。早く直さないと。。。

近頃

特徴発見も面白そうなのですが，コンピュータ将棋もそろそろ教師なし学習

(強化学習)へ移行する時代ではないかと勝手に思っているのでそっち方向で

がんばることに。

New Architectures in Computer Chess

を土日で読んでいて「Non-Bitboard Architectures」が使えそうじゃんと読

んでみるとなんだかfruitと同じようなことをやっている気がしてきました。

どうしてこれが速いのか正直謎なんですが。。。実際に作ってみるとわかる

のかなぁ？

あと「Static Exchange Evaluation」も読んだのですがbonanzaですでにやら

れているような気が。。。

というわけで急激にこの論文への興味が薄れる今日この頃。

GPW感想

今年は将棋が非常に多かった。囲碁の発表がなくてすこし残念。

個人的に面白かったのは「将棋における，評価関数を用いたモンテカルロ木探索」と「ゲーム構成要素を組み合わせた特徴の最適化」ですね。

前者はモンテカルロ法なのにすごく強くなっていたので驚きました。去年は自分もひそかにモンテカルロ法をやっていて「こんなんじゃ強くなんねぇよ」と思っていたのにこの強さはすごいと思いました。あと，プレイアウトの深さが２というのが驚きました。もはやプレイアウトというより合議に近い感じなのかなと思いました（プレイアウト中の着手は実現確率が高いものしか選ばれないらしいので）。

後者は，はじめ論文を読んだだけでは何を言っているのかよくわからず発表を聞いて３回くらい読み直してようやく理解できたつもりになりました。

評価関数の特徴を自分で見つけてくると言う話ですごいと思いました。地分の理解では棋譜から全パターンの駒の関係をとってきて使えそうなのだけとってくるみたいな話だと思います(かなり適当)。
オセロでもそんなような話はあったので(GLEMだったっけかな？)それと見比べてみようと思います。

とても面白そうなので自分も今後やってみようかなと思いました。