ちょっと動かした感想だけど終盤は評価関数の誤差が大きくなるのでそれに引っ張られる可能性がある。序盤はあまり誤差が大きくないのでうまく学習できないのかも。進行度とかも考慮しないとだめか。。。
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。