深入理解alpha go的方法并应用到中国象棋
Sat, May 05, 2018
ps: 本草稿配合 https://github.com/bupticybee/icyChessZero 食用
我训练了两种policy network,一种如alpha-go-zero论文中一样,policy的目标是棋子(from-to)的笛卡尔积,另一种方法是我的一个idea,在这个idea中我把policy network分为两部分,select网络和move网络,一个负责选择要移动的棋子,另一个负责选择棋子移动的位置,但是从表现来看,我给予很大希望的select-move two-stage网络并没有比alpha-go zero的网络表现出色。
单纯policy网络在测试集上的表现: