DeepMind推出新版本AlphaGo程序——AlphaGo Zero 3天击败AlphaGo Lee

gengting 来源:互联网 阅读(64)

靠谱助手
靠谱助手 v3.6.2278
类型:模拟器 大小:30.70MB

  据了解,凝神于推进人工智能研究的谷歌子公司DeepMind在10月19日推出新版本的AlphaGo程序,它可以通过自学玩转多种游戏。

  据悉,这套系统名为“AlphaGo Zero”,它通过一种名为“强化学习”的机器学习技术,可以在与自己游戏中吸取教训。

  随着AlphaGo Zero被不断训练时,它开始在围棋游戏中学习先进的概念,并挑选出一些有利的位置和序列。经过三天的训练,该系统能够击败AlphaGo Lee,后者是去年击败了韩国选手李世石(Lee Sedol)的DeepMind软件。经过大约40天的训练(约2900万场自玩游戏),AlphaGo Zero击败了AlphaGo Master(今年早些时候击败了世界冠军柯洁)。

DeepMind推出新版本AlphaGo程序——AlphaGo Zero 3天击败AlphaGo Lee

  研究结果表明,在不同技术的有效性方面,AI领域还有很多有待研究的地方。AlphaGo Zero的开发使用了许多与AlphaGo Master相似的方法,但在开始进行自玩游戏之前,它就开始被使用人类数据进行训练。值得注意的是,尽管AlphaGo Zero在几周的训练中掌握了几个关键概念,但它的学习方式不同于人类棋手。

  此外,AlphaGo Zero比它的许多前辈都要高效得多。AlphaGo Lee需要使用几台机器和48个谷歌张量处理单元机器学习加速器芯片,该系统的早期版本AlphaGo Fan需要176个GPU。而AlphaGo Zero和AlphaGo Master一样,只需要一台机器和4个TPU。