当前位置:首页 > 银行 > 网银知识 > alphago 李世石_AlphaGo Zero以100比0战绩击败上代AlphaGo意味着什么?

alphago 李世石_AlphaGo Zero以100比0战绩击败上代AlphaGo意味着什么?

2018-12-19  来源:网银知识  点击:

【www.fxlll.com--网银知识】

    非常令人震惊的进展!2016年3月4:1战胜李世石之后,Deepmind就放出风声,要让AlphaGo从零知识开始学习下围棋,当时让人很有兴趣。这种完全靠自学习,不学习人类棋谱的AI,在学成以后会如何下围棋?会不会从天元开始下?能达到什么样的实力?肯定非常有趣。       所谓零知识自学习,就是一开始就随机扔子,就如上图这样黑白等于是瞎下。从这种随机策略开始,慢慢改进,而不是学习人类的棋谱先来个策略络一开始就下得象模象样。       但是后来这个零知识自学习的事一直没下文。到2017年5月乌镇3:0战胜柯洁时,中间有研讨会,DavidSilver出来讲了不少,也完全没有提这个。我还写文章,说零知识自学习可能失败了,陷入局部陷阱棋力并不太高。特别是2017年8月AlphaGo打星际的论文出来,从0知识开始学习,但是能力非常差,连暴雪最弱的AI都打不过,也不会造兵,更是让人觉得零知识自学习可能不行,人类的先验知识应该还是挺重要的。       但是2017年10月18日Deepmind第二篇AlphaGo论文《MasteringtheGameofGowithoutHumanKnowledge》出来了!论文给出了出乎我的预料的结果:       1.从0知识开始学习,是可以训练成功的!这个成功的程度是”目前所有Alphago版本中最厉害“。100:0战胜AlphaGo-Lee版本,90%胜率胜Master版本(也就是战胜柯洁的那个)。但是还没有”天下无敌“,还是有一定概率输给Master,等级分领先幅度还不算大。下图右是等级分数值。       2.从0知识开始,训练速度非常快!3天就能战胜AlphaGo-Lee,21天能战胜Master。下图左是AlphaGo-Zero等级分随时间提升的曲线。训练没有在早期陷入局部陷阱。       3.让人类还算欣慰的是,虽然AlphaGoZero不需要人类棋谱,但是训练出来下得还是象人的。论文给出AlphaGoZero的83局棋谱,没训练一会就下得有模有样了。也不是从中腹天元开始下,而是象人类一样先占边角。这说明人类的这些行棋方向还不算离谱。实际这也早有征兆,几个围棋AI都这样,如果一开始不下角部,下在中腹或者边上,给出的胜率就会下降。       4.虽然AlphagoZero下得象人,但是很多招为什么这么下,连高手都应该是看不懂了。它到了什么境界,人类还需要领会。

本文来源:http://www.fxlll.com/yh/24490/

转载申明:利率查询网_银行存款利率网,欢迎分享,转载请注明出处!

相关搜索

推荐阅读

一周热门
生活服务