关于阿尔法狗 你知道的可能大部分都是错的

来源:A5专栏 时间:2017-01-03

2016年人工智能这把火烧得很旺,尤其是AlphaGo( 阿尔法狗)对战李世石,让我们真正见识到了人工智能的可怕。不过,最近笔者花功夫研究了下国外关于阿尔法狗围棋对弈的人工智能解读,发现此前我们听到的、看到的或者说以为认识到的东西,几乎都是错的,阿尔法狗可能并非你想的那样强无敌。

错误一:

阿尔法狗可以说是里程碑式地开创了历史,但是它并没有作出任何非常创新的技术,而deep mind只是将早已经存在的一些人工智能技术尤其是机器辨认图片技术运用到下棋上,之前没有人想过能这样做,这种尝试是一种创新。

错误二:

阿尔法狗并没有真正的棋感,实际也不懂得思考并作出策略,围棋解说把阿尔法狗当人来看待是错误的。阿尔法狗只是不停问自己,我下这一步我胜率提高了多少。

错误三:

阿尔法狗并没有强大的学习能力,达到现在棋力是基于接近1亿次棋局的模仿和推测出来的,一开始阿尔法狗只学习了16万棋局时它的棋力很弱。他不但比人学习效率差而且比马戏团的动物学习效率更差。所以说,跟李世石对局每一局都在进步是不可能的,一局的经验对阿尔法狗基本没什么影响。

错误四:

阿尔法狗其实也是基于蛮力穷举的下法,只不过运用新的机器学习方法。穷举法和机器学习不矛盾。

错误五:

之前看到文章说阿尔法狗速度没深蓝快,其实阿尔法狗是深蓝的5万倍,今天用的iPhone6s计算能力都是深蓝的几十倍。

错误六:

说人脑计算速度慢是错误的,和计算机的计算速度相对应的,应该是人脑神经元计算速度,保守估计人脑计算速度是每秒1000万亿次,计算能力是深蓝的10万倍。

错误七:

阿尔法狗并不是完全学习的,首先底层需要人编程围棋规则,其次基础的下棋原则也是人为输入的。

简单总结一下,其实包括阿尔法狗围棋程序和深蓝的象棋都是蛮力搜索法,也就是:其一,考虑所有未来可能变化;其二,计算走法未来多少步的胜率;其三,选择走法。但是围棋每走一步比国际象棋变化更大,步数更多,可能变化种类超过宇宙原子总和。其实这对于象棋也是如此,深蓝雇佣大量职业象棋选手设定一个积分法,比如一个兵值多少分,吃对手一个车胜率提升多少,这个评分体系很准确,深蓝思考范围被压缩成十几步。

但是围棋无法如此评估,之前围棋程序是简单的人手输入,见到什么情况如何走,所以很死板,这些程序棋力大概是400。

2006年一种叫做蒙特卡洛树的搜索法被发明,它使用概率模拟方法(类似模拟投掷骰子),只需要判断终盘胜负,弥补了围棋不能设定确定走法函数的缺陷(阿尔法狗也是使用蒙特卡洛树方法)。但是这方法要展开到终盘,计算量太大,所以需要让围棋专家协助制定行棋规则,减少计算量,此方法可使人工智能棋力提升到业余5段。

但是十年来电脑棋力进展令人悲观,直到阿尔法狗,它在此基础上引入深度人工网络。神经网络已经发明50年,适合编写一些不直观因果关系的事物,并且软件可以自主学习调整。但是编程太难,加上以前计算能力问题一直不受重视。

6年前开始,技术上能达到10层神经元,神经网络开始兴起。结合大数据和云计算技术,神经网络开始吃香。图像处理和人脸识别这类程序很难直观的由编程员编程,神经网络在此有用武之地,其中深度卷积网络技术称霸。阿尔法狗团队创新之处在于,意识到可以将图像识别的这项技术用于下棋,并将神经网络升级到13层,预测人类棋手走法。

首先它学习了围棋对战平台的3千万业余高段位的对局记录,作为让阿尔法狗猜人类走法的正确答案。也就是说,阿尔法狗一开始是在模仿业余高手平均玩法,同时团队人工输入围棋知识。可以说,阿尔法狗是神经网络加手工编程混合物。

这个预测人类玩法被叫做策略网络,此时阿尔法狗叫做RP版。根据阿尔法狗团队的论文,把策略网络加入业余3段棋力的围棋程序,其棋力能达到业余6段,棋力提高950分达到2600(棋力分每相差230分,双方5局三胜比赛的胜率为高分者95%胜率),此时alpha已经成为世界最强围棋程序。

为了减少计算量,阿尔法狗使用一个叫价值网络的深层卷积网络作为评估函数,使用阿尔法狗的预测结果和实际展开结果的平均值作为胜率参考信息。加入此功能的阿尔法狗叫做完整版,其棋力提高了450分,达到了惊人的3100。

———分割线————

晓枫说,游走在科技与人文之间,百度百家、今日头条、搜狐、艾瑞、一点资讯、品途等专栏作者。

相关文章

标签:

A5创业网 版权所有