北 京 大 数 据 研 究 院
BEIJING INSTITUTE OF BIG DATA RESEARCH

【李德毅对话刘知青】反思 AlphaGo:远超计算机和互联网的信息革命

作者: 新智元来源: 新智元原创


AlphaGo战胜李世石,信息行业从算法+处理器为核心的计算架构,过渡到算法+数据+处理器为核心的架构,其中数据成为产业的核心。这将开启不确定性人工智能时代。李德毅院士认为,机器人给人类带来的影响,将远远超过计算机和互联网在过去几十年间已经对世界造成的改变。

我们要有标尺来衡量人工智能的水平,而围棋是非常好的标尺。围棋设置的逻辑推理、形象思维和优化选择等多种能力,是全面智能的体现。围棋是公认的人工智能长期以来的重大挑战,而在围棋上的突破,表示我们正处于人工智能爆发的重大转折点。

我们可能低估了AlphaGo战胜李世石的意义。

计算机技术的发展,归根结底是基于物理定律的延伸。从牛顿力学到量子力学,是人类历史上的一次认知革命,我们从确定性的时代,来到了不确定性的纪元。

我们过去的计算机程序总归是确定性的,在计算和算法的支持下,对数据进行有序的处理。但人工智能技术的发展,这一切变成了不确定性。中国工程院院士、中国人工智能学会理事长李德毅很早就写过一本书《不确定性人工智能》,最近他表示说:

过去是算法围绕CPU运转,以算法作为程序的核心,数据只是输入和输出;而现在是算法和CPU/GPU围绕数据运转,算法和数据共同形成智能程序,形成以知识驱动的人工智能。

在这背后是从算法+处理器的核心架构,变成了算法+数据+处理器,数据成为其中的关键。但大数据的多维度、多参数,再加上深度学习的卷积算法,让输入到输出变成了不确定性的过程。就拿AlphaGo来说,即便它面对相同的场景和相同的人,它选择落子方案也有非常大的概率不相同。

AlphaGo的胜利让我们对不确定性人工智能的强大有了更直观的理解,也让我们对它的产业化落地,有了更清晰的方向。北邮计算机围棋研究所所长刘知青把AlphaGo的方法论总结为:直觉获取、搜索验证、优化决策。他认为这是未来人工智能的核心。

人工智能也从实验室产品渗透进入各行各业。相比互联网的虚拟化,人工智能对现实世界有了更多的介入:无人车、无人机、机器人、智能硬件等。李德毅院士甚至认为,机器人给人类带来的影响将远远超过计算机和互联网在过去几十年间已经对世界造成的改变。它将会连结现实和虚拟世界。

我们来到了不确定性的世界,这也是人工智能开启的新世界。

2016年3月30日,一群顶级学者对AlphaGo进行了反思。在“AlphaGo人机大战解读与中国人工智能”研讨会上,来自学术界、围棋界和军方的专家们,罕见的齐聚一堂深入解析AlphaGo,并预测在这之后中国的未来。

刘知青是这次大会的主要发言人。他给我们介绍了AlphaGo强大的原因,以及这对中国人工智能的启示。


AlphaGo的对弈风格

  1. 优秀的大局观:完全按照胜率最大化的目标来落子

  2. 强大的总体把握能力:简明地把优势转化为胜势

  3. 直接了当的定型,虽非局部最优,但瑕不掩瑜

  4. 处理复杂盘面算法仍有弱点,存在不少改进空间

我们来看看AlphaGo背后的技术解析。


AlphaGo的棋感直觉和搜索验证

  • AlphaGo背后的人工智能方法

  • 由于天文数字的状态空间和决策空间,蛮力计算无法解决围棋问题

  • 围棋职业选手的解决方法:棋感直觉+搜索验证

  • AlphaGo的人工智能方法类似于围棋职业选手的解决方法:

  • 落子与胜负的棋感直觉

  • 落子与胜负的搜索验证

刘知青认为,AlphaGo的强大在于两点:棋感直觉和搜索验证。

这和职业棋手非常像。职业棋手从5、6岁开始学棋到20岁出头,一般下了几万盘棋。这个过程中会对在什么地方落子、盘面好坏有一种直觉,然后他在下棋的过程中,在直觉的几个点中进行深度计算,模拟双方落子的过程,判断棋局的优劣。

  • 深度学习神经网络:棋感直觉

  • 棋感直觉,是高水平围棋对弈的要素之一

  • 反映了职业选手长期学习,训练,对弈中的积经验累

  • AlphaGo通过深度神经网络及其学习,获得了围棋棋感直觉;并且训练强度远超出任何棋手的个人能力

AlphaGo 也用着相同的方法。


AlphaGo的两大棋感

1.AlphaGo的落子棋感

  • 策略网络:落子棋感

  • 深度神经网络的有监督学习

  • 学习职业棋手和业余高段棋手的棋谱(数十万份棋谱,上亿数量级的落子方式)

  • 获取在围棋盘面下的落子棋感

AlphaGo在棋感的训练上,强度远超职业棋手,通过深度神经网络的监督学习,获得围棋的棋感和直觉。上面的图是AlphaGo的棋感表示,绿色的圆圈代表着好点,但不止一个,图中列出了十多个落子棋感。这里的棋感是一种直觉表示,通过神经网络,输入之后马上就能得到,给出权重值。

AlphaGo通过几十万盘职业和高段位的棋局训练。每盘棋有200多步,总的来说有上亿数量级的落子方式。这样程序就可以通过大数据训练的深度神经网络,有能力在不同的围棋盘面下直觉出落子棋感。

2.AlphaGo的胜负棋感

  • 价值网络:胜负棋感

  • 深度神经网络的增强型学习

  • 通过自我博弈,学习不同盘面下的胜负情况(三千万盘自我对局)

  • 获取在围棋盘面的胜负棋感

除了落子棋感,另一个棋感是价值棋感,也就是胜负棋感。这里是说给定一个盘面,对于黑方或者白方来说,胜率是多少。所以这背后的网络是价值神经网络,它使用了增强型学习,通过自我对弈获得了3000万盘棋谱,每个棋谱只取出一个盘面,防止过度拟合,然后进行胜负分析。通过3000万盘盘面训练出来的增强型深度学习网络,可以做到给定一个盘面,就知道每一步的胜负概率。

例如在这个盘面上,点的颜色越蓝,就意味着胜率越高。最高的胜率是红圈。


搜索验证:蒙特卡洛树搜索

  • 没有棋感直觉不行,完全依赖棋感直觉也不行

  • 直觉需要通过严格的数学模型和计算方法,对棋感直觉进行验证

  • AlphaGo使用蒙特卡洛树搜索,对落子棋感和胜负棋感进行计算验证

仅仅有棋感是不行的,围棋要下好,还得通过严格的数学模型和计算方法,对棋感进行验证。AlphaGo使用的是传统的蒙特卡洛树方法,它在2006年有已经发明出来,现在已经相当成熟。

1、胜负棋感验证:快速模拟采样

  • 基于数学期望的胜负评估模型

  • 基于蒙特卡洛树模拟进行胜负结果采样

  • 根据模拟采样结果验证盘面胜负的数学期望

  • 可靠程度与采样规模相关


AlphaGo通过快速模拟采样进行验证。这是基于数学期望的方法,通过蒙特卡洛树模拟和采样,得到一个期望作为评价指标,以验证盘面的胜负。

评价指标的可靠程度,和采样的规模有关。采样越多,胜负棋感的评价指标越可靠。

2、落子棋感验证:最大信心上限搜索

  • 最大信心上限搜索是在线学习的重要方法

  • 平衡机器学习过程中探索与利用之间的矛盾

  • 搜索最优的落子点,同时也是搜索次数最多的、信心最大的、胜率最高的落子点

搜索结果:双方最佳落子序列

  • 落子过程的最终搜索结果是双方最佳的落子序列,反映了对棋局进程的展望

  • 在一般情况下,28步落子序列展望已经超过了围棋职业选手的搜索深度

  • 在特殊复杂的情况下,28步的搜索深度仍显不足

这幅图列出双方最佳的落子序列:28步,14个回合,计算出来双方该怎么下,对方如何落子,自己又怎么落子。


AlphaGo的核心技术突破

  • 核心技术:使用深度神经网络获得围棋棋感

  • 特别是使用增强性深度学习获得胜负棋感直觉

  • 蒙特卡洛树搜索已经是成熟的技术

  • 对弈硬件配置普通,但训练配置昂贵、所需时间长

AlphaGo的核心技术突破,是使用了深度神经网络获得围棋棋感直觉,这个方法应该是DeepMind公司首创。虽然有其他团队、其他公司做过相关的事情,比如说DarkForest,刘知青自己也在做棋谱分析。但是全面的做,不仅做落子棋感,同时也做了胜负棋感,只有DeepMind。胜负棋感,是AlphaGo获胜的关键。而使用增强型深度学习,是AlphaGo技术的关键。

但是AlphaGo不仅仅使用棋感,也使用了蒙特卡洛树搜索。AlphaGo的前两个作者,都是长期从事计算机围棋的人士,AjaHuang博士论文做了7年,就是做计算机围棋。他们有很长的前期积累,使用了成熟的计算机技术,同时加入了自身的突破。DeepMind非常擅长使用深度增强型机器学习,之前的论文也使用这种方法在电子游戏上,发在了Nature。在对弈上,他们使用的硬件相对比较普通,比如说48个CPU、6个GPU。即便是分布式版本,1000多个CPU,也不是很大。但训练时所需要的CPU是巨大的,一般需要几个月的时间。

Hassabis:我们的深度神经网络训练算法,对AlphaGo的性能是至关重要的,远远超出它背后的硬件设备。


以围棋作为标尺:人工智能爆发的转折点

  • 目标促使我们寻找人工智能的途径

  • 标尺帮助我们衡量人工智能的水平

  • 围棋的突破表是我们正处于人工智能爆发的重大转折点,未来几年数据驱动的人工通用智能会井喷式地发展

我们要有标尺来衡量人工智能的水平,而围棋是非常好的标尺。围棋设置的逻辑推理、形象思维和优化选择等多种能力,是全面智能的体现。围棋是公认的人工智能长期以来的重大挑战,而在围棋上的突破,表示我们正处于人工智能爆发的重大转折点。

AlphaGo使用的方法,在数据中使用神经网络训练,从高段位的棋手获得落子棋感,自学习获得胜负棋感。用数据驱动通用人工智能的发展,这在未来几年会有井喷式的发展。


未来人工智能的核心

未来人工智能的核心是直觉获取、搜索验证和优化决策。

直觉获取

  • 直觉:不经过思考过程,很快就能出现的直接想法、感觉、信念或者偏好

  • 英文Intuition来自于拉丁语:意思是“往里看”、“默观”

  • 通过深度神经网络和大数据的训练而获得

围棋有落子和胜负的直觉,我们还可以有棋盘识别的直觉,任意拍一张照片,可以使用深度神经网络识别哪里是棋盘,哪里是棋子。他们当时和樊麾对弈,就是使用摄像机记录。但是有了这个技术,就能够马上识别落子过程。这种不经过思考,很快就能识别的能力,就可以通过神经网络的训练获得。

搜索验证

  • 验证:为直觉建立真实性、准确性、和可靠性的过程

  • 验证是核实直觉不存在偏差的一个充分条件

  • 由于廉价并行计算和大数据的支持,直觉可以通过搜索计算来验证

第二个核心是搜索验证。直觉是存在误差的,所以需要为直觉建立真实性和可靠性,这就需要通过验证了。廉价的并行计算和大数据的积累,就能够用来验证直觉。

优化决策

  • 人类生活面临方方面面的优化决策问题

  • 照片上的肿瘤是否是良性的

  • 手里的股票是否继续持有

  • 驾车到交通等是否继续直行

  • 优化选择的实现依赖于直觉获取和搜索验证

有了廉价的并行计算获得的验证方法,和神经网络获得的直觉,下一步是优化决策。人类生活中面临着方方面面的优化决策问题,照片中的肿瘤是不是良性,手里的股票是否要继续持有?都些都是决策,从大到小无处不在。我们完全可以对此进行智能的优化选择。

毫无疑问,人工智能会渗透到我们生活的方方面面。正如互联网摧枯拉朽一般席卷了所有产业,人工智能也会带来智能+的浪潮。作为智能+中国的主平台,新智元也会加入这场产业革命,推动中国人工智能事业的发展!


转载自:新智元