“阿尔法围棋”的技术架构就是深度学习神经网络中的CNN架构(两种落子策略——“监督学习”“强化学习”和一个局面评估策略)及蒙特卡罗搜索树。其中,三种策略的神经网络架构基本相同,环环相扣。
首先,“阿尔法围棋”纯粹地学习人类下棋经验,观察人类选手如何落子,不涉及对优劣的判断。这招落子策略被称为“监督学习”。接下来,“阿尔法围棋”通过和自己下棋来进行“强化学习”,学习如何找到最佳对应落子,最终赢棋。最后,“阿尔法围棋”跳出具体步骤来“看”整盘棋,也就是局面评估策略。
有了以上三个深度学习策略,“阿尔法围棋”再引入蒙特卡罗搜索树,以减少预测对手下一步棋的难度和复杂性。蒙特卡罗搜索树并不是一种算法,而是对一类随机算法的特性的概括。举例来说:假如筐里有100个苹果,随机拿一个,再随机拿一个跟它相比,留下大的。这样,每拿一次,留下的苹果都比上次大。拿的次数越多,挑出的苹果就可能越大,但除非拿100次,否则无法确定挑出了最大的那个。这就是蒙特卡罗搜索树。
“阿尔法围棋”赢了李世石,很多人开始担心人工智能会对人类产生威胁。事实上,人工智能要在现实世界中应用,仍然是相当困难的。
在理论上我们就面临两个问题:一是统计学习方面,我们需要了解“深度学习”到底需要多少训练样本,才能学习到足够好的深度模型?另一个是计算方面,我们需要多少计算资源才能通过训练得到更好的模型?这些理论研究极其困难。
另外,针对具体应用问题,是否可能建立一个深度模型的建模语言,作为统一的框架来处理文字、语音和图象?
还有,对于互联网公司而言,如何在工程上利用大规模的并行计算平台来实现海量数据训练?传统的大数据平台不适合需要频繁迭代的深度学习。
再有,蒙特利尔大学教授约舒瓦•班吉奥表示:“深度学习领域目前的困境是缺乏专家,培养一个博士生大约需要五年,但是五年前还没有博士生开始从事深度学习研究,这意味着现在该领域的专家极度稀缺。”
最后,并非每个人都认为深度学习会助推人工智能超越人脑。有些批评家表示,深度学习和人工智能从根本上忽略了大脑生物学的很多方面,太过于注重计算能力。
在这场人机大战之前,研究者让“阿尔法围棋”和其他围棋智能程序进行了较量。在总计495局中,“阿尔法围棋”只输了1局,胜率是99.8%。它甚至尝试让4子对阵“狂石”、“天顶”和“Pachi”三个先进的程序,胜率分别是77%、86%和99%。
去年年底,“阿尔法围棋”的Elo围棋等级分是3168分,而李世石是3532.按照“阿尔法围棋”的等级分,如果它是一个人类选手的话,对弈李世石获胜的可能性是11%,对弈5盘胜出3盘或更多盘的可能性,只有1.1%。
(选自《文汇报》,有删改)