EarlMind

用人工智能加速科学发现 by Deepmind CEO Demis Hassabis

知译  ·  

原文链接

早年经历与剑桥岁月

问:Hassabis 爵士,非常欢迎回到剑桥。能否谈谈您早年是如何对人工智能产生兴趣的?以及剑桥大学对您的职业生涯有何影响?

答:谢谢 Alastair(主持人 Alastair Beresford)热情洋溢的介绍。回到剑桥总是感觉很亲切,尤其是这个演讲厅,Alastair 提醒我,这可能是我上的第一堂课的地方。这里一直是我最喜欢的演讲厅。

我记得曾对我的剑桥老朋友们说——今天看到很多老朋友在这里,比如 Aaron——也许有一天我会回到这里做演讲,宣布通用人工智能(AGI)的到来,或许还会有一个机器人走上台震惊全场。今天我不会这样做,让大家失望了,但也许几年后,我会再回来做那样的演讲。但这里是个了不起的地方,如此鼓舞人心。我将谈谈剑桥实际上如何启发了我的整个职业生涯,并希望也能同样启发在座的各位,特别是学生们。

对我来说,我的人工智能之旅始于游戏,特别是国际象棋。我从四岁开始下棋,非常认真地为英格兰青少年队效力。这让我开始思考“思考”本身。我们的大脑是如何产生这些计划和想法的?我们如何解决问题?我们如何改进?显然,当你年轻时下棋并想参与竞争,你会试图改进这个过程。对我来说,这甚至比我玩的游戏本身更迷人,是背后的思维过程。

事实上,我第一次接触计算机和人工智能,就是在国际象棋的背景下。我尝试使用非常早期的国际象棋电脑,就像右边这台,我想这是我的第一台国际象棋电脑。它们是实体棋盘,你必须按下棋格来移动棋子。当然,我们本该用这些电脑来训练开局理论,学习更多关于国际象棋的知识。但我记得,我当时着迷于这样一个事实:有人竟然编程让这块无生命的塑料块能和你下得非常好。我对其如何实现以及如何编程感到非常着迷。

最终,在我十几岁的时候,我开始用 Amiga 500 电脑进行实验——那是在 80 年代末 90 年代初非常棒的家用电脑——自己构建类似的人工智能程序来玩像奥赛罗(Othello)这样的游戏。那真是我第一次接触人工智能,从那时起我就迷上了它。我很早就决定,我的整个职业生涯都要致力于推动这项技术的前沿。

这之后我来到了剑桥。在这里的三年对我来说是极其重要的 formative 时期。我来自北伦敦的一所综合学校,在人们的记忆中,从未有人考上过牛津或剑桥。我之所以想来剑桥,是因为我听到的所有关于剑桥发生的激动人心的故事。我过去常常阅读那些令人惊叹的人物的传记和他们的工作,尤其是像左上角的克里克(Crick)和沃森(Watson)。

我特别记得一部 80 年代的电影《争夺双螺旋》(The Race for the Double Helix),如果你没看过,那是一部很棒的电影,杰夫·高布伦(Jeff Goldblum)早期扮演的角色之一,他饰演沃森,充满了热情。他们在剑桥漫游,研究 DNA 之类的东西,度过了美好的时光。我想,看,这就是我想要的——参与其中。我想感受一下处于发现前沿是什么感觉,还有什么比这更令人兴奋的呢?那部电影确实生动地展现了那可能是什么样子。

当然,我所有的科学英雄,很多都曾在剑桥学习过。比如阿兰·图灵(Alan Turing)和查尔斯·巴贝奇(Charles Babbage),就在我们现在坐的这个演讲厅相关的领域。甚至像老鹰酒吧(Eagle Pub)这样的地方,如果你在女王学院开始学习,第一天的导览就会带你去看看他们讨论 DNA 结构的桌子。走在国王大道(Kings Parade)上,你不可能不被这些所激励。我几乎感觉到,过去的知识巨匠们仿佛在从石头中向你诉说。这就是我在深夜去 Gardenia’s 买汉堡时所感受到的激励,所有这些走过同样足迹几百年来的了不起的人们。

这就是剑桥无与伦比的历史,我认为我们今天仍然可以从中汲取力量和灵感。还有一张我和 Aaron 的照片,他是我在女王学院最好的朋友之一,显然是在数学桥(Mathematical Bridge)上拍的。

最后,正如 Alastair 提到的,诺贝尔奖。去年 12 月去斯德哥尔摩领奖是我一生的荣幸,那是一周精彩的活动。但我最喜欢的活动是在诺贝尔基金会签署诺贝尔名册。就是那本书。这是我拍的一张照片,我开始翻阅那本书。你签上自己的名字,然后往回翻。你想知道克里克在里面吗?当然在。然后你再往前翻,爱因斯坦的签名也在那里,这真是令人难以置信。我花了一个小时拍摄书的每一页。所以对我来说,从看到那张照片,到 1980 年代末看到那部电影,这形成了一个完整的循环。

DeepMind 的创立与 AI 哲学

问:您在 2010 年共同创立了 DeepMind。当时的愿景是什么?与其他 AI 研究路径相比,DeepMind 的方法有何独特之处?

答:是的,我们在 2010 年在伦敦创立了 DeepMind。当时,我们把它看作是一种“阿波罗计划”式的努力,试图构建通用人工智能(AGI)(Artificial General Intelligence, 指具备与人类相当、甚至超越人类的认知能力,能够执行任何人类可以完成的智力任务的人工智能),一种真正通用、能够执行人类所有认知能力的 AI。它将是一个真正通用的 AI 系统。事实上,这个想法真正源于图灵和图灵机——图灵证明了他的图灵机能够计算任何可计算的东西。这对我来说一直是基础,也是我从剑桥的课堂上带走的主要东西之一,即图灵和香农(Shannon)等人在 1940 年代和 1950 年代所做的计算机科学和计算理论的所有这些理论基础。

我们始于 2010 年,令人惊讶的是这已经是十五年前的事了,在某些方面这并不算太久。但当我们创办 DeepMind 时,几乎没有人研究 AI,这在今天看来难以置信,因为今天几乎每个人似乎都在研究 AI。仅仅十多年的时间,事情发展得令人难以置信。显然,我们一直是这个激动人心的旅程的一部分。

DeepMind 从一开始的使命,我们称之为“负责任地构建 AI 以造福人类”。但我们刚开始时阐述它的方式是分两步走的:第一步,解决智能问题;第二步,用智能解决其他所有问题。

这在 2010 年听起来非常不切实际。你可以想象试图基于这个使命向风险投资家推销。这看起来相当疯狂。但我今天仍然从根本上相信这一点。而且我认为越来越多的人意识到,以这种通用方式构建的 AI 可能对几乎任何领域产生深远和变革性的影响,这显然是我们使命宣言的第二部分。对我来说,这包括加速科学发现本身、医学以及增进我们对周围宇宙的理解。

回到我们刚开始的时候,基本上有两种方法构建 AI。实际上,当我在 90 年代在这里学习时,广义上也有两种方法。一种是专家系统(Expert System)的方式,即你直接用解决方案预先编程一个专家系统。比如深蓝(Deep Blue)在 1990 年代非常著名地击败了加里·卡斯帕罗夫(Garry Kasparov)下国际象棋,当时我正好在这里学习。这可能是专家系统的巅峰例子。

但这些专家系统的问题在于,它们为什么从未真正扩展到完全的通用智能,是因为它们无法处理意外情况。如果发生了你没有预先考虑到的意外情况,系统中没有任何东西能让它处理。它们受到逻辑系统的启发,因此相当僵化、脆弱和易碎。

而现代的方法是建立在学习系统(Learning Systems)上的。这些系统能够自己学习,直接从经验或数据中从第一性原理学习,更多地受到神经科学(研究大脑等生物思维器官内部复杂运作机制的科学领域)思想的启发。显然,我们今天拥有的这些系统的潜力在于,它们可能超越我们作为程序员或系统设计者已经知道如何解决的知识。当然,这在科学发现等领域极其有价值。

从游戏到科学突破

问:DeepMind 最初以在游戏中取得突破而闻名,例如 AlphaGo。为什么选择游戏作为 AI 研究的起点?这些游戏 AI 系统是如何工作的?

答:我们从 2010 年代初开始涉足游戏。我一生中多次使用游戏。首先是训练我自己的思维,然后我为电脑游戏构建游戏和 AI。最后,第三种方式是训练我们的 AI 系统。游戏是 AI 系统的完美试验场。你可以从非常简单的游戏开始,比如 1970 年代的雅达利(Atari)游戏。

这个名为 DQN 的系统,确实是第一个构建出能够直接从原始数据中学习的端到端学习系统。在这种情况下,原始数据是屏幕上的原始像素,系统没有被告知任何关于游戏的信息,也不知道它在控制什么。它只被告知要基于这个视频流输入(像素流输入)来最大化得分。我们在 2013 年左右,能够掌握所有不同的雅达利游戏。

然后我们将这些系统扩展到我认为是游戏 AI 的终极挑战:你能否创建出能够达到世界冠军水平甚至超越的围棋系统?围棋可能是人类发明的最复杂的游戏。它有数千年的历史,也是最古老、最优雅的游戏之一。

你可以通过一个方式看到围棋的复杂性:围棋中可能有 10 的 170 次方种可能的局面。这远远超过了可观测宇宙中的原子数量。关于这一点的重要意义在于,你无法使用暴力破解(brute force)技术在围棋中找到策略。这将是不可能的,完全棘手(intractable)。所以你必须做一些更聪明的事情。

著名的事件是 2016 年,AlphaGo 在一场奖金 100 万美元的挑战赛中击败了 18 次世界冠军李世乭(Lee Sedol),他是围棋界的传奇人物之一,一位韩国九段棋手。这场比赛吸引了全球 2 亿人观看。我们的系统 AlphaGo 不仅赢得了比赛,更重要的是,它实际上提出了新的、原创的围棋策略。尽管我们下围棋已有数千年历史,职业化也有数百年,它仍然能够发现前所未见的策略。

AlphaGo 的革命性第 37 手

最著名的是第二局比赛中这步红色的第 37 手。如果你观看关于此事的纪录片(在 YouTube 上有),你会看到世界上最好的棋手们对这步棋有多么惊讶。他们在评论比赛时谈论这步棋。这在当时是难以想象的一步。然而,一百手之后,这步棋最终还是让 AlphaGo 也赢得了这一局。所以,这再次告诉我这类系统发明和发现新知识的潜力。

当然,这里我们谈论的只是游戏知识,但显然我的梦想是将其推广到科学发现的所有领域。

AI 系统如何通过自我对弈学习?

这些系统是如何工作的?我们基本上通过自我对弈(self-play)系统来训练这些神经网络。这实际上是 AlphaGo 以及后续系统如 AlphaGo Zero 和 AlphaZero 的工作方式,后者将我们为围棋所做的工作推广到可以从零开始玩任何双人游戏。你从系统的第一个版本开始,它对游戏几乎一无所知,只知道规则,然后随机下棋。

你让这个系统与自己对弈,比如说 10 万局。这会从那 10 万局游戏中创建一个新的棋局数据库。基于此,你训练出第二个版本,一个稍微好一点的模型版本二。版本二被训练来预测在任何给定位置可能下的棋步,以及哪一方(黑棋或白棋)更有可能获胜,以及他们获胜的百分比概率是多少。然后你可以用版本二与版本一进行 100 局的对抗赛。如果它以显著优势获胜,比如 55% 的胜率,你就用版本二替换版本一,并创建一个质量稍高的新游戏数据库,然后学习出版本三的系统。

如果你重复这个过程大约 17、18 次,你就能从早上随机乱下,到 24 小时或更短时间后,版本 17 或 18 就比世界冠军水平还要强。 看到这种自我提升在非常短的时间内发生,是一个相当不可思议的过程。

这些神经网络正在做的是将 10 的 170 次方可能性的棘手搜索空间缩减到可以在几分钟计算时间内处理的程度。它通过使用神经网络来有效地引导搜索机制,从而缩小范围。如果你把这个可能性的树想象成每个节点都是一个围棋局面,那么你就不必查看每一种可能性,你可以利用神经网络引导你只沿着最有趣、最有用的线路进行检查。

比如在这种情况下,蓝色的线路。然后在你的思考时间用完后,你选择迄今为止看到的最佳线路,最有希望的线路。在这种情况下,就是这条紫色的特定线路。

超越围棋:AlphaZero 的国际象棋创新

问:AlphaGo 之后,你们又开发了 AlphaZero,它不仅能下围棋,还能下国际象棋等其他游戏,甚至带来了新的下棋风格。这有何重要意义?

答:是的,我们不仅做了围棋,还做了任何双人完美信息游戏。它甚至能够发现新的国际象棋策略和下棋风格,这相当了不起,因为当时的国际象棋电脑已经非常强大了。

像 Stockfish 这样的程序已经极其强大。AlphaZero 当时能够击败 Stockfish 下国际象棋,这几乎是不可能做到的。它不仅击败了 Stockfish,而且在这个特定的局面中——这是 AlphaZero 下的最著名的棋局之一,被称为“不朽的楚茨文(Immortal Zugzwang)”——白方正在获胜,因为它更看重棋子的机动性(mobility)而非物质(material)。

大多数国际象棋电脑都看重物质。你会看到黑方(如果你下棋的话)拥有更多的物质,但实际上它的任何棋子都无法移动。它们都被困在角落里。AlphaZero 为了获得这种机动性而牺牲了物质。对于人类特级大师和顶尖棋手来说,这不仅是非常有效的风格,而且是一种非常具有美学感的下棋方式。令人惊奇的是,AlphaZero 能够发现这种新的、充满活力的下棋方式。

事实上,一些世界顶尖棋手对此发表了评论。我一直最喜欢的棋手加里·卡斯帕罗夫说:“程序通常反映了程序员的优先考虑和偏见。但因为 AlphaZero 是自我学习的,我会说它的风格反映了真理。” 当时的世界冠军马格努斯·卡尔森(Magnus Carlsen)阅读并研究了这些棋局,以及关于 AlphaZero 的书籍,他说:“我最近受到了我的一位英雄的影响,其中之一就是 AlphaZero。”

他实际上将很多这些想法融入了自己的棋路中,从而统治了国际象棋界近十年。

从游戏到现实世界问题

问:在游戏 AI 上取得成功后,DeepMind 如何将这些技术应用于解决现实世界的问题,特别是科学难题?选择应用领域的标准是什么?

答:我们在 DeepMind 存在的第一个十年里,在游戏 AI 方面取得了所有这些里程碑式的突破。但当然,这些只是我们想要做的事情的训练场,只是达到目的的手段,而不是目的本身——尽管我非常喜欢游戏。目的是创造出这些能够普遍用于解决现实世界问题的算法。

我们在寻找现实世界问题时——不仅是科学问题,也包括工业问题——会考虑三个不同的标准,这些标准使得问题适合用我们为玩游戏而开发的这类 AI 系统、思想和算法来解决:

  1. 我们寻找可以被描述为具有巨大组合搜索空间(Combinatorial Search Space, 指在解决一个问题时,所有可能的解决方案或状态构成的集合,其规模通常随问题参数呈指数级或阶乘级增长,使得暴力搜索不可行)的问题——通常过于复杂,组合数量太多,无法通过暴力破解找到解决方案。但也许存在某种结构,我们可以通过我们的神经网络学习到,从而非常有效地引导搜索。
  2. 我们寻找可以用清晰的目标函数(objective function)或某种可以优化的度量(metric)来描述的问题。 在游戏中,这非常简单,比如最大化得分或赢得比赛。但实际上,有很多现实世界的问题可以归结为几个你试图最大化的度量或目标函数。
  3. 最后,当然你需要相当多的数据或经验来学习,和/或理想情况下有一个准确且高效的模拟器(simulator),这样你可以生成更多的合成数据来增强你拥有的真实数据。

事实证明,如果你从这个角度看待问题,有很多问题可以被纳入这些术语中,包括许多科学领域的重要问题。

蛋白质折叠问题

问:您一直提到蛋白质折叠(Protein Folding, 指氨基酸链自发地或在分子伴侣的帮助下折叠成其特定的三维功能结构的过程)问题是您关注的重点。能否解释一下这个问题是什么?为什么它如此重要且难以解决?

答:我一直记在心头的一个问题,实际上是从我作为本科生在剑桥第一次接触到它时开始的,那就是蛋白质折叠问题。对于那些不了解生物学和蛋白质的人,我简单描述一下。

蛋白质极其重要,它们是生命的基石。生物体内的几乎所有功能都依赖于蛋白质,从你的神经元放电到你的肌肉纤维抽搐。可以说,蛋白质使生命成为可能。

蛋白质折叠问题描述起来非常简单。蛋白质由其基因序列(genetic sequence)定义,基因序列指定了氨基酸序列(amino acid sequence),在自然界中,这条氨基酸链会自发地折叠成通常非常漂亮的蛋白质结构。所以你从基因序列得到了蛋白质结构。蛋白质的三维结构之所以非常重要,是因为它在很大程度上决定了它的功能,即它在体内做什么。

所以,它并不能完全描述功能,但在它实际在自然界中做什么方面起着重要作用。蛋白质折叠问题就是:你能否直接从这个一维的氨基酸序列预测蛋白质结构?你能否通过计算,从那个序列预测出那个令人难以置信的三维结构?

为什么这是一个如此困难的问题?嗯,著名的蛋白质研究员莱文塔尔(Levinthal)在 1960 年代描述了一个被称为莱文塔尔悖论(Levinthal's Paradox)的猜想。他计算出,一个普通蛋白质大约可以采取 10 的 300 次方种可能的形状。然而,在自然界和身体中,这些蛋白质在毫秒级的时间内自发折叠。

这就是悖论所在。如果可能性如此之多,自然界是如何做到这一点的?基本上,物理学是如何实现这一点的?这给了你希望,这个问题在计算上必定是可以在合理时间内解决的,因为物理学在身体里每秒钟解决这个问题数十亿次。

AlphaFold 与 CASP 竞赛

问:DeepMind 开发了 AlphaFold 来解决蛋白质折叠问题,并在 CASP 竞赛中取得了巨大成功。能否介绍一下 AlphaFold 的研发过程和它在 CASP 上的表现?

答:此外,吸引我研究这个问题的是,有一个名为 CASP(Critical Assessment of protein Structure Prediction)的双年度竞赛。你可以把它看作是蛋白质折叠界的奥运会。它每两年举办一次,由一些了不起的人领导,包括马里兰大学的 John Moult 教授。自 1994 年以来一直在运行。

这是一个很棒的竞赛,因为他们与实验科学家合作,这些科学家煞费苦心地使用非常奇特和昂贵的设备,如电子显微镜,来确定这些结构。他们使用尚未发表的新发现的结构。竞赛组织者知道基准真相(ground truth)是什么,但计算团队——每隔几年就有数百个团队参加比赛——尝试用他们的计算方法来预测这些结构。通常竞赛中大约有 100 个蛋白质。在夏末,他们会公布真实的结构,你可以比较预测的结构及其与真实结构的距离(预测误差)。

我们在 2018 年首次带着 AlphaFold 1 参赛。我们是在 2016 年启动 AlphaFold 项目的,实际上几乎就在我们从韩国首尔的 AlphaGo 比赛回来后的第二天。我们觉得我们已经准备好了,我们的技术已经足够成熟,可以应用于游戏之外的领域,尝试解决真正有意义的问题。我们称之为“根节点问题”(root node problems),因为如果它们能被解决,就能开辟出全新的发现分支和途径,可以在其基础上进行构建。蛋白质折叠就是这方面的一个典型例子。

所以我们在 2016 年开始工作。AlphaFold 1 经过几年研发后准备就绪,我们用它参加了 CASP13 竞赛。你可以看到,在此之前的十年里,这些柱状图显示的是在最难类别(预测最难的蛋白质)中获胜团队的得分。你可以将其视为一个准确度百分比,即在一定的容差范围内(大约一个原子的宽度内),有多少氨基酸的位置预测正确。你可以看到十年来进展不大,我们一直停留在 60 分的水平。如果你能达到 90 分,就意味着达到了原子级别的精度。

实验科学家告诉我们,必须达到这个精度,才能与实验方法相媲美。这样实验科学家才能真正依赖这些预测,而不必非得进行费力、艰苦的工作来确定那个结构。作为经验法则,我的生物学家朋友总是告诉我,一个博士生需要整个博士期间,也就是四五年时间,才能确定仅仅一个蛋白质的结构。而科学界已知的蛋白质有 2 亿种,人类蛋白质组(proteome)中有 2 万种蛋白质。

凭借 AlphaFold 1,我们赢得了这次竞赛,并且比次优系统好了将近 50%。AlphaFold 1 首次将机器学习技术作为系统的主要组成部分引入。但这还不足以达到原子精度。我们实际上不得不根据我们从 AlphaFold 1 中学到的东西重新回到绘图板,从头开始为 AlphaFold 2 设计架构,利用 AlphaFold 1 的所有经验教训,最终达到了这个原子精度。这使得组织者在 2020 年底宣布该问题已被解决。

AlphaFold 的工作原理与影响

问:AlphaFold 2 达到了原子级精度,被认为是解决了蛋白质折叠问题。它具体是如何工作的?这一突破带来了哪些影响?

答:这是一个 AlphaFold 工作原理的可视化例子。左边是一个非常复杂的蛋白质。基准真相是绿色的。预测的结构是蓝色的。你可以看到蓝色与绿色重叠得多么紧密。

右边展示了 AlphaFold 2 的工作方式。它通过一个迭代过程构建出结构。它实际上在 192 个步骤中自我循环(recycle)并构建,开始时像一个揉皱的蛋白质物质球(氨基酸),然后它构建出一个越来越合理的结构。最后,它会对最后的部分进行精炼,直到得到最终的预测结果。

我们立刻意识到,因为 AlphaFold 非常准确且速度极快——预测蛋白质只需几秒钟——我们实际上可以折叠科学界已知的所有 2 亿种蛋白质。在一年的时间里,我们使用了 Google Cloud 上的大量计算机来折叠所有这些蛋白质,然后与我们在 EMBL-EBI(欧洲生物信息学研究所)的同事们——就在剑桥郊外的桑格中心(Sanger Centre)——合作,将它们免费发布在一个数据库上。我们免费提供给世界上任何人无限制地使用。

这 2 亿个蛋白质,如果你想想用实验方法做需要多长时间——每个蛋白质需要四五年——这差不多相当于十亿年的博士研究时间在一年内完成。想想科学能被加速多少,真是令人惊叹。

它开辟了全新的探索途径,因为许多这些结构,特别是对于研究较少的生物体(如某些对科学和农业研究非常重要的植物类型),几乎不可能通过其他方式获得。现在这些都可访问了。有了 2 亿个结构,你可以在宏观层面看待它们,检查跨物种的结构和元结构(meta-structures),以观察进化过程中的共性。由于这项工作,现在结构生物学中正在探索一些非常有趣的新分支。

我们从一开始就考虑到了安全性,并非常认真地承担起作为 AI 前沿领导者的责任。在这种情况下,我们咨询了 30 多位生物安全和生物伦理专家,以确保我们向世界发布的东西所带来的益处远远超过任何相关的风险。我非常自豪地说,来自世界上几乎每个国家的超过 200 万研究人员正在使用它。 它已被引用超过 3 万次,并已成为生物学研究的标准工具。在座的许多博士生可能正在使用它并从中受益。它现在已经成为生物学研究标准典范的一部分。

AlphaFold 的实际应用和演进

问:AlphaFold 的结构预测已经被广泛应用。能否举例说明它在具体科研和应用领域的作用?AlphaFold 技术本身还在继续发展吗?

答:看到其他研究人员利用所有这些技术和结构所做的工作,真是太棒了。我只列举了六个我最喜欢的例子。朴茨茅斯大学(University of Portsmouth)的人们正在用它来解决环境中的塑料污染问题,试图设计新的酶(一种蛋白质)来消化塑料。我们正在与弗莱明中心(Fleming Centre)合作研究抗生素耐药性和被忽视的疾病,如影响世界较贫困地区的热带病。我们与被忽视疾病药物研发倡议组织(Drugs for Neglected Diseases Institute)合作。

这是一个很好的例子,说明我们可以在疟疾、利什曼病和寨卡病毒等领域加速研究,这些领域许多结构是未知的。现在研究人员可以直接进行药物发现,因为他们掌握了关于这些病毒和细菌结构的大部分信息。在基础研究方面也做了很多工作,比如确定核孔复合体(nanopore complex)的结构,这是一种非常重要的蛋白质,负责让营养物质进出细胞核孔。博德研究所(Broad Institute)在药物递送方面做了出色的工作,设计分子注射器,重新设计蛋白质,可以将药物靶向递送到身体的特定部位。它甚至被用于研究生育机制。

这个系统现在几乎被应用于生物学和医学研究的每一个领域。

在过去的几年里,我们持续开发对系统的更多改进。我们今年早些时候发布了 AlphaFold 3 供学术界使用,并将其扩展到处理相互作用。你可以将 AlphaFold 2 看作是静态蛋白质结构的图片,但生物学实际上是一个动态过程。所以你需要理解不同的生物元素是如何相互作用的。

这包括蛋白质与其他蛋白质的相互作用,也包括蛋白质与生命中重要的其他分子(如 DNA 和 RNA)以及配体(ligands)(能够与生物大分子如蛋白质或核酸结合的小分子,通常能引发某种生物学效应)的相互作用。配体是小分子,包括药物化合物——蛋白质如何与该化合物结合?然后我们还有一项独立的工作,Alpha Proteo,它在利用 AlphaFold 技术的同时,做着与 AlphaFold 相反的事情。如果你想设计一种新的蛋白质,也许是自然界中不存在的、用于特定工作或功能的蛋白质,那么能够产生该结构的氨基酸序列和基因序列是什么?这有点像反向运行它,试图设计出能做新奇事情的新结构。同样,这对于设计药物、抗生素和抗体可能极其有用。

让复杂搜索变得可行

问:从 AlphaGo 到 AlphaFold,您似乎找到了一种用 AI 解决复杂搜索问题的通用方法。能否总结一下这种方法的核心思想?它还能应用于哪些其他领域?

答:那么,回过头来看,审视我们过去十五年所做的所有工作,对科学和机器学习意味着什么?如果你思考我们在游戏方面的工作,以及现在我们一直在进行的科学工作——其中 AlphaFold 是我们最好的例子——这一切都是为了让搜索变得可行(tractable)。 你面对一个极其复杂的问题,有非常非常多的可能解决方案,你必须在那个巨大的组合搜索空间(见前注)中找到最优解——大海捞针。你无法通过暴力破解来做到。

所以你必须学习这个神经网络模型,它学习问题的拓扑结构(topology),这样你就可以有效地引导搜索达到你的目标——最大化或找到你设想的目标的最优解。我认为这对于各种各样的问题来说,是一种极其通用的解决方案和方法。回到围棋的例子:我们试图用这些系统找到最佳的围棋着法,但你也可以把那些节点换成化学化合物。

现在你试图在化学空间(chemical space)中找到最好的分子——能够特异性地与你感兴趣的目标结合,但不与其他任何东西结合的分子。这可以减少该化合物的副作用和毒性。我们正在使用非常相似的技术来设计这些分子,因为我们越来越深入地进入药物发现领域。

数字生物学时代

问:您提到了“数字生物学”(Digital Biology)的概念。您认为 AI 将如何改变生物学研究?未来的生物学研究会是什么样子?

答:我认为至少在生物学领域,我们现在正进入一个我喜欢称之为“数字生物学”的新时代。我认为生物学在其最基本的层面上是一个信息处理系统,试图抵抗周围的熵(entropy)。

我认为这基本上就是生命。 当然,它是一个极其复杂和涌现(emergent)(指复杂系统中,整体展现出其组成部分所不具备的新特性或行为)的信息处理系统。我认为这就是 AI 发挥作用的地方。就像数学是描述物理学和物理现象的完美语言一样,我认为 AI 是描述生物学的完美语言。

它非常适合处理像生物学这样的动态系统中出现的复杂性、涌现行为和相互作用。我认为 AlphaFold 就是一个证明。我希望十年后我们回首时,它不会是一个孤立的突破,而是预示着这个数字生物学新黄金时代的到来。

我们自己也在努力推动这一点。我们成立了一家新的分拆公司,Isomorphic Labs,以我们的 AlphaFold 技术为基础,更多地进入我刚才谈到的化学领域,并尝试用 AI 从第一性原理重新构想药物发现。

目前,开发一种药物平均需要十年时间,而且极其昂贵,耗资数十亿甚至数百亿美元。我在想:为什么我们不能用这些技术将时间从几年缩短到几个月,甚至有一天缩短到几周,就像我们将蛋白质结构的发现时间从可能的几年缩短到现在的几分钟甚至几秒钟一样?我们认为这是以数字速度做科学——试图将我们在技术领域的优势带到自然科学中。

我梦想有一天能够创造出一种虚拟细胞(virtual cell),一个计算细胞,也许是像酵母细胞这样非常简单的东西,你可以在计算机(in silico)上进行实验。你从虚拟细胞中得到的预测将实际指导你在实验室中的真实世界实验。你可以减少在湿实验室(wet lab)中进行的大量搜索工作,更多地将湿实验室用于验证步骤,而不是极其昂贵和缓慢的搜索过程。

AI 更广泛的科学影响

问:除了生物学,DeepMind 还在哪些科学、数学或医学领域应用 AI 并取得了突破?

答:当然,我们不仅在生物学中使用 AI,还在更广泛的科学、数学和医学领域使用 AI。我们取得了一系列突破,不仅限于生物科学,还包括健康领域——从视网膜扫描中识别眼疾;发现新材料;帮助等离子体约束聚变反应堆(Plasma Containment Fusion Reactor, 指利用强磁场等手段约束极高温等离子体,以实现可控核聚变反应的装置);更快的算法。

AI 正在为自己发现更好的算法,比如更快的矩阵乘法;进行天气预测;甚至帮助量子计算机和量子计算中的纠错(Quantum Error Correction, 指用于保护量子信息免受噪声和其他量子退相干效应影响的技术)。这只是我们在过去两三年中所做工作的一小部分例子。我认为 AI 将适用于几乎每一个领域。 我总是鼓励大学开始非常认真地考虑多学科交叉工作,将 AI 应用于特定专业领域的正确问题上。我认为在未来五到十年内,通过这样做可以取得非常非常多的进展。

通往 AGI 之路

问:回到 DeepMind 的终极目标——通用人工智能(AGI)。目前在通往 AGI 的道路上进展如何?有哪些关键的技术突破,例如在理解世界和生成内容方面?

答:我最后将以一个更宏观的视角来结束,不仅仅是关于 AI 用于科学,而是关于通往 AGI 的道路,我们离它有多近,以及我们关于 AGI 原始使命的更普遍的工作。我们在理解世界的所有领域都取得了很大进展。我们有时称之为世界模型(World Models)。

我们对我们去年年底刚发布的新视频模型 VO2 特别自豪。它是最先进的视频生成模型,能够仅根据文本描述或单个静态图像生成视频。

虽然其中一些视频可能看起来不那么令人印象深刻,但如果你想想这个“切西红柿”的例子,这就像是视频模型的图灵测试,因为通常你会看到西红柿神奇地复原,或者刀切到了手指,或者刀移到了别处。如果你思考系统为了真正理解世界物理——或者这个蓝莓周围的气泡,仅仅从文本“蓝莓掉入一杯水中”生成——它正确地处理了所有的物理现象,或者这些小卡通人物的运动,或者蜜蜂的运动。这真是令人难以置信。

即使你在五年前告诉我,不内置任何特殊的物理理解就能做到这一点,我也会告诉你这似乎不太可能。但不知何故,这些学习系统能够仅仅通过观看大量 YouTube 视频就学习到真实世界的物理知识。这能够实现,真是非同寻常。

我们更进一步,推出了 Genie 2,把我做游戏的背景又带回来了。这是将那些视频模型更进一步。现在用一个文本指令,你就可以生成一个完整的游戏。

在底部这里我们说“生成一个可玩的世界,扮演一个未来城市的机器人”,它就生成了这个,你可以用 QWE 键和箭头键来控制它。目前它只能保持几秒钟的一致性,但我们正在努力扩展它,让游戏世界的一致性能持续几分钟。那时你就真正拥有了我所说的世界模型——对世界以及真实世界中的相互作用如何运作、真实世界的物理规律有了真正的理解。

安全与责任

问:随着 AI 能力越来越强,其安全性和社会影响也备受关注。DeepMind 如何应对这些挑战?您认为应该如何负责任地发展和部署 AI?

答:当然,我们一直在非常努力地研究这方面的安全问题。从 2010 年一开始,我们就在为成功做规划,尽管当时几乎没有人研究 AI。

我们设想这将是一个二十年的使命,令人惊讶的是,十五年过去了,我们差不多还在按计划进行。我们当时就在为成功做规划——如果我们真的构建出这类变革性的系统和技术,那将伴随着巨大的责任,要确保它们以安全和负责任的方式部署。

我们构建的系统之一叫做 Synth ID,它使用一个 AI 系统——一个对抗性 AI 系统(adversarial AI system)——对内容进行隐形水印处理,对像素、文本或音频进行微小的调整,人耳或人眼无法察觉。但检测系统可以检测出这些是合成生成的内容,无论是音频、图像还是视频。随着这些技术变得广泛部署,我们能够轻松区分合成生成内容和真实内容将变得越来越重要。

AI 在帮助我们应对从气候到健康等最大挑战方面具有不可思议的潜力。但显然这会影响到每一个人。我认为非常重要的一点是,我们不仅要让技术专家参与决策,还要让来自社会的广泛利益相关者参与进来。

在过去几年里,我非常高兴地看到,AI 成为主流的后果之一是许多政府和社会各界都对其产生了兴趣。看到这些国际峰会真是太好了。英国几年前在布莱切利园(Bletchley Park)主办了第一次峰会,汇集了政府首脑、学术界和公民社会,讨论这些技术,如何为其设定正确的护栏,如何确保我们拥抱机遇同时减轻未来可能出现的风险。鉴于我们看到的这些技术的指数级改进,我认为这将变得越来越重要。

我对此的简略说法是,虽然硅谷的口号是“快速行动,打破常规”(move fast and break things)——当然这创造了很多进步和我们日常使用的许多技术——但我认为这不适用于这种变革性技术。

我认为,我们应该尝试使用科学方法,并以一种谦逊和尊重的态度来对待这种技术,这是它应得的。我们有很多不知道的事情。关于这项技术将如何发展,存在很多未知数。它是如此之新。我认为,只有通过特别的谨慎和远见,我们才能获得所有的好处并最大限度地减少其负面影响。

但我认为只有我们现在就开始相关的研究和辩论,才能做到这一点。所以最后总结一下,我们现在正在构建我们自己的大型多模态模型(multimodal models)(能够理解和处理多种类型数据,如文本、图像、音频、视频等的 AI 模型),试图将我向你们展示的所有这些不同模型的优点整合到一个系统中。我们称之为 Gemini 系列。我们最新的型号是 Gemini 2.0,你们中有些人可能已经试用过,它在许多领先的基准测试中都处于最先进水平。我们正在用它来进一步推动下一代助手的发展,我对此非常兴奋。

我称之为通用助手(universal assistance)。我们称之为 Astra 项目,实际上你可以把它装在手机或其他设备上,也许是眼镜,它开始时会是一个你可以随身携带到现实世界中的助手。它在日常生活中帮助你丰富生活或提高生产力。AI 的下一步是将我向你们展示的 AlphaGo 这类基于智能体(agent-based)(指能够感知环境、自主决策并采取行动以实现目标的计算实体)的模型(能够有效地搜索并找到有限领域内问题的良好解决方案,比如在游戏中)与像 Gemini 这样更通用的模型(理解现实世界如何运作的世界模型)结合起来,然后能够规划并在现实世界中实现目标。

当然,这对机器人技术等领域至关重要,我认为在未来两三年内,这将是一个将取得巨大进步的巨大领域。 所以我最后只想做一个小小的推测,关于这一切意味着什么,如果我们回想图灵和他为奠定计算机科学基础所做的所有工作。我认为,如果你看到我们所做的工作,我把自己看作是某种图灵的拥护者。图灵机和这种经典计算(classical computing)的思想能走多远?我觉得我在这间教室里听过的一堂课,是我最喜欢思考的事情之一,那就是 P=NP 问题,这是计算机科学中一个著名的问题,关于什么样的问​​题在经典系统上是可解的(tractable)。

显然,在量子计算系统方面有很多出色的工作正在进行,其中很多就在剑桥。在 Google,我们也有世界上顶尖的量子计算研究组之一。有很多事情被认为需要量子计算来解决,很多我们想要理解和建模的现实世界系统。我的推测是,实际上经典的图リング机,基本上是这些 AI 系统所基于的经典机器,能做的事情比我们以前认为的要多得多。如果你想想 AlphaFold 和蛋白质折叠,蛋白质是量子系统。

它们在原子尺度上运作,人们可能认为你需要量子模拟才能找到蛋白质的结构。然而,我们能够用我们的神经网络来近似这些解。所以我认为这里一个潜在的想法是,任何可以在自然界中生成或发现的模式,也就是说具有某种真实的物理结构,都可以被像 AlphaFold 这样的经典学习算法有效地发现和建模。

如果这被证明是真的,我认为这对量子力学乃至基础物理学都有各种各样的影响,这是我希望探索的,我的许多同事也希望探索,也许可以借助这些经典系统的帮助,来帮助我们揭示现实的真实本质可能是什么。这又让我回到了我很多很多年前开始走上 AI 之路的根本原因:我一直相信,以这种方式构建的 AGI 可能成为理解我们周围宇宙以及我们在其中位置的终极通用工具。谢谢大家。

问答环节

主持人: 好的。我们还有时间进行一些提问,如果大家有问题的话。

问: 谢谢您的精彩演讲。您有神经科学背景,并且非常喜欢从“根节点问题”的角度思考。在神经科学领域,您是否遇到过您认为值得解决,并且至今仍然值得解决的根节点问题,以理解生物智能和人工智能?

答: 是的,有很多。实际上,这就是我博士期间研究的内容,主要是记忆,但也包括想象力,即未来思考(future thinking)和规划(planning)。我非常想了解大脑是如何做到这些的。结果发现海马体(hippocampus)同时参与了这两个过程,所以我们也许可以用一些算法来模仿它。所以我认为其中有很多关键的东西。当然,还有所有关于创造力、梦境、意识等重大问题。我认为构建 AI,然后将其与人类心智进行比较,是我们能在这些根节点问题上取得进展的最佳方式之一,比如意识的本质是什么?大脑基质(substrate)的实例化与在硅基中算法化地模仿它之间是否存在某种特殊之处?

问: 我有两个问题。第一,既然 DeepMind 是在深度学习革命之前成立的,我想知道如果深度学习没有兴起,您的心态会是怎样?或者说您预计会如何发展?第二,既然您对解决这类极具挑战性的、高维度的(high dimensional)问题有着深入的经验,我们知道梯度下降(gradient descent)(一种常用的优化算法,通过迭代地沿着目标函数梯度的反方向更新参数,以寻找函数的局部最小值)及其变种无法保证收敛到全局最优解,只能找到局部最优解。您是否对这些系统中任何东西能起作用感到惊讶?您是否认为自然界中的大部分事物可能是次优(suboptimal)的,因此我们有可能构建一个更优化的“自然”?

答: 是的,这两个都是很好的问题。关于第一个问题,看,这就是我们为什么部分地将其命名为 DeepMind,“Deep”指的就是深度学习(Deep Learning)(机器学习的一个分支,使用具有多层(深度)结构的人工神经网络来学习数据的复杂模式),对吧?深度学习在当时,嗯,它的早期部分那时还不叫深度学习,但它正开始变得普遍。有 Geoffrey Hinton 在几年前,大概 2005、2006 年发明的玻尔兹曼机(Boltzmann machines)之类的东西,这些分层神经网络(hierarchical neural networks)。

即使在当时,对我们这些在学术界接触到它的人来说,这似乎也是一个非常有前途的想法。我们押注的另一件事是强化学习(Reinforcement Learning)(机器学习的一个领域,智能体通过与环境交互,根据获得的奖励或惩罚来学习如何做出最优决策序列)以及两者的结合,对吧?这现在又重新流行起来了,但它对我们解决像 AlphaGo 这样的问题也很重要。你需要这两部分。你需要深度学习来模拟环境和世界,然后你需要强化学习来制定计划和解决方案,并在世界中采取行动。我们之所以在它刚起步时就押注于此,有两个原因:一是我们知道经典方法,即那些专家系统,是无法扩展的。

实际上,这也是我在这里学到的东西之一,以及我在麻省理工学院做博士后时学到的,那些地方可以说是经典方法(专家系统)的“殿堂”。实际上,这也是你在大学课程中可以学到的另一件事:不仅要学做什么,还要学不做什么,以及为什么它可能行不通。我当时思考过,觉得它永远无法扩展到我想用 AI 解决的那类问题。而学习系统似乎具有无限的潜力,尽管一开始让它们做任何有意义的事情要困难得多,对吧?这就是问题所在,因为它们没有被充分扩展。我们之所以在 2010 年创办 DeepMind 的另一个原因是,我们也能看到计算范式在硬件方面正在发生变化,GPU 和其他东西,当然,这些也是为游戏发明的。

结果发现,一切都是矩阵乘法,对吧?智能、游戏和计算机图形学。所有这些不同的影响因素汇集在一起,加上神经科学、fMRI 机器以及神经科学在过去十年中也取得了很大进展。所以我感觉 2010 年是将所有这些融合在一起的完美时机。我们押注于此,不一定是因为我们知道它会成功,而是因为我们相当确信其他方法行不通。

所谓的“AI 寒冬”基本上就是人们试图推动那些专家系统的结果。关于第二个问题,我想我不会说……嗯,首先,这些东西能收敛确实令人惊讶,我们当时也不确定。比如我展示的雅达利项目。最初几年,什么都没用,对吧?我们甚至无法在 Pong(最早的电脑游戏之一,如果你还记得的话)上得到一分,那是一种网球拍和球的游戏,你能想象到的最简单的游戏,我们却得不到分。

所以我们当时在想,我们是不是早了十年、二十年?就像巴贝奇(Babbage)和他的差分机(Difference Engine)一样,对吧?绝妙的想法,确实可行,但他最终还是早了五十年或一百年。我想说的是,你希望自己领先时代五年,而不是五十年。否则你会像巴贝奇一样经历很多痛苦。

所以我们当时担心这一点,但后来它确实收敛了。这给了我们信心去解决更难的问题。我想你问题的最后一部分是关于自然界中的事物。嗯,那里的事物,我的想法是,它们并非次优。它们实际上可能相当优化,因为它们经历了进化过程,不仅是生物学上的生命,实际上在地质学和物理学上也是如此。

小行星和物理现象结合在一起,它们能存在一段时间是因为它们在时间上是稳定的,对吧?如果它们在时间上是稳定的,那么很可能存在某种可学习的结构。这就是我的推测。

问: 您如何看待构建高带宽脑机接口(Brain-Machine Interfaces, BMI)(在人或动物大脑与外部设备之间建立直接通信路径的技术)以及可植入的记忆和推理模块,以便人类能够进一步自主地进行发现,而不是仅仅与云端的 AI 对话?

答: 是的,我非常喜欢那个领域,并且一直密切关注,也帮助过开发像 EEG 帽(脑电图帽)这样东西的人。当然,问题在于这些设备的分辨率,要从大脑中读取信息,理想情况下还希望能够读写。但我对像 Neuralink 或大脑芯片这样的项目非常着迷。

显然,目前这些技术是为退伍军人和残疾人士恢复身体功能而设计的。我认为在这方面会有惊人的进展,比如我认为人们如果脊柱受伤,将能够重新行走等等。我认为医学科学领域将会有一些令人难以置信的进步,这将是了不起的。但除此之外,也许当这些技术变得常规化,手术安全可靠,并且有安全的方法时,我能想象这将是我们跟上技术发展的一种方式。从某种意义上说,这与我们今天已经拥有的、周围环绕着我们的技术没有什么不同。

我们几乎 7x24 小时都带着手机、电脑和其他设备。所以我们几乎已经与我们的技术共生了。当然,拥有植入式设备会更进一步。但我不太确定……也许这得由在座的哲学家来回答,如果技术是附着在你身上的,和你一直随身携带的东西,这两者之间是否存在一个霍华德边界(Howard boundary,可能指界限或质的区别)?

问: 您好。您如何看待人工智能发展的速度及其对经济发展的影响?现在有很多人正在决定自己的职业道路,但鉴于形势的快速变化,这使得预测他们应该进入哪个领域变得非常困难?

答: 是的,这是一个非常复杂的问题,因为正如您所说,事情正在以闪电般的速度变化。我们刚才还和 Alastair 讨论过。即使是设计三年的计算机科学课程也相当困难,因为基础材料在不到三年的时间内就会发生变化。

我想我们唯一能确定的是,将会发生很多变化,但我认为这同时也带来了颠覆和机遇。我举个编程的例子,我不知道你是不是计算机科学家,但我仍然建议你学好编程和数学,因为我认为如果你理解这些新工具是如何构建的,你将能够以更深入的方式使用它们。但另一方面,我认为编程将变得对更多类型的人开放,因为通过 AI,你可能能够用自然语言编程,而不是用相当复杂的计算机语言。这将为有创造力的人开辟领域,去构建游戏、制作电影、开发应用程序,也许这种平衡更多地偏向创造性而非工程性。但我也认为这将使工程师能够做到他们今天能做的 10 倍。

适应新工具

所以,我认为很难确切知道。但我想说的是,专注于在业余时间拥抱这些工具,并训练自己能够非常快速地获取新信息,因为我认为这基本上就是未来十年会发生的事情。

问: 您认为是否存在任何生物过程、行为或模式是无法用现有的深度学习技术建模的?我不是说投入更多计算机直到它成功,或者仅仅是构建越来越大的模型。您认为是否存在某些过程,从物理上就无法用我们现有的架构来建模?

答: 当然,目前有很多过程无法建模,但这又回到了我在演讲结尾所说的。我并没有展示极限在哪里。我认为最终,如果物理学能够“解决”它,并且存在某种结构可供学习,那么可能有足够多的例子,人们就能逆向工程出一个该过程的模型。

然后我看不出有什么理论上的原因,一个经典系统——尽管可能是一个非常复杂的系统——不能对那个生物系统进行预测或模拟。所以我从长远来看,并没有真正看到任何限制。

当然,有很多抽象的东西,比如大数分解、密码学,这些是人造的系统,对吧?其中可能没有任何结构。当然,很多人推测自然数中存在结构。如果存在,那么那也将是可学习的。如果不存在,并且是某种均匀分布,那么你就需要量子计算机来破解密码学之类的东西。所以这些都是悬而未决的猜想。

但我认为自然界中的大多数事物都是在地质或生物物理时间尺度上进化而来的。这对我来说意味着存在某种结构可供学习。因此,这使得搜索或预测可能变得可行(tractable)。

问: 这个问题代表剑桥大学游戏开发协会(Cambridge University Game Development Society)提问。您提到了 Genie 2 模型,以及它目前能保持几秒钟的一致性,您希望最终能达到几分钟。但我想我们协会的问题是,我们实际玩的游戏具有无限的一致性。当你玩《我的世界》(Minecraft)时,你期望转过身村庄还在那里,对吧?所以您认为您目前的模型会被整合到工作流程中吗?或者说,您具体如何看待 AI、您的模型以及您正在做的工作?您如何看待它在未来几十年融入游戏开发?

答: 是的。看,我认为 AI 进入游戏开发的方式有很多种。一种是用于构建游戏所需资源的工具。比如 3D 模型、动画,我认为这些都会在未来几年内出现。

我认为 AI 也可以用于游戏平衡(game balancing)。想象一下你设计了一款游戏,然后一夜之间,AI 可以进行一百万次游戏试玩。到了早上,作为游戏设计师,你就能得到一份报告,比如“这些东西不平衡”,对吧?或者“降低这个单位的能力”等等。

我还认为 AI 可以用于开放世界游戏的 Bug 测试。我以前制作模拟游戏、开放世界游戏,它们的 Bug 测试简直是噩梦,因为这类游戏的重点就在于玩家几乎可以做任何事情,然后游戏会做出反应。那么你如何测试一千万人通过你的游戏走出各自独特的旅程呢?实际上,在你发布游戏之前让 AI 玩家来玩,可以帮助你解决很多 Bug。

最后,我认为同样令人兴奋的是 AI 角色(AI characters),它们将更加栩栩如生,能够推动故事情节发展。过去人们梦想着那种大型多人在线世界,其中的 AI 角色是智能的,并且会根据玩家的行为更新它们的信念和故事情节。这样感觉就像一个更加生动、真实的活世界。我认为我们正处于能够构建这类游戏的风口浪尖。

最后,我们正在构建的世界模型,更多的是关于通用 AI,以及你是否能够真正模拟……它是一种衡量能否理解世界的表达方式。你的模型理解世界吗?好吧,如果它能在一段时间内生成这个世界,那么显然它在某种意义上必须是理解的,这可以作为它理解了某些底层物理规律的经验证据。所以这更多是为了通用智能,而不是说……我想我们也许有一天会拥有那种全息甲板(holodeck)一样的东西,你只要想象一下,它就全部呈现在你周围。很可能,一旦我们拥有了 AGI,我们就能够拥有那种东西。但我认为那还有一段距离。

主持人: 好的。看来以一个关于游戏的问题结束很不错,回到了游戏的起点。非常感谢大家的到来。特别感谢 Demis 今天来到这里与我们交流。谢谢。

# #