目录
综述 by Gemini 2.5 Pro
理解AI与人类智能的鸿沟
问: 近十年来,人工智能(AI)领域似乎发生了巨变,一种新型智能出现在我们星球上。您如何看待当前AI的发展状态,以及它与人类智能的关系?
Surya Ganguli: 过去十年AI领域究竟发生了什么?这就像一种奇异的新型智能降临地球,但它又不同于人类智能。它拥有非凡的能力,却也会犯下我们绝不会犯的离谱错误。它尚未具备我们所能进行的深度逻辑推理。它的能力和脆弱性构成了一个非常神秘的表象,而我们对其运作机制几乎一无所知。
我渴望对智能有更深入的科学理解。但要理解AI,将其置于生物智能的历史背景中会很有帮助。
人类智能的故事,可以说始于这个小生物——它是所有脊椎动物(拥有脊柱的动物,包括鱼类、两栖类、爬行类、鸟类和哺乳动物)的最后共同祖先。我们都源自于它,生活在大约5亿年前。然后,进化塑造了大脑。而大脑,在从牛顿到爱因斯坦的短短500年间,发展出了理解从夸克(构成物质的基本粒子之一)到宇宙学(研究宇宙起源、演化和结构的科学)所需的深奥数学和物理学。这一切,都无需咨询ChatGPT。
当然,还有近十年的AI进展。要真正理解AI领域刚刚发生的变革,我们需要结合物理学、数学、神经科学(研究大脑等生物思维器官内部复杂运作机制的科学领域)、心理学、计算机科学等多个学科,发展一门新的智能科学。这门智能科学可以同时帮助我们理解生物智能,并创造出更好的人工智能。我们现在就需要这门科学,因为智能工程的发展速度已远远超出了我们理解它的能力。
我想带大家了解一下我们在智能科学方面的工作,这些工作聚焦于AI可以改进的五个关键领域:
- 数据效率
- 能源效率
- 超越进化
- 可解释性
- 融合心智与机器
让我们逐一探讨这些关键差距。
数据效率:AI对数据的巨大胃口
问: 您提到的第一个关键差距是数据效率。AI在这方面与人类相比表现如何?
Surya Ganguli: AI对数据的渴求程度远超人类。 例如,我们现在训练语言模型大约需要一万亿(1 trillion)个单词。那么,我们人类一生能接触多少单词呢?仅仅一亿(100 million)个。在图表上,这只是中心那个微小的红点,你甚至可能看不见它。我们要读完剩下的一万亿单词,需要花费24000年的时间。
问: 这听起来差距悬殊。但有人可能会说,AI虽然阅读了相当于人类24000年的内容,但人类拥有5亿年的脊椎动物大脑进化史。这是否能解释人类学习的高效性?
Surya Ganguli: 这里有一个关键点。你全部的进化遗产都是通过DNA传递给你的,而你的DNA信息量仅相当于大约700MB,或者说6亿个单词。所以,我们从学习和进化中获得的总信息量,与AI获得的信息量相比,简直微不足道。你们(人类)都是极其高效的学习机器。
问: 既然人类如此高效,那我们如何弥合AI与人类在数据效率上的差距呢?目前AI训练依赖的“规模法则”(Scaling Laws)是有效的途径吗?
Surya Ganguli: 我们开始着手解决这个问题,重新审视了著名的“规模法则”。这里有一个规模法则的例子:错误率随着训练数据量的增加呈幂律(一种数学关系,表现为一个量的相对变化会导致另一个量的幂次方比例变化)下降。这些规模法则抓住了业界的想象力,并激发了社会在能源、计算和数据收集方面的大量投资。
但这里有个问题。这些规模法则的指数很小。这意味着,要想让错误率稍微降低一点,你可能需要将训练数据量增加10倍。从长远来看,这是不可持续的。即使短期内能带来改进,也一定有更好的方法。
问: 既然单纯增加数据量并非长久之计,您和您的团队提出了怎样的新思路?
Surya Ganguli: 我们发展了一套理论来解释为什么这些规模法则效果不佳。基本思想是,大型随机数据集具有极高的冗余性。当你已经拥有数十亿个数据点时,下一个数据点并不能告诉你太多新东西。但是,如果你能创建一个非冗余的数据集,其中每个数据点都是经过精心挑选的,相对于所有其他数据点都能提供新的信息,那会怎么样呢?
我们开发了理论和算法来实现这一点。我们从理论上预测并通过实验验证,我们可以将这些效果不佳的幂律曲线“掰弯”,变成效果好得多的指数(一种增长或衰减更快的数学关系)曲线。这样一来,只需增加少量精心挑选的数据点,就能显著降低错误率,而无需将数据量增加10倍。
问: 你们运用了什么理论来取得这样的结果?
Surya Ganguli: 我们运用了统计物理学(运用概率论和统计学方法研究大量粒子组成的物理系统宏观性质的学科)的思想,相关的方程式就在这里……(此处有幽默停顿)好吧,我开玩笑的,我没那么残忍。但你们真该看看我刚说要逐一解释这些方程时,TED组织者脸上的表情。
重新构想机器学习:迈向机器教学
问: 跳出具体的理论,从更宏观的角度看,要让AI的数据效率得到根本提升,还需要哪些改变?
Surya Ganguli: 让我们跳出来想一想,要让AI不再那么“饥饿”,需要做什么。想象一下,如果我们像预训练大语言模型那样,通过“下一个词预测”来训练我们的孩子。我会给我的孩子看一段随机的互联网内容,然后告诉他:“顺便说一句,这是下一个词。” 然后再给他另一段随机内容,说:“是的,这是下一个词。” 如果我们只这样做,我们的孩子需要24000年才能学到任何有用的东西。
但我们实际做的远不止于此。例如,当我教我儿子数学时,我会教他解决问题所需的算法。然后他就能立刻解决新问题,并用比任何AI系统少得多的训练数据进行泛化(指模型在未见过的数据上表现良好的能力)。我不会只是向他扔去数百万道数学题。
要真正提高AI的数据效率,我们必须超越现有的训练算法,将机器学习转变为一门新的“机器教学”(Machine Teaching)科学。 在这方面,神经科学、心理学和数学可以提供巨大的帮助。
能源效率:20瓦大脑对决百万瓦AI
问: 接下来谈谈第二个关键差距:能源效率。AI和人脑在这方面的对比如何?
Surya Ganguli: 我们的大脑极其节能,功耗仅为20瓦。 作为参考,我们过去用的白炽灯泡是100瓦。所以,我们都比灯泡“暗淡”。
那AI呢?训练一个大型模型可能消耗高达1000万瓦的电力。现在甚至有讨论要动用核能来为10亿瓦的数据中心供电。
问: 为什么AI比大脑耗能如此之多?生物智能高效节能的秘诀是什么?
Surya Ganguli: 根本原因在于数字计算本身的选择。数字计算依赖于在计算的每一个中间步骤进行快速、可靠的比特翻转。而热力学(研究能量转换规律的物理学分支)定律要求,每一次快速、可靠的比特翻转都必须消耗大量能量。
生物学走了一条截然不同的道路。生物学在最后一刻才计算出正确答案,其使用的中间步骤尽可能地慢和不可靠。本质上,生物学不会过度“踩油门”。
此外,生物学将计算与物理规律的匹配做得更好。以加法为例。我们的计算机使用极其复杂、耗能的晶体管(现代电子设备的基本组成单元)电路来进行加法运算。但神经元只是直接将它们的电压输入相加,因为麦克斯韦电磁定律(描述电场、磁场与电荷、电流之间关系的物理定律)本身就懂得如何叠加电压。本质上,生物学将其计算与宇宙的原生物理学相匹配。
问: 那么,为了构建更节能的AI,我们应该从生物学和物理学中学习什么?
Surya Ganguli: 要想真正构建更节能的AI,我们需要重新思考从电子(带负电的基本粒子,电流的载体)到算法的整个技术堆栈,更好地将计算动态与物理动态相匹配。例如,在给定的能量预算下,任何特定计算的速度和准确性的基本极限是什么?什么样的电化学计算机能够达到这些基本极限?
我们最近解决了感知计算的这个问题,这是每个神经元都必须做的事情。我们找到了错误率作为能量预算函数的根本下限(那条红色曲线)。并且我们找到了能够达到这些极限的化学计算机。值得注意的是,它们看起来非常像G蛋白偶联受体(GPCRs)(细胞表面的一类重要蛋白质受体,参与多种信号传导过程),而每个神经元都使用GPCRs来感知外部信号。这表明生物学所能达到的效率水平,可能已接近物理定律本身设定的基本极限。
再提升一个层面来看,神经科学现在不仅使我们能够测量神经活动,还能测量能量消耗,例如,在整个果蝇大脑中。能量消耗是通过测量ATP(三磷酸腺苷,细胞内主要的直接能量来源,被称为“能量货币”)的使用量来衡量的,ATP是驱动所有神经元的化学燃料。
问: 关于大脑的能量使用,你们有什么有趣的发现吗?
Surya Ganguli: 现在让我问你一个问题。假设某个大脑区域的神经活动增加了,那么ATP是会增加还是减少?一个自然的猜测是ATP会减少,因为神经活动需要消耗能量,所以必须消耗燃料。但我们发现了完全相反的情况。当神经活动增加时,ATP也会增加,并且其升高的时间恰好足够支持预期的未来神经活动。这表明大脑遵循一种“预测性能量分配”原则,它能够预测何时何地需要多少能量,并在恰当的时间、恰当的位置,输送恰到好处的能量。
因此,很明显,要创造更节能的AI系统,我们还有很多东西需要向物理学、神经科学和生物学学习。
超越进化:量子神经形态计算的曙光
问: 您提到我们甚至可以“超越进化”,这是什么意思?难道AI的发展不应借鉴生物进化的成果吗?
Surya Ganguli: 我们不必受限于(生物)进化。我们可以超越进化,借用进化发现的神经算法,但将它们实现在进化永远无法企及的量子硬件上。例如,我们可以用原子取代神经元。神经元不同的放电状态对应于原子不同的电子态。我们可以用光子(光的粒子,传递电磁相互作用)取代突触(神经元之间传递信号的连接点)。就像突触让两个神经元能够通信一样,光子通过发射和吸收,让两个原子能够通信。
问: 这种原子和光子的组合能构建出什么样的新系统?
Surya Ganguli: 我们可以用原子和光子构建出量子联想记忆系统。这与最近为约翰·霍普菲尔德(John Hopfield)赢得诺贝尔物理学奖的记忆系统(指Hopfield网络)是同一种类型,但这次它是一个由原子和光子构成的量子力学系统。我们可以分析它的性能,并证明其量子动力学能够带来增强的记忆容量、鲁棒性和回忆能力。
我们还可以构建直接由光子构成的新型量子优化器。我们可以分析它们的能量景观,并解释它们如何以全新的方式解决优化问题。这种神经算法与量子硬件的结合,开辟了一个全新的领域,我称之为量子神经形态计算(Quantum Neuromorphic Computing,结合量子计算原理和受大脑启发的计算架构的新兴领域)。
用可解释AI揭开大脑之谜
问: 回到大脑本身,AI通常被认为是“黑箱”,难以理解其内部工作原理。但您却提出可以用可解释AI(Explainable AI)来帮助理解大脑,这似乎有些矛盾?
Surya Ganguli: 让我们回到大脑。可解释AI可以帮助我们理解大脑是如何工作的。AI使我们能够构建极其精确但复杂的大脑模型。那么,这一切将走向何方?我们是否仅仅是用我们不理解的东西(复杂的大脑模型)取代了我们同样不理解的东西(大脑本身)?作为科学家,我们希望对大脑的工作原理有一个概念性的理解,而不仅仅是得到一个模型。
问: 能否举一个具体的例子,说明如何应用可解释AI来促进我们对大脑功能的理解?
Surya Ganguli: 我想举一个我们在视网膜研究中应用可解释AI的例子。视网膜是一个多层电路,从光感受器(眼睛中感知光的细胞)到隐藏神经元,再到输出神经元。它是如何工作的?我们最近构建了世界上最精确的视网膜模型。它能够重现过去二十年来关于视网膜的各种实验结果。这太棒了!我们有了一个视网膜的“数字孪生”(Digital Twin)(物理实体的虚拟对应物,可用于模拟、预测和优化)。但这个孪生体是如何工作的?它为什么被设计成这个样子?
为了让这些问题更具体,我想讨论我提到的那二十年实验中的一个。我现在想请大家和我一起做这个实验。请大家聚焦我的手,并跟着它移动。(演示手部突然反向移动)再来一次。当你看到我的手突然反向移动时,你可能会有些惊讶。你应该感到惊讶,因为我的手刚刚违反了牛顿第一运动定律,该定律指出运动中的物体倾向于保持运动状态。
你大脑中的哪个部位最先探测到这种对牛顿第一定律的违反?答案令人惊讶:是你的视网膜。你的视网膜中存在一些神经元,它们只有在牛顿第一定律被违反时才会放电。
那么我们的模型做到了吗?是的,它重现了这种现象。但现在有一个谜题:模型是如何做到这一点的?
我们开发了一些可解释AI的方法。对于任何引起特定神经元放电的刺激,我们可以找出负责该放电的基本子电路,并解释其工作原理。我们不仅能对违反牛顿第一定律的情况这样做,还能对我们模型重现的那二十年来的所有实验都这样做。
这为利用AI加速神经科学发现开辟了一条新途径:基本上就是构建大脑的数字孪生,然后使用可解释AI来理解它们的工作原理。 事实上,我们斯坦福大学正在进行一项重大努力,旨在构建整个灵长类(包括猴、猿和人类的哺乳动物)视觉系统的数字孪生,并解释其工作原理。
融合心智与机器:读写大脑语言
问: 基于您提到的“数字孪生”和可解释AI,您进一步设想了“融合心智与机器”的可能性。这具体是指什么?我们离实现这一目标还有多远?
Surya Ganguli: 我们可以更进一步,利用我们的数字孪生来实现大脑与机器之间的双向通信,从而融合心智与机器。想象这样一个场景:你有一个大脑,你记录它的活动,构建一个数字孪生模型。然后,你运用控制理论(研究如何设计系统使其按期望方式运行的工程和数学分支)学习特定的神经活动模式,你可以将这些模式直接“写入”数字孪生来控制它。接着,你将同样的神经活动模式“写入”真实的大脑,从而控制大脑。本质上,我们可以学习大脑的语言,然后直接与之对话。
问: 这听起来像是科幻小说的情节。目前在这方面取得了哪些实际进展?
Surya Ganguli: 我们最近在老鼠身上实施了这项计划。我们可以利用AI读取老鼠的“思想”。在(屏幕)上方一行,你看到的是我们实际展示给老鼠看的图像。在下方一行,你看到的是我们从老鼠大脑中解码出来的图像。我们解码出的图像比实际图像分辨率低,但这并非因为我们的解码器不好,而是因为老鼠的视觉分辨率本来就差。所以,解码出的图像实际上展示了如果你是一只老鼠,世界会是什么样子。
现在我们可以更进一步。我们现在可以将神经活动模式写入老鼠的大脑,让它产生我们希望它产生的任何特定感知幻觉。我们在这方面做得非常好,以至于我们能够通过精确控制老鼠大脑中的仅仅20个神经元,就让它可靠地产生某种感知——我们找出了需要控制的正确的那20个神经元。本质上,我们可以通过直接向老鼠大脑写入信息来控制它所看到的东西。
大脑与机器之间双向通信的可能性是无限的,它将有助于我们理解、治疗乃至增强大脑。
迈向统一的智能科学
问: 纵观您讨论的五个方面,从数据效率到心智融合,似乎都指向一个更宏大的目标。您认为发展这样一门跨学科的“智能科学”的关键要素是什么?
Surya Ganguli: 我希望大家能看到,追求一门跨越大脑和机器的统一智能科学,既能帮助我们更好地理解生物智能,也能帮助我们创造出更高效、可解释、更强大的人工智能。但重要的是,这项追求必须在开放的环境中进行,以便科学成果能与世界共享,并且必须着眼于非常长远的时间尺度。
问: 为什么您特别强调学术界在推动这门新科学中的作用?
Surya Ganguli: 这使得学术界成为追求智能科学的理想场所。 在学术界,我们不受季度财报的束缚,不受公司法务部门审查的限制。我们可以比任何单一公司都更加跨学科。而且,我们的使命本身就是与世界分享我们所学到的知识。
基于所有这些原因,我们实际上正在斯坦福大学建立一个新的智能科学中心。虽然工业界在智能工程方面取得了令人难以置信的进展(现在越来越多地在闭门造车),但我对智能科学在开放环境中能够取得的成就感到非常兴奋。
问: 最后,您对未来智能研究的整体方向有何展望?
Surya Ganguli: 在上个世纪,人类最伟大的智力冒险之一在于向外探索宇宙,试图理解从夸克到宇宙学的一切。我认为,本世纪最伟大的智力冒险之一将在于人类向内探索,既探索我们自身,也探索我们创造的人工智能,以期对智能形成一种更深刻、更新的科学理解。
谢谢大家。