文章作者、来源:机器之心
「我们的文明已经学会了如何将沙子转化为硅芯片,将硅芯片转化为神经网络,再将神经网络转化为人工智能。在过去的五年里,大型语言模型人工智能(如 ChatGPT 和 Gemini)的能力从蹒跚学步的幼儿跃升至国际数学奥林匹克金牌得主,如今更超越了这一水平。」
Adam Brown:训练沙子思考:通用人工智能与物理学的未来前些天,Gemini 核心贡献者、Blueshift 团队负责人Adam Brown近日在圆周理论物理研究所的长篇演讲《训练沙子思考:通用人工智能与物理学的未来》吸引了广泛关注。在该演讲中,他讲述自己如何亲眼看着 AI 从「幼儿园水平」一路狂奔到博士水平,并由此推演:如果趋势延续,物理学会变成什么。
演讲标题:Training Sand to Think: Artificial General Intelligence & Future of Physics
演讲地址:https://www.youtube.com/watch?v=Mw60FH5iflI&t=3s
该演讲还得到了诺贝尔物理学奖、 图灵奖得主 Geoffrey Hinton 的大力推荐,赞其「精彩绝伦(amazingly good)」。
在介绍这个精彩绝伦的演讲之前,有必要先介绍一下演讲者亚当·布朗(Adam Brown)。
布朗的履历堪称一部「理论物理学家如何被 AI 改变命运」的样本。他在牛津大学读的是物理与哲学的联合学位,随后在哥伦比亚大学拿到博士学位,又先后在普林斯顿大学和斯坦福大学的物理系任教。在斯坦福,他教授爱因斯坦的广义相对论,研究范围从大爆炸、宇宙暴胀、多重宇宙、黑洞、量子计算,到听起来像科幻小说情节的「太空电梯」和「虚无泡泡(bubbles of nothing)」,以及宇宙的终极命运,同时他也长期关注物理学与计算机科学之间的深层联系。
2018 年,布朗加入谷歌。如今他领导着 DeepMind 内部一支名为 Blueshift 的团队,专注于提升AI 的科学与推理能力,同时也是 Gemini 大模型的核心贡献者之一。
在演讲开场,他提到自己职业生涯里写过大约四十篇理论物理论文,但近年已经停笔,不再手写论文,但原因不是写不出来,而是他觉得一篇一篇地手写论文,更像是一种「罪恶的享受」,因为眼下他真正该做的事,是参与制造一台能够「以工业规模」产出知识的机器。
如此开场白,也为整场演讲定下了基调:一个身处「AI+科学」技术风暴中心的人,试图向同行们描述风暴的真实形状。
我们也在 AI 的辅助下,对布朗这份精彩演讲进行了归纳总结。
布朗用一句话概括了人类文明此刻所处的特殊位置:我们已经学会把沙子提纯成硅,把硅做成芯片,把芯片组装成神经网络,现在又学会了训练这些神经网络去思考。
他特别强调,这一次和以往任何一种「计算工具」都不一样。从算盘到袖珍计算器,人类早就拥有过各种辅助科学研究的工具,但那些都是单点工具,只能替你完成流程里的某一步,剩下的仍需要人来做。
大语言模型(LLM)不同,它具备完成理论物理学家全部工作流程的潜力,这正是「通用智能」(general intelligence)这个词的含义所在。布朗判断,LLM 很可能就是人类用来构建通用人工智能的底层基质。
他提醒听众,大家可能已经用过 ChatGPT、Gemini 或 Claude 这类聊天机器人,却未必意识到一个安静发生的事实:这些系统早在几年前就已经悄悄通过了图灵测试,而几乎没有人为此专门庆祝。
要理解大模型为什么和传统计算机程序完全不同,布朗给出了一个核心比喻:LLM 不是被 programmed 出来的,而是被 grown 出来的,即它们更像被培育长大,而不是被编写出来。
具体过程分为两个阶段。
第一阶段叫做「预训练」。工程师们从一组随机连接、近乎乱语的人工神经元出发,让它不断尝试预测一段文本里「下一个词」会是什么。猜对了,就强化对应的神经通路;猜错了,就削弱它。这个过程极其漫长:看过一百万词时,模型说出来的话基本还是胡言乱语;读过几千万到几十亿词后,它已经能写出语法正确但略显生硬的句子;直到读完整个互联网(几十万亿词)它才能就几乎任何话题进行流畅、连贯的对话。
第二阶段叫做「后训练」,布朗形容这是把模型「送进礼仪学校」。刚结束预训练的模型只会机械地预测下一个词,说话粗鲁且不服管教,后训练的任务就是教它变得礼貌、变得愿意配合用户,而不是单纯地接龙文字游戏。如今主流大模型的参数量已经从十年前的十亿级跃升到几万亿级,尽管仍远低于人脑大约百万亿个突触连接的规模,但这个规模已经足够让奇迹发生。
布朗特别提到,物理学家在这场 AI 革命的起点上扮演了一个意想不到的角色:带来了「Scaling Law」的思维方式。
物理学家天生痴迷于寻找简单的幂律关系:把爱丽丝的身高翻一倍,她的体表面积会变成四倍,体重则变成八倍,这是最简单的量纲分析;而克莱伯(Kleiber)在近一百年前发现的动物代谢率与体重的幂律关系,则是一个更微妙的例子——直到许多年后,物理学家才用血管系统的分形维度解释了它背后的原理。
更别说著名的摩尔定律了:
2020 年,几位具有物理学背景的研究者把这种思维方式搬到了神经网络上,发现只要把训练用的算力、数据量和模型规模按比例放大,模型在「预测下一个词」任务上的表现会沿着一条对数-对数坐标系下的直线稳步提升。
这条曲线后来被拓展了整整八个数量级,依然成立。
布朗调侃说,这张图「简单到连风险投资人都能看懂」,而它能直接告诉资本市场:把钱(也就是算力)投进去,就能换来更强的模型。
这条简单的曲线,正是过去六年 Scaling 时代的起点。
但布朗也指出,算力堆量只是故事的一部分。过去十年,前沿 AI 训练所消耗的算力每年增长约四倍,训练投入的资金每年增长约 2.7 倍。
目前一次顶级训练所需的算力大约需要花费数亿美元,而美国全年 GDP 接近三十万亿美元,这意味着这条曲线还有非常长的增长空间。
但比堆算力更重要的,是人类在算法层面的持续打磨:研究者们不断找出训练流程中的低效环节并加以改进,这是过去十年 AI 进步背后真正的「第一引擎」。
如果说 Scaling Law 解释了「为什么 AI 会变强」,那么一连串基准测试的兴衰,则记录了「AI 到底变强到了什么程度」。布朗用一组测试成绩,描绘出一条令人目眩的曲线。
四年前,一个名为 MATH 的高中数学题基准测试横空出世。研究者们找来一名不太擅长数学的计算机科学博士生应试,得分约 40%;又找来一位三届国际数学奥林匹克金牌选手,得分 90%。而当时最先进的大模型,只能拿到 6%——几乎和瞎猜没有区别,因为模型甚至读不懂题目在问什么。
当年的预测市场认为,到 2025 年模型成绩能达到 50%已经是「狂妄的乐观」,基准测试的创建者本人公开表示,如果真有模型能做到这一点,他会感到「相当震惊」。
结果,这个 50%几乎是「立刻」就被一个名为 Minerva 的系统跨过去了。到 2024 年年中,布朗团队的系统在该基准上拿到了 90%的成绩。他们甚至专门去开了一场九十年代风格的轮滑迪斯科派对来庆祝。然而仅仅六个月后,市面上现成的大模型就近乎满分地解决了这套题目。MATH 基准测试就此「死亡」,并且它从「太难」直接跳到了「太容易」,中间几乎没有停留。
接下来倒下的是面向研究生的 GPQA 测试,模拟博士第一年资格考试的难度,人类专家平均分约 70%。模型从接近随机猜测起步,在 2024 到 2025 年间一路冲过专家水准,如今几乎拿到满分。为了排除「模型只是把答案背下来了」的可能性,布朗团队专门设计了未出现在互联网上的同分布新题,结果模型表现几乎没有下降。
布朗甚至拿出自己在斯坦福亲手批改的广义相对论和量子力学研究生期末考试(这些题目从未上网)结果模型同样在一年半内拿到了满分。他半开玩笑地说,这下连他自己出的考题,也「不幸阵亡」了。
此后倒下的基准测试名单越来越长,包括一度被称为「人类的最后考试」(Humanity's Last Exam)的超难度综合测试。
而最具标志性的一次跨越,发生在国际数学奥林匹克竞赛上。
就在一年多前,一位图灵奖得主曾当面告诉布朗,大模型永远无法解决国际数学奥林匹克(IMO)级别的题目,因为那需要真正的创造力,不是死记硬背就能蒙混过关的。IMO 的题目以「高中数学范畴内最难的题目」著称:全世界最聪明的十几岁少年要训练一两年才能上场,六道题里能拿到金牌已属凤毛麟角。
去年夏天,这道门槛被跨过了。布朗团队的系统在 IMO 级别测试中六题对五题,达到金牌水准。而且该系统不是靠堆砌一长串无人能看懂的形式化证明硬蒙过关。IMO 主席在公开评价中表示,这些解答「在很多方面都令人惊讶」,评卷人认为它们清晰、精确,大多数都易于理解,使用了与人类相似的数学抽象方式。
布朗也坦率展示了大模型的「翻车现场」。
一个经典脑筋急转弯是:父子遭遇车祸,父亲身亡,孩子被送进手术室,主刀医生看到男孩后说「我不能给他动手术,他是我儿子」,问这是怎么回事(标准答案是医生是男孩的母亲)。这道题考验的是读者是否默认外科医生一定是男性。大模型对这道「网络爆款题」回答得游刃有余,因为它在训练数据里见过成千上万次。但当布朗把题目反转:母亲身亡,医生被特别注明是「男孩的父亲」,再问同样的问题时,模型却完全没有察觉题目已经反转,机械地套用了「医生是另一位家长」的标准答案。
布朗说,这暴露了模型训练方式留下的一种特有的「癖好」。
跨过 IMO 门槛十个月后,布朗团队完成了一项他认为意义更重大的工作:真正的、此前无人知道答案的数学研究。
去年九月,布朗团队与几位职业数学家合作,采用他称之为「半人马式」(Centaur)的协作模式——半人马是希腊神话里半人半马的生物,而在这里,「非人的那一半」换成了 LLM。
整个过程是一场持续的对话:模型提出候选证明思路,人类专家判断哪些有价值、引导模型继续深入,最终在人类指导下完成了一篇完整的数学论文。论文的合作者之一,是斯坦福大学教授、美国数学学会现任会长。这位教授给出的评价是,Gemini 提出的论证绝非对现有证明的简单重新包装,而是一种他本人也会为之自豪的洞见。
布朗强调,这在当时(去年年底)已经是大模型在数学领域所能达到的最高水准。但他紧接着补充了一句:距离「最高水准」的真正含金量,这还差得很远。
进入 2026 年,情况急转直下或者说急转向上。布朗用一句近乎挑衅的玩笑话开场:「就在上周,LLM 还没有做出过真正重大的数学突破。」现在,这句话已经不成立了。
这个大事件很多人已经听说的。埃尔德什在 1946 年提出的「单位距离猜想」,八十年来被数学界普遍认为正方形网格构型已经是已知的最优解。OpenAI 内部一个大模型独立给出了一个反例,借助代数数论中的工具,构造出一系列点集,其单位距离对的数量超过了此前公认的上限。这相当于推翻了这一长期被信以为真的猜想。
值得一提的是,这个题并不冷门,之前很多人尝试过,但数学家们花了大量精力、却始终徘徊在「证明」而非「反证」方向上的难题。布朗特别提到,菲尔兹奖得主高尔斯参与了对这一结果的复核工作,并给出了高度评价。
布朗判断,这是大模型在数学领域取得的第一个真正意义上的重大突破,而且他认为这绝不会是最后一个——「闸门已经打开」,随着模型实力持续超越「制造突破所需的门槛」,他预计接下来会有更多类似的成果接连出现。
他半开玩笑地补充,回头去看这道题之所以率先被攻克,大概是因为它的题目结构恰好踩在了大模型的「舒适区」里;接下来,模型会先解决那些「对 AI 友好」的难题,再逐步攻克那些「不那么友好」的难题。
为了让听众相信这条曲线还会持续上扬,布朗拿出了一张乍看上去像是随手画的曲线图:一条持续向上攀升的直线。当然,这张图可不是他凭空画的,而是直接取自国际象棋计算机棋力随时间变化的真实数据,纵轴是衡量棋力的 Elo 等级分,横轴是年份。
布朗梳理出国际象棋 AI 历史上的四个阶段:
最初是「玩具时代」,能让计算机下出一步合理的棋就已经算是奇迹;
接着是「工具时代」,计算机只能在残局计算或开局记忆等特定环节发挥作用;
再往后是「半人马时代」,当时全宇宙最强的棋力组合,是大师与计算机深度搜索能力的协作;
而现在,人类已经全面进入「超人时代」:顶尖棋手与计算机合作时,最优策略是干脆放手让计算机自己下。
布朗认为,这四个阶段在科学研究领域几乎可以逐一对应。
第一个规律是:在同等综合实力下,计算机在战术、搜索速度上胜过人类,但在战略、「品味」判断上仍然偏弱。这恰好也是当前大模型在数学和物理研究中暴露出的特征:它们擅长套用既有的引理和技巧,不太擅长判断「整体方向该往哪走」,但这一短板正在快速缩小。
第二个规律是:训练 AI 下棋所需要「经历」的对局数量远超人类一生能下的棋局总数,但因为机器能够不知疲倦地高速自我博弈,实际所需的「日历时间」反而远远短于训练一名人类棋手。
第三个规律是,计算机棋力一旦超越人类巅峰水平,就再也没有停下来,毕竟没有任何物理或逻辑上的理由让它恰好停在人类水平附近。
第四个值得安慰的事实是:国际象棋 AI 的崛起反而提升了人类棋手的整体水平,今天最强的人类棋手比历史上任何时期都更强,部分正是得益于向超强 AI 学习;而国际象棋这项运动本身,也从未像今天这样流行。
布朗的暗示很明确:如果科学研究重复这条轨迹,人类很可能会先迎来完全自主的「AI 科学家」,再之后是某种意义上的「AI 爱因斯坦」……再往后会发生什么,他坦言已经超出了他能预测的范围。
布朗也提出了一个值得警惕的「悲观假设」:如果大模型的能力从今天起完全停滞不前,会发生什么?
他直言,目前真正「行不通」的用法,是直接对模型说「请给我发明一套全新的量子引力理论」,得到的答案大概只是没有价值、读起来令人昏昏欲睡的「AI 废话」。
更普遍地说,当前大模型仍然存在四个明显短板:自主性低、学习速度慢、规划能力差、纠错能力弱。
布朗坦承,这四项短板在过去一年都有显著改善,但无一彻底解决,也因此一个能在每个学科的研究生考试里都拿满分的系统,却迟迟没能拿出可以被称为「重大突破」的成果。
在准备这场演讲时,他甚至专门把这一点画成了一条标着问号的「平直曲线」,自嘲式地承认这或许是整场演讲里唯一一张「没有持续上涨」的图。但他也补充说,等不到 2026 年结束,大家恐怕就要开始争论「重大突破」这个词到底该怎么定义了。事实证明,这一天来得比他自己预想的还要快。
不过,即便进步真的停在此刻,布朗认为大模型已经足以彻底改变物理学研究的面貌。
他列出了几项早已成熟、且仍在持续进步的用法:
作为一名「不带评判色彩的私人导师」,可以在凌晨三点随时解答物理学家自己也说不清楚的知识盲区,而不必把世界级专家从睡梦中吵醒;
作为编程助手,如今已经强到「被称为编程助手都显得有点侮辱」,许多过去被认为「不算编程问题」的物理问题,如今都可以被重新表述成代码问题来求解;
作为文献检索工具,可以读完整个领域的论文库,直接告诉你某个想法是否已经被人做过;此外还能充当头脑风暴的伙伴。
布朗总结说,大模型的核心优势在于:它速度快、覆盖面广、不知疲倦,而且可以被无限复制。培养一名物理学家需要花上几十年,而一旦训练出一个强大的模型,就可以同时运行成千上万个副本——这已经足够「彻底改变」这门学科了。
在演讲的最后,布朗给出了他对「为什么进步不会停止」的判断。
从宏观经济角度看,目前投入训练的资金占全球 GDP 的比例仍然很小,留出的增长空间还很充裕;从技术内部看,当前训练大模型的方法「远没有看起来那么精妙」。许多显而易见、却还没被认真尝试过的改进思路仍待挖掘,叠加持续涌入这个领域的人才和算力,布朗判断当前的模型架构和算力规模已经足以通向通用人工智能,即便没有全新的理论突破。
他也回应了一种流传已久的悲观论调,即大模型只会「模式匹配」、无法产生真正的新想法。
布朗的看法是,如果把抽象层次拉得足够高,几乎所有看起来像「重大突破」的人类创造,本质上也是某种更高维度的模式匹配。这个领域反复印证的一句行话是:「这些模型就是想学」,无论理论上有多少看似合理的理由说明它们应该学不好,它们的表现却总能超出预期。
布朗的结论是,接下来几年,我们会迎来人类与 AI 协作的「半人马」黄金时代:这些工具会被交到人类物理学家、数学家和各领域专家手中,共同开启一场科学与数学领域的新文艺复兴。
再往后,如果「造出一个 AI 爱因斯坦」这件事真的实现,由于复制一个训练好的模型几乎不需要额外成本,人类很可能很快就会拥有数以十亿计的「超人级 AI 爱因斯坦」同时运转。这听起来像是科幻小说,却正在发生。
布朗说,长期来看,AI 到底会把物理学带向何方,他和所有人一样难以预测。他甚至认为,AI 能力的持续提升正在让整个世界的未来变得更难预测。但有一点他敢肯定:接下来的几年,将是物理学历史上最激动人心的一段时光。那些困扰了他整个职业生涯的问题,他预计会在不远的将来,一一被解答。


