港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

点击上方“图灵人工智能”,选择“星标”公众号

您想知道的人工智能干货,第一时间送达


图片

版权声明

转自晚点LatePost,版权属于原作者,用于学术分享,如有侵权留言删除

理解智能,并不只是研究者和工程师的课题。


程曼祺 刘倩



图片


本次访谈的播客已在《晚点聊 LateTalk》发布,可长按下图中的二维码跳转收听。

推理模型没有在真正 “推理”;DeepSeek 这样的开源赶超者一定会出现

晚点:o1、R1 等推理模型是当前 AI 领域最主流和重要的方向,在你的认知里,它们是真的在做推理吗?


晚点:现在的 o1 和 R1 更多处于你刚才说的第一层吗?



晚点:现在推理模型展现的长思维链(long CoT)——它看起来能像人那样一步一步地思考,这实际上是什么?





一是 Supervised Fine-Tuning(SFT,监督微调),通过提供范例,让模型学习并模仿其中的解题思路;


另一种就是 Reinforcement Learning(强化学习)。通过 “做对加分、做错扣分”,引导模型逐步掌握任务解法,它尤其适用编程、数学题这类有明确对错的推理任务。




晚点DeepSeek 的影响力狂潮说明了什么?




(注:根据热力学第二定律,封闭系统的熵不断增长,即混乱度不断提升,在系统平衡时达到最大值;熵减则是混乱度减少的过程。)


晚点:低等生物也能学习和预测外部世界的规律吗?



晚点:大模型是不是主要就在这个阶段?因为现在的大模型,训好一版后不能自己迭代,需要人帮助它微调或重新训一版才能提升性能。



晚点:物种层面的强化学习是生命前 30 多亿年的状态,最近 5 亿年发生了什么?



晚点:到这里是动物也有的智能,当生命进化到人类诞生后,智能又有了什么变化?




晚点:你总结的这四个智能阶段,是在模仿地球上的生物智能。机器智能有没有可能有不同的机制?



晚点:很多人认为图灵测试已经通过了。


马毅:实际上并没有。科学、严谨地看,刷题提分不是智能的充分证明,要设计合理的测试方式区分生搬硬套还是真的懂,目前缺乏验证大模型理解、抽象和泛化能力的科学评估方法。

机器智能的机制仍未完全明朗,炮弹很难连续两次打进同一个坑里

晚点:和当前 AI 发展直接相关的是机器智能的历史,去年我们聊到过,你认为目前对这部分历史的一些常见理解并不准确,而这又会影响当下的一些学术判断——比如  AI 的起点不是在 1956 年的达特茅斯会议,而是更早之前的控制论、信息论等。



晚点:维纳、香农当时去研究控制论、信息论的背景是什么?为什么 1940 年代,科学家成批关注动物智能?


晚点:到 1956 年的达特茅斯会议,明斯基、麦卡锡等人对智能的研究有了什么不同?


晚点:所以对应到前面说的四种智能机制,他们是想研究数学、科学的那部分智能?


晚点:可以更清楚定义一下这里的去噪、压缩的意思吗?因为有人也会认为牛顿定律等物理公式也是一种 “压缩”。



晚点:如果以 40 年作为智能研究的起点,至今的 80 多年里,整个人工智能或者说机器智能发展中有哪些关键时刻?



晚点:这其中有什么共通的规律吗?



晚点这会让做 AI 研究有一种宿命感吗?一个方向,一个研究者的个人前途好像比较难被预测。



晚点:在对智能的机制理解还不完善的情况下,你觉得现在工业界靠不停去试带来的进展,能持续多久?


马毅:现在预训练已经到了边际收益递减的阶段。Grok-3 用了 20 万张卡,提升才 1% 多一点, GPT-5 到现在还没出来。(注:指 Grok-3 发布后,在 Chatbot Arena 上比之前的冠军的 PK 评分提升了 1.6%。)


就像靠基因突变和自然选择进化的阶段,生命也在前进,但走了 30 亿年也主要是单细胞生物。现在大模型也卡在这种低效演化里。

科研品味来自勇气和能力:一旦找对方向,证据会带来自信

晚点:技术 “品味” 对探索未知领域很重要。这里的 “品味” 是指——当一个领域没有太多可跟随的参照物时,能自己提出对的问题、做出技术判断,而且自信的能力,尤其是当中间出现波折时,仍能自信。其实你经历过这个过程,1995 年你从清华去伯克利时,目前变成 AI 主流方法的神经网络还很冷门,你是怎么逐渐进入这个领域的?


马毅:我是先在学生时代意识到了视觉的重要性。当时我在伯克利机器人组,我导师 Shankar(Shankar Sastry),还有师兄李泽湘都在做控制。


那时已经有了双足行走的机器人,能跑、能跳、能上楼梯,但都是提前编程好的,只能做预先设定的动作。


我老师就跟我说,你看这些机器人系统控制做得挺好,但它们是 “瞎” 的,没有大脑、眼睛,反馈,只有动作输出,没有信息输入,怎么闭环呢?这就是瞎动。


所以 Shankar 的组是第一个开始做视觉的,要让机器人能独立适应外部环境,当时我们是研究三维视觉,探索机器如何感知和重建外部世界。


到了我博士毕业找工作时,还是没有这个就业领域。我在伊利诺伊是在系统组教控制,没有 Computer Vision、3D Vision。比三维重建更冷的是视觉识别,所以李飞飞在自传里也说她 2006-2007 毕业时不好找工作。


就是在这样的环境下,一群研究者自发地探索感知、视觉重建、识别等问题。那时 CVPR 开会也就几百人,一个大教室就能坐下。


(注:CVPR 为计算机视觉领域顶级学术会议,2024 年 CVPR 参会者超过 1.2 万人。)


晚点:在找教职都找不到对口方向时,你还是觉得这个研究方向有前途。这种相信来自什么?


马毅:证据。科学探索本身充满不确定性,十个想法可能九个都失败,但一旦找对了方向,证据会给你带来自信。自信不是盲目乐观,而是来自数学、实验和逻辑上的验证——哪怕别人暂时还看不懂。


晚点:什么因素或经历可以帮助塑造更好的技术品味?


马毅:一是学术价值观。真正做科研要探索未知、打破常规,不应从众。能做出新东西的,往往是特立独行、能看到主流不足、发现现存问题的人,虽然他们一开始往往很难得到认可。


二是通过严谨学术训练,有严密的逻辑和实验能力。我读数学硕士时,老师就跟我说:“做数学家的第一条,就是把自己训练成世界上最难被说服的人。这样,当你找到一个证明并能说服自己时,才足以严谨到说服所有人。” 实验也要很严谨——数据、报告、现象判断以及假设验证,都得严谨,不要轻易下结论。


所以科研要有探索未知的勇气,也要有能力,这是形成科研品味的本钱。只有特立独行、没有训练,可能会变成 “民科”。最可怕的是自己不知道自己是错的。


晚点:伯克利对你的影响是什么?我们也访谈过你的师兄李泽湘,他当时说,伯克利对他的世界观和做科研的方式影响很大,那儿的氛围特别平等、自由,大家喜欢讨论、争论,不存在权威。


马毅:这非常了不起。我读博时,导师手下有 18 个学生,来自 13 个国家,大家没有等级观念,就是一心想把事情搞明白。


后来我自己在伯克利当教授,带的一些学生毕业后回来聊天,都说特别怀念这里,因为这儿的交流氛围很好,可以完全跨组开放交流。我组里就十几个学生,但开组会时经常有三四十号人来一起听,没有秘密。这在其他地方并不常见。


晚点:这也是对品味的一种培养,让研究者有更广阔的视角。


马毅:对,后来我发现,在伯克利,从同学身上学到的比从老师那儿还多,尤其是实用技能。学生间的合作也常常跨组,一起写论文、改代码、做各自擅长的事,你帮我,我帮你。这能提升人的综合素质。我也特别希望在港大,还有中国其他大学看到这样的氛围。


晚点:现在一些企业家和创业者并没有系统的 AI 研究背景,但他们在努力学习 AI,比如张一鸣就请冯佳时来讲解 AI 技术。你觉得他们能通过学习,对技术理解到什么程度?这也会影响投资和业务判断。


马毅:如果只是了解 AI 技术在做什么,有扎实的本科数学和科学背景就够了。要更深入,就需要更深的知识储备。我们去年在港大还真做了一件相关的事。


因为过去几年,不少企业家会来找我和同事请教 AI 问题,大家焦虑于要不要用 AI?怎么用?值不值得投?但我们每个老师也只深入了解自己研究的那部分。所以我们在港大开设了一个面向 CEO 和投资人的专门讲 AI 的班,类似 EMBA,由数据与计算学院主导,一方面让科研老师用通俗方式提供技术介绍和证据,另一方面邀请一线科技企业的人来分享真实的使用 AI 的经验——成功也好,踩过坑也行。


这个班原计划招 40-50 人,结果第一期来了 80 多位,主要是国内头部企业和上市公司创始人、企业高管和投资人。


晚点:这些  CEO 同学们的科学素养如何?


马毅:总体很好。他们都是成功的企业家,更想了解技术的本质,学习态度也诚恳,并非来交朋友的。这个班的出勤率很高,前面几个核心模块几乎全勤。


晚点:他们应该也会问一个问题——判断一个 AI 新成果靠不靠谱,有没有什么简单的原则或方法?


马毅:看是否有严格的证据,比如真实实验数据,而不是只看自媒体里讲的表现好的案例。我们也会坦诚分享负面案例或不确定的判断。

给港大所有本科生讲 AI,重要的是训练思考,不是给出答案

晚点:去年我们聊时,你提到当时港大正在计划 AI Literacy 课程,让 “AI 通识课” 成为包括文科、社科、医科、商科在内的所有本科生的必修课。因为我们未来都要和机器共处,需要理解机器。今年春季学期,港大 AI 通识课已开始试上,秋季会开始包含 4000 多名全部大一新生。这个课程怎么设计的?


马毅:我们分了几个模块:



第一,要让学生搞清楚 AI 和智能的基本概念;


第二,我非常强调历史,这部分是我自己在教,会涵盖生命起源时的智能、机器智能的历史;


第三,介绍具体技术本身,比如语言模型、图像处理、机器人等,讲这些技术的概念、作用和局限性;


第四是伦理问题,引导学生思考如何正确面对和使用 AI 工具,这涉及隐私保护、安全、法律规范等。


教学上,每个模块都有团队支持,每节课由多位老师协作设计,内容每年更新,确保学生接触到新的 AI 发展与研究成果。


晚点:最核心是想教给学生什么?


马毅:总的来说,是旨在让学生:一、了解 AI 的历史和概念;二、了解当前技术;三、思考 AI 技术对个人、行业乃至社会的可能影响。


但传授知识本身还不是最重要的,最终目的是提升学生的独立思考能力。所以我也跟授课老师强调,现在很多问题没有标准答案,要引导学生学会搜集证据、形成自己的想法,不要人云亦云。


因为技术会不断改进,炒作会反复出现。即便我们把当下知识解释清楚了,如果学生不能独立思考,以后还是会被误导。AI 本身是训练批判性独立思维的很好的主题。


晚点:这门课程怎么描述 AI 和人的关系?


马毅:课程会讲清楚智能的本质,然后让学生自己去判断如何与 AI 交互。关键在于启发思考,不是灌输答案。


晚点:学生们可能会有天马行空的畅想——AI 会不会产生自己的意识?AI 会是一种新生命和物种吗?你会怎么解答?


马毅:至少目前,AI 还在做机械的数据压缩和生成。学生了解这一点后,也就知道如何与当下的 AI 打交道了。至于未来,当智能机制被更全面地发现、实现,系统真正能自主学习、独立思考时,个人和社会该如何应对?我们现在可以探讨,但希望他们能客观认识当前的技术。


晚点:维纳在《人有人的用处》里讨论过智能机器对社会伦理和政治的影响。80 年前,他已在思考未来技术可能会压迫人,威胁人的尊严和价值感。现在关于 AI 和人的未来也有 “合作共生” 和 “对立” 的两种观点。从感性角度来说,你更倾向哪一派?


马毅:我没有确定答案。从历史看,智能机制并非人类独有,许多动物也有,自然界早把它 “开源” 了。人类能成为世界主宰,也是进化的阶段性结果。这些不同的智能过去可以共存,未来也可能有共存方式。


但另一方面,一旦机器能实现智能机制,在记忆、推理、学习效率上可能远远超越人类。那时我们该怎么办?这得留给大家一起思考。

A close-looped system is for an open world, no matter how small it is

晚点:你现在致力于研究怎么让机器系统有闭环反馈纠错机制,也就是向第二阶段的有神经系统和记忆的智能演进。这个方向是主流还是少数派?


马毅:其实从早期研究动物智能时就发现,几乎所有高级动物都是靠闭环反馈来纠错、学习、提升决策能力。这不是我们发明的,是自然界的选择。我相信它不是某一种方向,而可能是唯一的方向。真正有效的智能系统,都具备闭环反馈机制。


晚点:我和工业界的一些人交流你们团队的研究成果时,他们觉得这是故事会,是 “刷存在感”。


马毅:甚至还没有存在感了。但我们的初衷就是把问题搞明白,我们的信心也正来源于此。Hinton 前 30 年都没什么存在感,他的信心不来自一定找到了正确答案,而是知道自己提出了对的问题。


当然科学需要证据,不能只讲原理。我们过去几年就是在让白盒大模型、闭环反馈机制变得可实现、可验证。这个过程很痛苦,也可能很漫长。Hinton 也是等了很多年,直到条件成熟,有了更让人信服的验证,才被接受。这是我们现在正经历的过程。


晚点:你以前经历过类似过程吗?


马毅:我现在被引用最多的成果,一度就没有任何会议接收,大家觉得结果太好,可能作弊了。后来我们花了一个暑假做严谨对比,才被期刊接收。


科学家也是人,学术圈也有 “回音壁效应”,多数人相信当下的主流,不愿花精力理解新 “杂音”。就像这两年拿了诺奖的 Karikó(卡塔林·卡里科,生物化学家) 和 Ambros(维克托·安布罗斯,发育生物学家) ,一个当年被宾大降级降薪,一个没拿到哈佛的教职。


我常用这些故事激励年轻人:很多人觉得现在的方法就是通向 AGI 的阳光大道,其实阳光之下,新发现还会出现,那些没被看到的东西未来会颠覆认识。


晚点:具体到你对白盒大模型和闭环反馈机制的研究,从我们去年聊到现在,有哪些新进展?


马毅:这分两部分,一是原理发现和初步验证,二是大规模工程实现和验证。


白盒大模型,之前我们在学校已经验证了方法可行,现在在公司(马毅创立的忆生科技)是做产业化——用大量数据,在更大规模上做验证或改进效率。


这类偏工程化的工作往往不是学校愿意做和应该做的。学界应该做与工业界互补的东西:就是发现新原理和方向。这也是为什么要创立公司来做后面一部分的工作。过去十年一个让人失望的现象是,学术界被工业界牵着走。


(注:白盒大模型是指,为 Transformer 结构大模型里,从高维到低维的压缩过程中提供数学解释,以去除经验性的冗余,提高效率和效果。)


在闭环反馈自主纠错机制这块儿,我们在尝试不同路径。现在的主流是用单一模型做开环系统,我们认为这并不自然。大脑不是单一的一个环,而是多个环在并行。大脑皮层中有几十万个形态相似的皮质柱(cortical column)在各自编码、解码,协同处理信息,每个都是闭环系统。我们正在探索构建更接近人类大脑形态的架构,实现多路闭环反馈。


晚点:所以这个大的闭环系统的结构是很多模型组合在一起,其中每一个都是闭环的?


马毅:至少人脑的形态是这样一个并行、分布式的、有层次的结构。人类大脑只有前额叶的一小片区域在处理自然语言,其他绝大部分在处理视觉、触觉、声音等其他物理信号,小脑则负责运动控制。


晚点:闭环系统的一个特点是,能在开放的真实物理世界中运转和自己学习,它会更多指向具身智能吗?


马毅:对。我常说,“A close-looped system is for an open world, no matter how small it is.” 哪怕小如一只蚂蚁,也能在大世界里自主学习。


相反, “An open-looped system is for a close world, no matter how big it is.” 所以一个端对端的开环系统,只能应对封闭世界,这个模型不管多大,也不能自我改进。


晚点:端到端和闭环是互斥的吗?


马毅:不完全互斥,这是两件事。目前为止,大模型训练好后,如果不借助人为的微调或迭代就不能改进了。这就像只靠 DNA 来学习的阶段,从受精卵形成那一刻起,个体能力就被预定了,生物完全靠本能而活。


晚点:看好 VLA 方法的人会说,这个方法确实提升了泛化性。


马毅:这就好比造飞机,现在的飞机能飞、能载客,也能盈利,但这是不是飞行最高效的方式?未必。


当前的 VLA 是通过大量数据和算力,把感知、视觉、语言和动作整合在一起,它能提升机器人性能,不过方式比较简单粗暴。


晚点:什么时候能实现更优雅的闭环机制呢?


马毅:You never  know. 虽然概念很清晰,但实现时,工程是否到位、方法是否正确,都是变数。GPT 花了好几年才验证效果更好。科技探索关键在于找对方向,方向对了,已经很幸运了。


晚点:探索前沿方向有诸多不确定性,而你现在也创立了公司来做工程实现和验证,公司是需要更确定的发展节奏的。你对处理这二者之间的张力有了什么体会?


马毅:我一直相信,无论做学问还是做公司,都要有品味和信念。阿尔特曼曾说,GPT 有什么用他一开始也不知道,但他相信让机器理解自然语言这件事值得做。


很多技术在没突破临界点前,看起来都没用,但一旦突破,就可能释放巨大价值。如果等看到特别明确的收益才做,那是纯商业公司,而不是科技公司。


晚点:当你身边现在的一些非 AI 研究者,为 AI 感到焦虑或困惑时,你会和他们说什么?


马毅:焦虑来自不了解。所以我喜欢写书,只有自己梳理一遍,才会发现哪里没弄明白。


AI 现在还是一个黑盒子,正因为是黑盒,一部分人觉得很难搞明白,另一部分人会利用它的模糊性炒作或制造恐惧。迷信是这么产生的,(某些)权力也是这么产生的。

题图:2025 年 4 月底,马毅在人工智能领域顶会 ICLR(International Conference on Learning Representations,国际表征学习大会) 上做学术报告。来源:马毅。


图片图片


文章精选:

1."AI教父"辛顿多伦多大学讲座回顾学术生涯:如何从“木匠”到“诺贝尔奖物理学得主”,“原创想法”来自大家已见怪不怪的“错误做法”
2.诺奖得主辛顿分享求学之路:不断探索自己的兴趣、好奇心引领发现、因为数学吃力放弃成为物理学家,却终获物理诺奖
3.诺奖得主、人工智能教父辛顿学术讲座:图灵相信的是另一种AI、反向传播比人脑效果好,开源模型将给世界带来致命危险
4.图灵奖得主LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键
5.图灵奖得主、AI 教父 Bengio:OpenAI 不会分享超级智能,而是会用它来搞垮其他人的经济
6.AI教父、图灵奖和诺贝尔奖得主辛顿接受CBS专访:AI现在是人类养的可爱的小老虎,要谨防反噬其主
7.图灵奖得主Bengio预言o1无法抵达AGI!Nature权威解读AI智能惊人进化,终极边界就在眼前
8.赶紧放弃强化学习?!图灵奖得主、Meta 首席 AI 科学家杨立昆喊话:当前推理方式会“作弊”,卷大模型没有意义!
9.图灵奖得主杨立昆:大语言模型缺乏对物理世界的理解和推理能力,无法实现人类水平智能
10.图灵奖得主杰弗里·辛顿:从小语言到大语言,人工智能究竟如何理解人类?