必看,前特斯拉AI总监AK大神最新演讲:大模型引领“软件3.0"新范式


大家好,这里是#AIGC创意猎人

我是与大家一起玩转AI的何先森Kevin

0. 引言:AI时代的软件新范式

这是来自Andrej Karpathy,前特斯拉AI总监、OpenAI研究科学家,在著名创投公司Y Combinator举办的AI Startup School活动上的最新演讲。


演讲介绍了“AI时代的软件3.0”,大型语言模型 (LLM) 通过自然语言编程,彻底改变了软件开发方式。



这次演讲深刻揭示了软件演进的三个关键阶段,描绘出AI时代的全新技术蓝图。


他将 LLM 比作 1960 年代的计算基础设施,强调它们的效用、制造和操作系统-like 的角色。讨论了 LLM 因训练于人类数据而产生的“心理学”,这使得部分自主产品成为可能,并倡导“氛围编码”和基于代理的软件设计,承诺提高可访问性和交互性。


同时,他也重新定义了"编程"的本质:从传统代码编写,到神经网络参数优化,再到自然语言编程。在这个人人都可能成为程序员的时代,我们需要理解人机协作的新模式,把握AI驱动的创新机遇。

Karpathy 核心洞察 软件三阶段 1.0→2.0→3.0 演进范式 LLM多重身份 公用事业+晶圆厂 +操作系统 人机协作 生成-验证循环 部分自主应用 Vibe Coding 人人程序员 智能体基础设施

1. 软件演进的三个时代:从代码到智能

Karpathy指出,过去七十年里,软件从未在如此根本的层面上发生过如此快速的两次变革。这种变革不仅改变了我们编写程序的方式,更重新定义了"程序"本身的概念

软件 1.0 传统编程 人类编写代码 C++/Python 显式指令 软件 2.0 神经网络 数据训练 参数优化 模式识别 Hugging Face 软件 3.0 LLM编程 自然语言 提示词驱动 可编程AI ChatGPT Claude 1950-2010 2010-2020 2020-今天
编程方式: 编写代码 训练数据 自然语言 核心特征: 确定性 模式识别 提示驱动 典型应用: 操作系统 自动驾驶 ChatGPT

三种编程范式各有特色:


  • 软件1.0追求确定性

  • 软件2.0专注模式识别

  • 软件3.0通过自然语言交互


未来软件工程师需要灵活切换三种范式,根据需求选择最适合的技术路径。

2. LLMs的多重身份:公用事业、晶圆厂与操作系统

Karpathy运用多个精妙类比来解释LLMs的特性,揭示了LLMs在技术演进中的独特地位以及未来发展的可能路径。

LLMs 大语言模型 公用事业 ? 低延迟服务 ? 高可用性 ? 按Token计费 ? API接口 晶圆厂 ? 巨额资本开支 ? 技术壁垒高 ? 研发集中化 ? 防御性较弱 操作系统 ? 软件生态系统 ? 上下文窗口=内存 ? 应用协调平台 ? 云端集中式


2.1 公用事业视角:智能基础设施的新形态

从公用事业的角度来看,LLM实验室(如OpenAI、Google、Anthropic)的运营模式与传统电力公司惊人相似。

它们投入巨额资本开支来训练模型,就像建设电网基础设施;而通过API提供服务的运营开支,则类似于按用电量计费的商业模式。


这种模式的核心特征是服务的标准化和商品化。用户对LLMs的需求具有明显的公用事业特点:低延迟、高可用性、一致的服务质量。

更重要的是,不同LLM提供商之间的切换成本相对较低,用户可以通过OpenRouter等平台轻松在GPT、Claude、Gemini之间切换,这种灵活性是软件基础设施的独特优势

当先进的LLMs出现服务中断时,Karpathy形象地称之为全球"智力停电"。这个比喻深刻地揭示了世界对这些模型依赖性的急剧增加,以及它们在现代数字基础设施中不可替代的地位。


2.2 晶圆厂视角:技术壁垒与资本密集

构建先进LLMs所需的资本投入远超建设普通电站,更接近半导体晶圆厂的投资规模。

这种类比突出了LLM产业的高门槛特性:不仅需要巨额资金,还需要顶尖的技术团队、先进的硬件设施和海量的训练数据。


与半导体行业类似,LLM领域的技术秘密和研发能力正在少数实验室内部高度集中。这种集中化趋势一方面推动了技术的快速发展,另一方面也带来了技术垄断的风险

然而,Karpathy也指出了这种类比的局限性:与物理的半导体制造不同,软件的可塑性使得LLM的防御性相对较弱,技术突破可能更容易被复制和超越。


2.3 操作系统视角:最贴切的类比

Karpathy认为,将LLMs比作操作系统是最为贴切和富有洞察力的类比

这个类比不仅解释了LLMs当前的角色,更重要的是,它为我们理解LLM生态系统的未来发展提供了清晰的框架。


在这个类比中,LLM扮演着CPU的角色,负责处理和协调各种任务;上下文窗口则相当于内存,存储当前任务所需的信息。

正如传统操作系统管理硬件资源并为应用程序提供运行环境,LLMs也在管理计算资源并为AI应用提供智能服务。


当前的LLM生态系统正在形成类似传统操作系统的竞争格局:少数闭源巨头与开源替代方案并存。GPT、Claude、Gemini就像Windows、macOS,而LLaMA生态系统则类似于Linux,为开发者提供了更多的自主权和定制空间。


这种类比还揭示了一个重要趋势:正如应用程序可以在不同操作系统上运行,LLM应用也越来越具备跨平台的能力

像Cursor这样的AI编程工具可以无缝切换不同的LLM后端,这种抽象化程度的提高正在为更复杂的AI应用生态系统奠定基础。

3. 早期计算时代的历史回响

Karpathy通过与1960年代计算机发展历史的类比,为我们提供了理解当前LLM发展阶段的独特视角。

这种历史回望不仅帮助我们认识LLM技术的当前位置,更重要的是,它预示了未来可能的发展轨迹。


在1960年代,计算资源极其昂贵且稀缺,用户只能通过时间共享和批处理的方式与远程的大型机交互。

今天的LLM计算同样昂贵,导致这些强大的模型集中部署在云端,普通用户通过网络以"瘦客户端"的形式访问服务,这种模式与半个世纪前的计算环境惊人相似。

然而,历史的车轮总是向前转动。正如个人计算革命最终让每个人都能拥有自己的计算机,LLM的个人化时代也正在悄然来临

Mac mini等设备已经能够运行一些较小的LLM模型,这可能是个人AI计算时代的早期信号。


当前我们与LLM的交互主要通过文本界面进行,这就像通过终端与操作系统对话。通用的图形用户界面尚未出现,这为未来的创新留下了巨大的想象空间。

4. LLMs的"心理学":超能力与认知陷阱

Karpathy将LLMs视为"人的随机模拟器",具有类人"心理学"特征,但同时表现出独特的认知局限性。

LLM大脑 随机人类模拟器 超能力 ? 百科全书般知识 ? 完美记忆能力 ? 多语言处理 ? 复杂推理分析 ? 创造性思维 认知缺陷 × 经常产生幻觉 × 锯齿状智能 × 记忆无法累积 × 易受攻击误导 × 缺乏自我认知 认知特征详解 幻觉:类似电影《美丽心灵》,创造不存在的信息 锯齿智能:9.11 >9.9 的常识错误 顺行性遗忘:类似《记忆碎片》,无法积累经验 超级记忆:如《雨人》般记住海量细节信息 易受攻击:提示注入、数据泄露等安全风险

关键特征包括:超能力如百科全书般的知识和完美记忆;认知陷阱如幻觉、锯齿状智能和顺行性遗忘症。成功应用需要平衡利用优势和规避局限

5. 机会:部分自主应用的崛起

未来软件将越来越"部分自主",重新定义人机交互边界。以Cursor和Perplexity为典型案例,展示了这种新型应用的核心特征和设计哲学

部分自主应用 Cursor / Perplexity / ChatGPT 上下文管理 ? 智能信息筛选 ? 相关性排序 ? 记忆整合 ? 上下文压缩 多LLM编排 ? 嵌入模型 ? 聊天模型 ? 代码差异模型 ? 专业化分工 应用专属GUI ? 视觉化呈现 ? 快捷键操作 ? 红绿差异显示 ? 人类审计友好 自主性滑块 ? 代码补全(低) ? 修改代码块(中) ? 修改文件(高) ? 修改代码库(完全) 低自主性 完全自主


5.1 上下文管理:智能信息协调者

在部分自主应用中,上下文管理是核心能力。LLMs需要处理大量相关信息,包括用户的历史操作、当前任务背景、相关文档和代码库信息。这种能力使得AI助手能够理解用户的真实意图,而不仅仅是表面的指令。


以Cursor为例,它能够智能地分析整个代码库,理解项目结构、依赖关系和编码风格,然后基于这些上下文信息提供精准的代码建议和修改。这种上下文感知能力是传统自动化工具无法企及的。


5.2 多LLM调用编排:专业化分工的智能团队

成功的LLM应用在底层通常会协调调用多个专门化的模型。Cursor就是一个典型例子:它使用嵌入模型进行语义搜索,使用聊天模型进行交互对话,使用专门的代码差异模型来生成精确的代码修改建议。

这种专业化分工提高了系统的整体效率和准确性。每个模型都在其擅长的领域发挥最大作用,就像一个配合默契的专业团队,而应用层的智能编排确保了各个组件之间的无缝协作。


5.3 应用专属GUI:人机协作的关键界面

Karpathy特别强调,应用专属GUI是LLM应用的核心。直接通过文本与LLM操作系统对话效率低下,难以理解和执行复杂操作。而精心设计的GUI能够以视觉方式呈现信息,让人类更容易审计LLM的工作并加速操作流程。

例如,Cursor通过红绿差异显示让用户可以直观地看到代码变化,通过快捷键让用户能够快速接受或拒绝修改建议。这种视觉化的交互方式比纯文本交流效率高出数倍,大大提升了人机协作的体验。


5.4自主性滑块:灵活的控制机制

最具创新性的设计理念是"自主性滑块"的概念。用户可以根据任务的复杂性和风险级别,动态调整LLM的自主性水平。在Cursor中,这表现为从简单的代码补全(低自主性)到修改整个代码库(完全自主)的连续谱系。

这种设计哲学同样体现在Perplexity中,用户可以选择快速搜索、深度研究或全面分析等不同级别的服务。自主性滑块不仅提供了灵活性,更重要的是为未来逐步提高AI自主性提供了平滑的过渡路径

6. 人机协作:生成-验证循环的艺术

在AI辅助的工作流中,Karpathy提出了一个关键洞察:人类与AI是合作关系,而非替代关系


AI通常负责生成,人类负责验证,成功的关键在于尽可能快地加速这个"生成-验证循环"。这种协作模式不仅适用于编程,更是所有AI辅助工作的核心原则

AI生成 创造内容 人类验证 审核决策 加速验证 ? GUI视觉呈现 ? 快捷键操作 ? 差异高亮显示 ? 批处理验证 ? 智能默认值 ? 一键接受/拒绝 ? 上下文感知 控制边界 ? 小步增量修改 ? 具体明确提示 ? 可审核中间产物 ? 人工监督机制 ? 安全边界设定 ? 回滚机制 ? 权限分级 钢铁侠战衣 vs 钢铁侠机器人 ? 钢铁侠战衣:增强人类能力,人类保持控制权 ? 部分自主:AI辅助但人类监督,可调节自主性 × 钢铁侠机器人:完全自主,缺乏人类判断 × 华而不实:演示效果好但实际不可靠 ? 理想状态:人机协作,发挥各自优势 ? 可控自主:根据任务复杂度调整AI参与度

核心原则:生成-验证循环优化,控制AI自主性边界,采用"钢铁侠战衣"理念增强而非替代人类,创建可审核的中间产物。

7. Vibe Coding与为智能体构建:人人都是程序员

LLMs实现了"人人都是程序员"的愿景。Karpathy称之为"Vibe Coding"——用自然语言描述需求,让LLM生成代码构建应用。普通人能在短时间内构建功能完整的应用,无需多年专业学习。


实践中发现,Vibe Coding的真正瓶颈在于DevOps工作——身份验证、支付、域名、部署等配置仍需大量手动操作。

传统编程路径 学习语法 → 算法训练 → 框架掌握 → 项目实践 (5-10年) Vibe Coding路径 自然语言描述 → LLM代码生成 → 快速迭代 (数小时/数天) 真正的瓶颈:DevOps工作 ? 身份验证配置 ? 支付系统集成 ? 域名和SSL证书 ? 部署和监控 解决方案:为智能体构建LLM友好的基础设施
传统人类友好 ? "点击这里"操作 ? 复杂HTML文档 ? GUI界面设计 ? 人工配置部署 ? robots.txt ? 手动操作文档 ? 交互式教程 ? 可视化界面 智能体友好 ? curl命令调用 ? Markdown文档 ? API优先设计 ? 自动化部署 ? lm.txt文件 ? 结构化数据 ? 数据摄取工具 ? 程序化接口 重构

关键转变:为智能体重新设计基础设施,从`robots.txt`到`lm.txt`,从"点击"到"curl命令",从GUI到API,支持自动化开发和部署流程。LLMs技术扩散呈现消费者先行的逆向模式

8. 总结与展望:AI时代的黄金机遇

Karpathy为我们描绘了AI时代的机遇图景:现在是进入软件行业的绝佳时机,LLMs正在为代码重写和基础设施升级提供前所未有的工具支持。

现在:LLM基础能力构建 ? 软件1.0→2.0→3.0演进 ? 多重身份定位 ? 人机协作模式探索 近期:部分自主应用普及 ? 生成-验证循环优化 ? GUI工具成熟 ? Vibe Coding标准化 中期:智能体生态系统 ? lm.txt标准普及 ? API优先设计 ? 自主性滑块成熟 远期:人机智能协作生态 ? 全面智能化基础设施 ? 创造力与计算力融合 2024 2025-26 2027-30 2030+

核心洞察包括:LLMs处于早期阶段但潜力巨大,就像1960年代的操作系统;通过生成-验证循环和部分自主应用,实现人机协作的最佳平衡;Vibe Coding实现"人人都是程序员",但需要重新设计LLM友好的基础设施。


这场变革正在重新定义工作本质和创造方式


掌握三种编程范式的复合型人才将具备无与伦比的竞争优势。


我们正在构建一个全新的智能协作生态系统,人类创造力与AI计算能力的结合将释放前所未有的创新潜能。



附:现场演讲完整PPT见【创意猎人】知识库链接:https://aigcreative.feishu.cn/wiki/DSbpwEhfLi8Un5ki03icOmVhnDd