大神 Karpathy 封神演讲：AI 创业不造钢铁侠，而是造钢铁侠的战衣穿墙书店

发表评论
1,373

A+

所属分类：技术

大神 Karpathy 爆火演讲完整视频公开，被无数网友列为 2025 必听 / 必看。

这段在 YC AI 创业学校活动的演讲，受众不仅 AI 研究者和开发者，Karpathy 还引用了许多流行文化和电影来讲解他的观点，让许多非技术背景的观众也受益匪浅。

开场他就扔出一个重磅观点：软件在过去 70 年基本没怎么变过，但最近几年却连续经历了两次根本性变革。

软件 1.0：代码，就是我们熟悉的传统编程，程序员敲代码指挥计算机通过指令执行任务。

软件 2.0：权重参数，神经网络时代不再直接写代码，而是调整数据集，让优化器生成神经网络的权重参数。

Karpathy 回忆道，" 当初很多人觉得神经网络就是个分类器，跟决策树差不多，真正的巨变发生在大模型出现后。

以前的神经网络都是固定功能的机器，比如 AlexNet 只能做图像识别。但大模型不一样，它们是可编程的！你的提示词（prompt）就是程序，而且还是用英语（或其他自然语言）写的。

这就是 Karpathy 提出的软件 3.0 ——用自然语言编程大模型的新时代。

而这一点，他在 ChatGPT 刚发布 2 个月的时候就已预见。

大模型的三重属性：工具、工厂与操作系统

演讲中最让人眼前一亮的，是 Karpathy 对大模型本质的洞察。他认为大模型同时具备三种看似矛盾的属性。

工具属性：

像 OpenAI、谷歌、Anthropic 等公司训练大模型，就像建设电力网络——前期投入大量资本（CAPEX）搭建基础设施，后期通过 API 按使用量收费（OPEX）。

我们对大模型的需求类似电力：低延迟、高稳定性、质量一致。比如，当顶尖大模型宕机时，就像全球遭遇 " 智能停电 "，依赖它们的工作会陷入停滞，这说明我们对其依赖已非常深。

工厂属性：

训练大模型需要巨额资本，类似半导体制造的晶圆厂（Fab）。技术路线复杂，研发秘密集中在少数公司手中。

不过，软件的可复制性使其护城河不如硬件牢固，比如用英伟达 GPU 训练模型类似 " 无晶圆厂模式 "，而 Google 用 TPU 自研硬件则类似 " 英特尔垂直整合模式 "。

操作系统属性：

大模型不仅是工具，更是复杂的软件生态系统，类似 Windows 或 Linux。目前有闭源巨头（如 GPT、Gemini）和开源社区并存。

从历史看，我们正处于大模型的 "1960 年代 " —— 计算成本高昂，模型集中在云端，个人用户只能通过网络交互，尚未实现 " 个人计算机革命 "。

不过，Mac Mini 等设备已能运行小型模型，或许这是个人智能设备的早期信号。

大模型超人类与局限性并存

Karpathy 把大模型形容为一种 "people spirits"（人类精神），因为在人类数据上训练，所以涌现出类人的心理特征。

这种心理特征很矛盾。

一方面，大模型拥有百科全书般的记忆。就像电影《雨人》里的自闭症天才能记住整个电话簿，大模型能轻松记住 Git 提交哈希值这种普通人类根本记不住的东西。

但另一方面，它们又有严重的 " 认知缺陷 "：产生幻觉、缺乏自我认知、展现超出 " 锯齿状智力 "，也就是在某些任务上超越人类，却会犯人类绝不会犯的低级错误，比如大家已经熟悉的 9.11 大于 9.9，或者数错 strawberry 里 R 的个数。

大模型还患有 " 顺行性失忆症 "，人类会不断学习组织知识，回家睡觉巩固记忆，变得越来越专业。大模型不会，上下文窗口就是它们的工作记忆，每天早上都会被清空，就像电影《记忆碎片》和《初恋 50 次》的主角。

AI 应用机遇：构建半自主化产品

对于 AI 应用来说，当前最大的机遇在构建半自主化产品。

Karpathy 在特斯拉工作了 5 年研发自动驾驶，对 " 半自主化 " 这件事深有体会。

2013 年，他第一次坐朋友的 Waymo 自动驾驶汽车，在硅谷转了 30 分钟，零接管，完美运行。当时他就觉得，自动驾驶马上就要实现了。

然而 12 年过去了，人们还在努力，即使现在看到 Waymo 在路上跑，背后还是有大量远程操作和人工介入。

这给了他一个重要启示：不要造钢铁侠，要造钢铁侠的战衣。

以 Cursor 这个 AI 编程工具为例，它不是要完全取代程序员，而是提供了一个 " 自主性滑块 "，可以选择让 AI 只做代码补全，或者修改一小块代码，或者重构整个文件，甚至重构整个代码库。

控制权始终在人类手上。

另一个例子是 AI 搜索应用 Perplexity，在简单搜索、研究和深入研究之间的自主性滑块，也是由人类来选择。

随后，Karpathy 展示了他一条爆火的推文—— "Vibe coding"。

他称自己发推特 15 年了，也猜不到究竟哪条会火，以为这条随便发发的推文会石沉大海，结果 Vibe coding 成了流行词，现在连维基百科页面都有词条了。"

Vibe coding 的核心是既然大模型能理解英语，那每个会说话的人都能编程。

他自己也尝试了 Vibe coding，虽然不会 Swift，但一天就做出了 iOS 应用。还做了个叫 Menu Genie 的餐厅菜单图片生成器。

不过他也发现了问题：写代码反而是容易的部分，真正困难的是部署——认证、支付、域名配置这些都要在浏览器里点来点去。" 计算机在告诉我该点哪里，这太荒谬了，为什么不是它自己去点？"

这引出了他的下一个观点：需要为 AI agent 重建基础设施。

现在的软件都是为人类设计的，到处都是 " 点击这里 " 的指令，大模型看不懂。一些先驱如 Vercel 和 Stripe 已经开始提供大模型友好的文档，用 Markdown 格式，把所有 " 点击 " 都替换成了 curl 命令。

这就像给网站加 robots.txt 一样，Karpathy 建议加个 LLM.txt，直接告诉 AI 这个网站是干什么的。

激动人心的入行时机

我们正站在软件 3.0 的起点，这一是激动人心的入行时机。在演讲结尾，Karpathy 分享了对想要进入科技行业的人的建议。

我们需要重写海量的代码，专业程序员要写，vibe coder 也要写。在接下来的十年里，我们会把自主性滑块从左边推到右边。

短期来看，大量软件需重构为 " 人类 + 大模型 " 协同模式，半自主应用爆发。

中期来看，大模型逐步渗透企业级工作流，代码、文档、数据分析全面智能化。

长期来看，类似《钢铁侠》贾维斯的智能助手普及，自主权滑动条从左到右延伸，但人类始终是闭环中的决策者。

这是一个需要同时掌握 Software 1.0（代码）、2.0（模型训练）、3.0（提示词工程）的时代。

视频回放：https://www.youtube.com/watch?v=LCEmiRjPEtQ

参考链接：[ 1 ] https://x.com/karpathy/status/1935518272667217925

发表评论取消回复