大神 Karpathy 封神演讲:AI 创业不造钢铁侠,而是造钢铁侠的战衣

  • A+
所属分类:技术

大神 Karpathy 爆火演讲完整视频公开,被无数网友列为 2025 必听 / 必看。

这段在 YC AI 创业学校活动的演讲,受众不仅 AI 研究者和开发者,Karpathy 还引用了许多流行文化和电影来讲解他的观点,让许多非技术背景的观众也受益匪浅。

开场他就扔出一个重磅观点:软件在过去 70 年基本没怎么变过,但最近几年却连续经历了两次根本性变革。

软件 1.0:代码,就是我们熟悉的传统编程,程序员敲代码指挥计算机通过指令执行任务。

软件 2.0:权重参数,神经网络时代不再直接写代码,而是调整数据集,让优化器生成神经网络的权重参数。

Karpathy 回忆道," 当初很多人觉得神经网络就是个分类器,跟决策树差不多,真正的巨变发生在大模型出现后。

以前的神经网络都是固定功能的机器,比如 AlexNet 只能做图像识别。但大模型不一样,它们是可编程的!你的提示词(prompt)就是程序,而且还是用英语(或其他自然语言)写的。

这就是 Karpathy 提出的软件 3.0 ——用自然语言编程大模型的新时代。

而这一点,他在 ChatGPT 刚发布 2 个月的时候就已预见。

大神 Karpathy 封神演讲:AI 创业不造钢铁侠,而是造钢铁侠的战衣

大模型的三重属性:工具、工厂与操作系统

演讲中最让人眼前一亮的,是 Karpathy 对大模型本质的洞察。他认为大模型同时具备三种看似矛盾的属性。

工具属性:

像 OpenAI、谷歌、Anthropic 等公司训练大模型,就像建设电力网络——前期投入大量资本(CAPEX)搭建基础设施,后期通过 API 按使用量收费(OPEX)。

我们对大模型的需求类似电力:低延迟、高稳定性、质量一致。比如,当顶尖大模型宕机时,就像全球遭遇 " 智能停电 ",依赖它们的工作会陷入停滞,这说明我们对其依赖已非常深。

工厂属性:

训练大模型需要巨额资本,类似半导体制造的晶圆厂(Fab)。技术路线复杂,研发秘密集中在少数公司手中。

不过,软件的可复制性使其护城河不如硬件牢固,比如用英伟达 GPU 训练模型类似 " 无晶圆厂模式 ",而 Google 用 TPU 自研硬件则类似 " 英特尔垂直整合模式 "。

操作系统属性:

大模型不仅是工具,更是复杂的软件生态系统,类似 Windows 或 Linux。目前有闭源巨头(如 GPT、Gemini)和开源社区并存。

从历史看,我们正处于大模型的 "1960 年代 " —— 计算成本高昂,模型集中在云端,个人用户只能通过网络交互,尚未实现 " 个人计算机革命 "。

不过,Mac Mini 等设备已能运行小型模型,或许这是个人智能设备的早期信号。

大模型超人类与局限性并存

Karpathy 把大模型形容为一种 "people spirits"(人类精神),因为在人类数据上训练,所以涌现出类人的心理特征。

这种心理特征很矛盾。

一方面,大模型拥有百科全书般的记忆。就像电影《雨人》里的自闭症天才能记住整个电话簿,大模型能轻松记住 Git 提交哈希值这种普通人类根本记不住的东西。

大神 Karpathy 封神演讲:AI 创业不造钢铁侠,而是造钢铁侠的战衣

但另一方面,它们又有严重的 " 认知缺陷 ":产生幻觉、缺乏自我认知、展现超出 " 锯齿状智力 ",也就是在某些任务上超越人类,却会犯人类绝不会犯的低级错误,比如大家已经熟悉的 9.11 大于 9.9,或者数错 strawberry 里 R 的个数。

大模型还患有 " 顺行性失忆症 ",人类会不断学习组织知识,回家睡觉巩固记忆,变得越来越专业。大模型不会,上下文窗口就是它们的工作记忆,每天早上都会被清空,就像电影《记忆碎片》和《初恋 50 次》的主角。

AI 应用机遇:构建半自主化产品

对于 AI 应用来说,当前最大的机遇在构建半自主化产品。

Karpathy 在特斯拉工作了 5 年研发自动驾驶,对 " 半自主化 " 这件事深有体会。

2013 年,他第一次坐朋友的 Waymo 自动驾驶汽车,在硅谷转了 30 分钟,零接管,完美运行。当时他就觉得,自动驾驶马上就要实现了。

然而 12 年过去了,人们还在努力,即使现在看到 Waymo 在路上跑,背后还是有大量远程操作和人工介入。

这给了他一个重要启示:不要造钢铁侠,要造钢铁侠的战衣。

以 Cursor 这个 AI 编程工具为例,它不是要完全取代程序员,而是提供了一个 " 自主性滑块 ",可以选择让 AI 只做代码补全,或者修改一小块代码,或者重构整个文件,甚至重构整个代码库。

控制权始终在人类手上。

另一个例子是 AI 搜索应用 Perplexity,在简单搜索、研究和深入研究之间的自主性滑块,也是由人类来选择。

随后,Karpathy 展示了他一条爆火的推文—— "Vibe coding"。

大神 Karpathy 封神演讲:AI 创业不造钢铁侠,而是造钢铁侠的战衣

他称自己发推特 15 年了,也猜不到究竟哪条会火,以为这条随便发发的推文会石沉大海,结果 Vibe coding 成了流行词,现在连维基百科页面都有词条了。"

Vibe coding 的核心是既然大模型能理解英语,那每个会说话的人都能编程。

他自己也尝试了 Vibe coding,虽然不会 Swift,但一天就做出了 iOS 应用。还做了个叫 Menu Genie 的餐厅菜单图片生成器。

不过他也发现了问题:写代码反而是容易的部分,真正困难的是部署——认证、支付、域名配置这些都要在浏览器里点来点去。" 计算机在告诉我该点哪里,这太荒谬了,为什么不是它自己去点?"

这引出了他的下一个观点:需要为 AI agent 重建基础设施。

现在的软件都是为人类设计的,到处都是 " 点击这里 " 的指令,大模型看不懂。一些先驱如 Vercel 和 Stripe 已经开始提供大模型友好的文档,用 Markdown 格式,把所有 " 点击 " 都替换成了 curl 命令。

这就像给网站加 robots.txt 一样,Karpathy 建议加个 LLM.txt,直接告诉 AI 这个网站是干什么的。

激动人心的入行时机

我们正站在软件 3.0 的起点,这一是激动人心的入行时机。在演讲结尾,Karpathy 分享了对想要进入科技行业的人的建议。

我们需要重写海量的代码,专业程序员要写,vibe coder 也要写。在接下来的十年里,我们会把自主性滑块从左边推到右边。

短期来看,大量软件需重构为 " 人类 + 大模型 " 协同模式,半自主应用爆发。

中期来看,大模型逐步渗透企业级工作流,代码、文档、数据分析全面智能化。

长期来看,类似《钢铁侠》贾维斯的智能助手普及,自主权滑动条从左到右延伸,但人类始终是闭环中的决策者。

这是一个需要同时掌握 Software 1.0(代码)、2.0(模型训练)、3.0(提示词工程)的时代。

视频回放:https://www.youtube.com/watch?v=LCEmiRjPEtQ

参考链接:[ 1 ] https://x.com/karpathy/status/1935518272667217925

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: