The last six months in LLMs, illustrated by pelicans on bicycles

概要

在过去的六个月里，大型语言模型（LLM）领域经历了飞速的发展。从 DeepSeek 的崛起，到 Mistral 的本地化模型大放异異彩，再到 OpenAI 和 Google 的不断更新，我们见证了技术的飞速迭代和市场格局的瞬息万变。本文通过“骑自行车的鹈鹕”这一有趣的实验(AI生图)，回顾了这半年来的重要事件和模型发布，并探讨了其中的三个核心观点。

核心观点

本地模型的崛起：以 Mistral Small 3 为代表的小型、高效模型，正在追赶上大型模型的性能，使得在个人设备上运行强大的人工智能成为可能。
“柠檬”问题：即使是顶级的 AI 实验室，也可能发布像 GPT-4.5 和 Llama 4 这样昂贵、不实用或没有显著改进的模型，这表明“越大越好”并非总是真理。
控制与便利的权衡：像 ChatGPT 的记忆功能这样的新特性，虽然看起来很有用，但可能会剥夺用户对模型上下文的控制权，这对于高级用户来说是一个重要的问题。

一月：DeepSeek 的冲击与 Mistral 的崛起

1月27日是激动人心的一天：DeepSeek 再次出击！这次是其 R1 推理模型的开放权重，与 OpenAI 的 O1 竞争。

也许是因为他们没有在圣诞节那天发布这个版本，所以人们确实注意到了。由此产生的股市跳水从 NVIDIA 的估值中抹去了6000亿美元，我认为这是一家公司的创纪录跌幅。

事实证明，对最先进 GPU 的贸易限制并不能阻止中国实验室为训练出色的模型找到新的优化方法。

这是骑自行车的鹈鹕摧毁了股市。到目前为止，这是我们见过的最好的：显然是一辆自行车，还有一只鸟，几乎可以被描述为有点像鹈鹕。虽然它没有在骑自行车。

我一月份最喜欢的模型发布是另一个本地模型 Mistral Small 3。它只有 24B，这意味着我可以在笔记本电脑上用不到 20GB 的内存运行它，同时还可以运行 Firefox 和 VS Code！

值得注意的是，Mistral 声称其性能可与 Llama 3.3 70B 相媲美。而 Meta 声称该模型与他们的 405B 模型一样强大。这意味着我们已经从 405B 降到了 70B，再降到了 24B，同时保持了相同的功能！

我成功地在一次飞行中，有一半的时间都在使用 Mistral Small…然后我的笔记本电脑电池耗尽了，因为事实证明这些东西会消耗大量电力。

如果你对本地模型失去了兴趣（就像我八个月前一样），那么值得再次关注它们。它们现在非常出色！

二月：Claude 3.7 Sonnet 的惊艳与 GPT-4.5 的“柠檬”

二月最大的发布是 Anthropic 的 Claude 3.7 Sonnet。在接下来的几个月里，它成为了许多人（包括我自己）最喜欢的模型。它画出了一只相当不错的鹈鹕！

我喜欢它通过在堆栈中添加一辆较小的自行车来解决鹈鹕不适合骑自行车的问题。

Claude 3.7 Sonnet 也是第一个增加推理拟人化的模型。

与此同时，OpenAI 推出了 GPT-4.5…结果却有点像个“柠檬”！

它主要表明，仅仅在训练阶段投入更多的计算和数据并不足以产生最好的模型。

![图像15：如果有点三角形，这是可以的自行车。鹈鹕看起来像鸭子，正面向错误的方向。每百万美元输入代币和150美元/百万美元的输出750X GPT-4.1-nano $ 0.10输入，375X $ 0.40输出]

这是 4.5 的鹈鹕。我猜还行吧。

GPT-4.5 通过 API 使用起来非常昂贵：输入令牌每百万75美元，输出令牌每百万150美元。相比之下，OpenAI 目前最便宜的模型是 GPT-4.1-nano，在输入令牌方面比 GPT-4.5 便宜 750 倍。

GPT-4.5 绝对没有比 4.1-nano 好 750 倍！

尽管按照今天的标准，每百万输入令牌75美元的价格很昂贵，但与2022年最好的模型 GPT-3 Da Vinci 相比还是很有趣的。那几乎同样昂贵，每百万60美元。我们今天拥有的模型比那更便宜、更好。

OpenAI 显然也同意 4.5 是个柠檬，他们在六周后就宣布了弃用。GPT-4.5 在这个世界上的时间不长。

三月：昂贵的 O1-Pro 与 Gemini 2.5 Pro 的登场

三月份，OpenAI 的 O1-Pro 更加昂贵——它包含了 GPT-4.5 的成本！

我不知道有谁通过 API 使用 O1-Pro。这只鹈鹕画得不是很好，而且花了我88美分！

![图片18：O1-Pro，这是一只鸟，有两只长腿，其角度为45度，以圆形结尾，大概是轮子。这款鹈鹕的价格为88.755美分，每百万美元的输入令牌150美元，产出600美元/百万美元)

与此同时，Google 发布了 Gemini 2.5 Pro。

那是一只很棒的鹈鹕！自行车有点赛博朋克的感觉。

这只鹈鹕花了我4.5美分。

![图片19：Gemini 2.5 Pro此鹈鹕的成本为4.7654美分，每百万美元输入令牌和10/百万美元的输出$ 1.25美分]

同样在三月，OpenAI 推出了他们向我们保证了一年的“GPT-4O 本地多模式生成”功能。

这是有史以来最成功的产品发布之一。他们在一周内就注册了1亿个新用户！他们有一个小时，在那里他们注册了一百万个新账户，因为这件事一次又一次地在病毒式传播。

显然，我给我的狗 Cleo 拍了一张照片，并告诉它给她穿上鹈鹕服装。

但看看它做了什么——它在背景中添加了一个又大又丑的标志，上面写着“半月湾”。

我没有要求这个。我的艺术视野被完全妥协了！

这是我第一次遇到 ChatGPT 的新记忆功能，它会在不征求你同意的情况下查阅你以前的对话历史。

我告诉了它，它给了我我真正想要的鹈鹕狗服装。

但这是一个警告，我们正冒着失去对上下文控制的风险。

作为这些工具的高级用户，我希望完全控制输入的内容。像 ChatGPT 记忆这样的功能正在从我手中夺走这种控制。

我不喜欢它们。我把它关掉了。

我在我真的不喜欢 ChatGPT 的新记忆功能中写了更多关于这个问题的文章。

四月：Llama 4 的“柠檬”时刻

这让我们来到了四月。

四月份最大的发布是 Llama 4…而它也有点像个“柠檬”！

Llama 4 的最大问题是，他们发布了这两个巨大的模型，没有人能运行。

他们没有机会在消费级硬件上运行这些模型。他们画鹈鹕的水平也不怎么样。

我个人坚持使用 Llama 4.1、4.2 和 4.3。有了 Llama 3，这些点发布版本的事情才真正变得令人兴奋——那时我们得到了可以在笔记本电脑上运行的那种漂亮的 3.3 模型。

五月：Google I/O 与 Gemini 3.0 Pro 的最佳鹈鹕

五月是 Google I/O，他们宣布了很多新东西。最有趣的是，他们现在正在画鹈鹕！

他们还宣布了 Gemini 3.0 Pro，这是迄今为止最好的鹈鹕！

六月：回顾与展望

这就把我们带到了六月。

就是这样！这就是 LLM 的六个月。希望你喜欢这些鹈鹕。

原文

https://simonwillison.net/2025/Jun/6/six-months-in-llms/