编程笔记

lifelong learning & practice makes perfect

The last six months in LLMs, illustrated by pelicans on bicycles

Image 8: January

#

1月27日是令人兴奋的一天:DeepSeek再次击中!这次是其R1推理模型的开放权重,与OpenAI的O1竞争。

Image 9: NVIDIA corp stock price chart showing a huge drop in January 27th which I've annotated with -$600bn

#

也许是因为他们没有在圣诞节那天发布此版本,所以人们确实注意到了。由此产生的股票市场潜水从NVIDIA的估值中消除了6000亿美元,我认为这是一家公司的创纪录下降。

事实证明,最佳GPU的贸易限制不会阻止中国实验室为培训出色的模型找到新的优化。

Image 10: DeepSeek-R1. The bicycle has wheels and several lines that almost approximate a frame. The pelican is stiff below the bicycle and has a triangular yellow beak.

#

这是自行车上的鹈鹕崩溃了股市。到目前为止,这是我们看到的最好的:显然是一辆自行车,还有一只鸟几乎可以描述为有点像鹈鹕。虽然不是骑自行车。

Image 11: Mistral Small 3 (24B) “Mistral Small 3 is on par with Llama 3.3 70B instruct, while being more than 3x faster on the same hardware.”  Mistral's pelican looks more like a dumpy white duck. It's perching on a barbell.

#

我最喜欢的一月份的模型发布是另一个本地模型Mistral Small 3。它是24B,这意味着我可以使用少于20GB的RAM在笔记本电脑中运行它,而我可以同时运行Firefox和VS代码!

值得注意的是,米斯特拉尔(Mistral)声称其执行类似于骆驼3.3 70b。这就是Meta所说的模型与他们的405B型号一样有能力。这意味着我们已经从405b降至70b降至24B,同时保留了相同的功能!

我成功的航班成功了,我将Mistral Small用于一半的航班…然后我的笔记本电脑电池用完了,因为事实证明这些东西燃烧了很多电。

如果您对本地模型失去了兴趣(就像我八个月前一样),那值得再次关注它们。他们现在很好!

Image 12:2月

2月发生了什么?

图片13:克劳德3.7十四行诗有一只灰色的鸟,有点像鹈鹕,站在带有两个轮子的自行车上的怪异装置上。

2月最大的发布是人类的Claude 3.7十四行诗。在接下来的几个月中,这是许多人最喜欢的模型,包括我自己在内。它吸引了一个相当坚固的鹈鹕!

我喜欢它如何通过在堆栈中添加较小的自行车来解决鹈鹕不适合自行车的问题。

Claude 3.7十四行诗也是第一个增加推理的拟人模型。

Image 14: GPT-4.5 $75.00 per million input tokens and $150/million for output 750x gpt-4.1-nano $0.10 input, 375x $0.40 output

同时,Openai淘汰了GPT 4.5 …这有点柠檬!

它主要表明,仅在训练阶段投入更多的计算和数据还不足以产生最佳模型。

![图像15:如果有点三角形,这是可以的自行车。鹈鹕看起来像鸭子,正面向错误的方向。 每百万美元输入代币和150美元/百万美元的输出750X GPT-4.1-nano $ 0.10输入,375X $ 0.40输出]

这是4.5的鹈鹕。我猜很好。

GPT-4.5通过API _Really_昂贵:75/百万美元的输入令牌和150美元/百万美元的产出。为了进行比较,OpenAI当前最便宜的型号是GPT-4.1-nano,对于输入令牌而言,它比GPT-4.5便宜750倍。

GPT-4.5绝对不比4.1-nano好750倍!

![图片16:GPT-3 DA Vinci是$ 60.00输入,$ 120.00输出… 4.5在4月后六个星期不推荐]

尽管按照当今的标准,虽然75/百万美元的输入令牌很昂贵,但将其与GPT-3 DA Vinci进行比较很有趣,GPT-3 DA Vinci是2022年最佳的型号。这几乎是昂贵的60/百万美元。我们今天拥有的模型比这便宜,更好。

Openai显然同意4.5是柠檬,他们宣布了[6周后]的弃用(https://simonwillison.net/2025/apr/14/gpt-4-1/#deprecated)。 GPT-4.5对这个世界不久。

图片17:3月

![图片18:O1-Pro,这是一只鸟,有两只长腿,其角度为45度,以圆形结尾,大概是轮子。 这款鹈鹕的价格为88.755美分,每百万美元的输入令牌150美元,产出600美元/百万美元)(https://static.simonwillison.net/static/static/2025/ai-worlds-fair/ai-worlds-fair/ai-worlds-fair/ai-worlds-fair-2025-18.jpeg)

3月Openai的O1-Pro更加昂贵 - 其中包括GPT-4.5的成本!

我不知道有人通过API使用O1-Pro。这个鹈鹕不是很好,它花了我88美分!

![图片19:Gemini 2.5 Pro此鹈鹕的成本为4.7654美分,每百万美元输入令牌和10/百万美元的输出$ 1.25美分]

同时,Google发布了Gemini 2.5 Pro。

那是一个很棒的鹈鹕!自行车有点网络朋克。

这个鹈鹕花了我4.5美分。

![图像20:GPT-4O本机多模式图像生成Cleo的三张图像,我的狗。第一个是我拍摄的她的照片,看上去很担心。在第二个AI产生的图像中,她穿着鹈鹕服装,站在海滩上的蓝色半月湾标志前,背景有鹈鹕飞行。第三张照片有相同的服装,但现在她回到了原来的位置。

同样在3月,Openai推出了他们向我们保证我们一年的“ GPT-4O本地多模式产生”功能。

这是有史以来最成功的产品之一。他们在一周内签署了1亿个新用户帐户!他们有一个一个小时,他们在那里注册了一百万个新帐户,因为这件事一直在一次又一次的传播。

显然,我给我的狗Cleo拍了一张照片,并告诉它穿着鹈鹕服装给她打扮。

但是看看它的所作所为 - 它在背景中添加了一个大而丑陋的标志,上面写着半月湾。

我没有要求。我的艺术视野已被完全妥协!

这是我第一次与Chatgpt的新内存功能相遇,它在不要求您的情况下咨询您以前的对话历史记录。

我告诉了它,它给了我真正想要的鹈鹕狗服装。

但这是一个警告,我们冒着失去对上下文的控制的风险。

作为这些工具的电力用户,我想完全控制输入是什么。诸如chatgpt内存之类的功能正在使我从我身上控制。

我不喜欢他们。我关闭了。

我在我真的不喜欢Chatgpt的新内存档案中写了更多有关此的信息。

图片21:相同的三张照片,标题现在阅读Chatgpt Mischief Buddy

Openai在命名事物方面已经很糟糕,但是在这种情况下,他们推出了有史以来最成功的AI产品,甚至没有给它起一个名字!

这是什么叫什么? “ chatgpt图像”? Chatgpt已经有图像生成。

我现在要为他们解决。我一直称之为** chatgpt恶作剧伙伴**,因为正是我的恶作剧伙伴可以帮助我做恶作剧。

其他人也应该称其为。

图片22:4月

这使我们到了四月。

图片23:Llama 4侦察骑士4 Maverick侦察兵带着四个轮子的解构自行车和一条线,导致一条由椭圆形和圆圈制成的鹈鹕。  Maverick做了一个蓝色的背景,灰色的道路,骑自行车,带有两个小的红色轮子,由蓝色的酒吧连接,坐在那个酒吧上。

四月份的最大发行是Llama 4…而且这也有点柠檬!

Llama 4的最大问题是,他们发布了这两个巨大的模型,没有人可以运行。

他们没有机会在消费者硬件上运行这些。他们也不擅长抽出鹈鹕。

我个人坚持使用Llama 4.1和4.2和4.3。有了Llama 3,这些观点发行的事情确实令人兴奋 - 那时我们得到了笔记本电脑上运行的那种美丽的3.3模型。

图片24:5月

这使我们到了五月。

图片25:Google I/O 2025鹈鹕带有自行车轮,一个人的自行车框架和两条腿。

5月是Google I/O,他们宣布了许多新内容。最有趣的是,他们现在正在画鹈鹕!

图像26:双子座3.0鹈鹕,带有自行车轮的鹈鹕,一个身体的自行车框架和两条腿。

他们还宣布了Gemini 3.0 Pro,这是迄今为止最好的鹈鹕!

图片27:6月

这将我们带到了六月。

图像28:最佳的鹈鹕。  带有自行车轮的鹈鹕,一个尸体的自行车框架和两条腿。

就是这样!那是LLM的六个月。希望您喜欢鹈鹕。

原文

欢迎关注我的其它发布渠道