上个月,人工智能创始人和投资者告诉TechCrunch,我们现在处于“扩展定律的第二个时代”,他们指出,改进人工智能模型的既定方法是如何呈现出收益递减的趋势。他们提出的一种有希望的新方法可能保持收益,那就是“测试时扩展”,这似乎是OpenAI的o3模型性能背后的原因——但它也有自身的缺点。
人工智能界的大部分人将OpenAI的o3模型的发布视为人工智能扩展进步尚未“触顶”的证明。o3模型在基准测试中表现良好,在名为ARC-AGI的通用能力测试中显著优于所有其他模型,并在一个难度极高的数学测试中获得了25%的分数,而其他人工智能模型在该测试中得分均未超过2%。
当然,在TechCrunch,在我们自己测试o3之前,我们对这一切都持保留态度(到目前为止,很少有人尝试过)。但即使在o3发布之前,人工智能界已经确信发生了重大转变。
OpenAI的o系列模型的共同创造者Noam Brown周五指出,这家初创公司宣布o3取得令人瞩目的进展,距离该公司宣布o1仅仅三个月——对于性能的如此飞跃来说,这是一个相对较短的时间框架。
Brown在推文中说:“我们有充分的理由相信,这种轨迹将继续下去。”
Anthropic的联合创始人Jack Clark在周一的博客文章中表示,o3是人工智能“2025年的进展将比2024年更快”的证据。(请记住,暗示人工智能扩展定律仍在继续下去对Anthropic有利——尤其是其筹集资金的能力,即使Clark是在称赞竞争对手。)
明年,Clark表示,人工智能界将把测试时扩展和传统的预训练扩展方法结合起来,以从人工智能模型中获得更多回报。也许他是在暗示,Anthropic和其他人工智能模型提供商将在2025年发布他们自己的推理模型,就像谷歌上周所做的那样。
测试时扩展意味着OpenAI在ChatGPT的推理阶段(即您按下提示后的时间段)使用更多的计算资源。目前尚不清楚幕后究竟发生了什么:OpenAI要么使用更多的计算机芯片来回答用户的问题,要么运行更强大的推理芯片,要么在人工智能产生答案之前运行这些芯片更长的时间——在某些情况下为10到15分钟。我们不知道o3是如何制作的所有细节,但这些基准测试是早期迹象,表明测试时扩展可能有助于提高人工智能模型的性能。
虽然o3可能会让一些人重新相信人工智能扩展定律的进步,但OpenAI的最新模型也使用了前所未有的计算量,这意味着每个答案的价格更高。
“也许这里唯一重要的警告是,要理解O3之所以好得多,其中一个原因是它在推理时运行成本更高——利用测试时计算能力意味着在某些问题上,您可以将计算转化为更好的答案,”Clark在他的博客中写道。“这很有趣,因为它使得运行人工智能系统的成本变得有些不可预测——以前,您只需查看模型和生成给定输出的成本,就可以计算出服务生成模型的成本。”
Clark和其他人指出o3在ARC-AGI基准测试中的表现——这是一项用于评估AGI突破的难度很高的测试——作为其进步的指标。值得注意的是,根据其创建者的说法,通过此测试并不意味着人工智能模型_已经实现_AGI,而这只是衡量迈向模糊目标的一种方式。也就是说,o3模型超越了之前所有进行过该测试的人工智能模型的分数,在其中一次尝试中获得了88%的分数。OpenAI的下一个最佳人工智能模型o1仅得分为32%。
图表显示了OpenAI的o系列在ARC-AGI测试中的表现。图片来源:ARC Prize
但是,此图表上的对数x轴可能会让某些人感到担忧。高分版本的o3在每个任务中使用了超过1000美元的计算量。o1模型每个任务使用大约5美元的计算量,而o1-mini仅使用几美分。
ARC-AGI基准测试的创建者François Chollet在博客中写道,与得分仅低12%的高效版本o3相比,OpenAI使用了大约170倍的计算量来生成88%的分数。高分版本的o3使用了超过10,000美元的资源来完成测试,这使得它太昂贵而无法竞争ARC Prize——这是一项人工智能模型击败ARC测试的未被打破的竞赛。
然而,Chollet表示,尽管如此,o3对于人工智能模型来说仍然是一项突破。
“o3是一个能够适应以前从未遇到过的任务的系统,可以说在ARC-AGI领域接近人类水平的性能,”Chollet在博客中说。“当然,这种通用性代价高昂,而且目前还不太经济:您可以支付一个人大约每个任务5美元来解决ARC-AGI任务(我们知道,我们做过),而能源消耗仅为几美分。”
过早地纠结于所有这些的确切定价是不成熟的——我们已经看到人工智能模型的价格在去年暴跌,而且OpenAI尚未宣布o3的实际成本。但是,这些价格表明,即使是稍微突破当今领先人工智能模型设定的性能障碍,也需要多少计算量。
这提出了一些问题。o3实际上是用来做什么的?为了在o4、o5或OpenAI为其下一个推理模型命名的任何其他模型上围绕推理取得更多进展,还需要多少计算量?
o3或其后继者似乎不会像GPT-4o或谷歌搜索那样成为任何人的“日常驱动程序”。这些模型只是使用了太多的计算量来回答你一天中的小问题,例如“克利夫兰布朗队如何才能进入2024年的季后赛?”
相反,具有扩展测试时计算能力的人工智能模型似乎只适用于大方向的提示,例如“克利夫兰布朗队如何在2027年成为超级碗球队?”即使这样,也许只有当您是克利夫兰布朗队的总经理,并且您正在使用这些工具来做出一些重大决策时,才值得付出如此高的计算成本。
沃顿商学院教授Ethan Mollick在推文中指出,至少在开始时,只有财力雄厚的机构才能负担得起o3。
O3对于大多数用途来说太贵了。但是,对于学术界、金融界和许多工业问题的工作,为成功答案支付数百甚至数千美元并非令人望而却步。如果它通常可靠,即使在成本下降之前,o3也将有多种用例
— Ethan Mollick (@emollick) 2024年12月22日
我们已经看到OpenAI发布了200美元的套餐以使用高计算版本的o1,但据报道,这家初创公司已经考虑创建高达2000美元的订阅计划。当您看到o3使用了多少计算量时,您就可以理解为什么OpenAI会考虑这样做。
但是,将o3用于高影响力的工作也有缺点。正如Chollet指出的那样,o3不是AGI,它仍然在某些人类很容易完成的非常简单的任务上失败。
这并不一定令人惊讶,因为大型语言模型仍然存在巨大的幻觉问题,而o3和测试时计算似乎并没有解决这个问题。这就是为什么ChatGPT和Gemini在他们产生的每个答案下面都包含免责声明,要求用户不要表面地相信答案。据推测,AGI(如果最终达到)将不需要这样的免责声明。
解锁测试时扩展的更多收益的一种方法可能是更好的AI推理芯片。不乏初创公司正在解决这个问题,例如Groq或Cerebras,而其他初创公司正在设计更具成本效益的AI芯片,例如MatX。Andreessen Horowitz的普通合伙人Anjney Midha此前告诉TechCrunch,他预计这些初创公司将在测试时扩展中发挥更大的作用。
虽然o3是对人工智能模型性能的显著改进,但它也引发了一些关于使用和成本的新问题。也就是说,o3的性能确实为以下说法增加了可信度:测试时计算是科技行业扩展人工智能模型的下一个最佳方法。