2月6日,据外媒报说念,李飞飞等斯坦福大学和华盛顿大学的商议东说念主员以不到50好意思元的用度,使用了16张英伟达H100 GPU,耗时26分钟就完成了试验,生效“打造”出了一个名为s1-32B的东说念主工智能推理模子。
字据李飞飞等东说念主的商论说文《s1: Simple test-time scaling》,该模子在数学和编码智商测试中的露出,与OpenAI的o1和DeepSeek的R1等顶端推理模子不相坎坷,在竞赛数常识题上的露出更是比o1-preview越过27%。
凭借低本钱、高效率,s1模子成为继“AI界价钱屠户”DeepSeek之后再次激勉科技界热议的话题。
但s1推理模子的本钱果真唯有50好意思元吗?其性能是否真有姿色的那么出色?在“白菜价”的背后,李飞飞团队又有哪些探索?
针对本钱问题,复旦大学计算机学院副磨真金不怕火、博士生郑骁庆在罗致《逐日经济新闻》记者采访时指出,“像DeepSeek大约访佛的公司,在寻找有用的整合惩办决策时,需要进行多数的前期商议与消融实验。”这意味着前期是需要多数“烧钱”的。
![](https://np-newspic.dfcfw.com/download/D25673030709880445516_w2193h1278.jpg)
图片源流:论文《s1: Simple test-time scaling》
疑问一:只花了50好意思元?
据报说念,李飞飞等斯坦福大学和华盛顿大学的商议东说念主员以不到50好意思元的用度,使用了16张英伟达H100 GPU,耗时26分钟就完成了模子s1-32B的试验。
参与该项指标斯坦福大学商议员尼克拉斯·穆宁霍夫(Niklas Muennighoff)更是默示,如今,只须约20好意思元就能租到所需的计算资源。
但是,对于试验本钱,有几点需要明确。
领先,模子s1-32B的打造并非是从零初始,而是基于现成的、预试验的模子(阿里通义千问Qwen2.5-32B-Instruct)进行监督微调。而微调一个模子和从零初始试验一个模子的本钱是无法等量王人不雅的。
其次,50好意思元是否包含了其他数据、设立、消融实验等用度,还要打一个问号。正如DeepSeek-V3不到600万好意思元的试验本钱,实践上也只包括了试验时的GPU算力用度。
郑骁庆向每经记者默示,“像DeepSeek大约访佛的公司,在寻找有用的整合惩办决策时,需要进行多数的前期商议与消融实验。”
而消融实验就意味着,前期是需要多数“烧钱”的。
AI数据公司Databricks商议员奥马尔·哈塔布(Omar Khattab)评价称,(李飞飞团队的)论文似乎是对于Qwen模子的某种发现。
![](https://np-newspic.dfcfw.com/download/D25178643586145099674_w1141h1277.jpg)
图片源流:X
谷歌DeepMind资深商议员Wenhu Chen相通默示,“真确神奇的是Qwen模子。咱们尝试过把基座模子换成其他模子,用相通的数据去试验,但最终并不可达到这样好的放手。”
也便是说,s1-32B是站在了“巨东说念主肩膀”上,且50好意思元的本钱也并莫得涵盖Qwen模子的试验用度。
疑问二:特出OpenAI的o1和DeepSeek-R1?
李飞飞团队发表的论文提到,字据Qwen2.5-32B-Instruct进行微调的s1-32B模子,在数学和编码智商测试中的露出,黄金投资与OpenAI的o1和DeepSeek的R1等顶端推理模子不相坎坷,在竞赛数常识题上的露出更是比o1-preview越过27%。
![](https://np-newspic.dfcfw.com/download/D24812782805389371103_w1685h815.jpg)
图片源流:论文《s1: Simple test-time scaling》
此外,商议放手浮现,s1-32B是样本效率最高的绽放数据推理模子,露出彰着优于其基座模子(Qwen2.5-32B-Instruct)以及OpenAI的推理模子o1-preview。
事实上,s1-32B只可在特定的测试集上特出o1-preview,且并莫得特出“满血版”o1和DeepSeek-R1。
![](https://np-newspic.dfcfw.com/download/D25583993918776241722_w1001h1134.jpg)
图片源流:论文《s1: Simple test-time scaling》
商议放手浮现,在AIME 2024和MATH 500两个测试王人集,s1-32B特出了o1-preview,但不管在哪个测试集,s1-32B都莫得特出“满血版”o1郑再版DeepSeek-R1。
“白菜价”模子的背后
测试时拓展:多动脑多查验
事实上,李飞飞团队论文的中枢也并不在于如何“卷”模子价钱,而是商议如何以最浅显的神气达成“测试时拓展”(test-time scaling)。
测试时膨大是一种在模子推理阶段通过多步推理来提高模子性能的时间。具体来说,商议团队通过预算强制,截止模子不错“念念考”多万古期或进行几许步操作。若是模子过早终端推理,系统会饱读动模子延迟念念考时间,确保其充分商量问题。这也就意味着,模子在推理时会进行屡次推理迭代,并逐渐优化推理放手,最毕生成高质地的谜底。
举例,当被问到“raspberry”中有几个“r”时,模子领先进行了初步推理,并得出了乌有的初步放手:有2个r。但推理流程并莫得就此终端,模子又再行进行推理,优化了前次回应的放手,输出了最终的谜底:3个r。
![](https://np-newspic.dfcfw.com/download/D25161855620178300314_w1056h766.jpg)
图片源流:论文《s1: Simple test-time scaling》
OpenAI的o1系列模子便是一个典型的例子,展现了测试时拓展在模子性能升迁上的后劲。
微软CEO萨提亚·纳德拉(Satya Nadella)曾默示,咱们正在见证一种新的范畴规定(Scaling Law)的出现——模子效率与测试时间或推理时间计算关系。
高质地数据集s1K:数据真金不怕火金术
此外,李飞飞商议团队还从16个源流收罗了59029说念高质地题目,包括数学竞赛问题、博士级别的科常识题、奥林匹克竞赛问题等,并通过三个法式进行考据:难度、种种性和质地。
通过过滤,商议团队最终取得了包含1000个样本的s1K数据集,数据集遮蔽几何、数论、量子力学等50个范畴,况兼每个问题都配有从Google Gemini 2.0 Flash Thinking Experimental行为“教师模子”蒸馏而来的的谜底和推理轨迹。
这个数据集的构建基于三个关节法式:难度、种种性和质地。
高质地的数据集,极大缩短了s1-32B模子的试验本钱。
复旦大学计算机学院副磨真金不怕火、博士生郑骁庆在罗致每经记者时默示,大范畴的数据可能不会成为下一步各人争夺的战场,其本钱和产出之间的比例在缓缓压缩,而高质地数据的微合并强化学习将来将会有更多的参加。