发布日期:2025-04-15 23:24 点击次数:96 |
鱼羊 发自 凹非寺偷拍 自拍
量子位 | 公众号 QbitAI
4.1与4.5孰大?OpenAI刚刚给出谜底:
发布GPT-4.1,比GPT-4.5强的那种。
新模子系列更新,一共带来三个版块:GPT-4.1,GPT-4.1 mini、GPT-4.1 nano——
与同样中杯大杯超大杯的建设不同,这回翻译过来,是中杯、小杯、超小杯。
OpenAI示意,4.1系列是API专供,不外诸君非迷惑者先别急哈,东谈主家也补充了,在ChatGPT里,4.1的才能将主要通过“融入最新版块的GPT-4o”体现。
才能方面,归来起来4.1系列纸面上最隆起的上风有两点:
长险阻文,3个型号均领有100万token险阻文窗口;
性价比,用里面老哥的说法即是:
目下你不错用4%的价钱,畅享GPT-4o模子品性。
OpenAI还示意,GPT-4.1系列会在API里取代GPT-4.5 Preview,后者将于本年(2025年)7月14日下架。
GPT-4.1:主打性价比伸开来看,OpenAI合座上是把GPT-4.1和GPT-4o拿来对比的。
以蔓延为横轴,以智能为纵轴,不错看到,GPT-4.1比GPT-4o强了一丢丢,而4.1 mini则超出了4o mini一大截。
定量比拟的成果是,编码方面,GPT-4.1在预计真确寰宇软件工程手段的SWE-bench Verified上得分为54.6%,比GPT-4o的分数普及了21.4%,比GPT-4.5强了26.6%。
指示盲从方面,在MultiChallenge基准中,GPT-4.1得分38.3%,而GPT-4o的得分是27.8%。
长险阻文方面,在多模态长下文领略基准Video-MME上,GPT-4.1刷新SOTA,在长篇无字幕类别中得分72.0%,比GPT-4o高了6.7%。
值得醒想法是,GPT-4.1 mini在多项基准测试中极端了GPT-4o。
比如在智能评估基准MMLU上,GPT-4.1 mini的得分为87.5%,极端了GPT-4o的85.7%,同期蔓延裁汰一半,老本裁汰83%。
GPT-4.1 nano则被定位为OpenAI“目下速率最快、老本最低”的模子。况兼在部分测试中有超出GPT-4o mini的证实。
编码才能OpenAI提神强调了GPT-4.1的编码才能。除了在各式编程任务上皆极端GPT-4o,OpenAI还演示了其在前端编程方面的骨子上风:
概况创立功能更深广、更好意思不雅的Web阁下。
东谈主类评分的成果显露,在80%的对比测试中,GPT-4.1的网站皆比GPT-4o的网站更受接待。
比如给出合并段请示词,GPT-4o生成的网站长这么:
而4.1的成果显豁更好意思不雅:
手快的网友则照旧搞出了公共更念念看的——小球测试。
BTW,OpenAI提到,GPT-4.1会在API里取代GPT-4.5,GPT-4.5 Preview将在3个月后(2025年7月14日)透彻关闭,但这位老哥示意:我照旧更可爱4.5啊啊啊。
不外,老哥也坦承:4.5虽好,但4.1确乎低廉太多啦(30倍价差)。
百万长险阻文
再来看一眼长险阻文方面,GPT-4.1的具体证实。
大海捞针推行中,濒临100万token险阻文检索,3个型号均能100%过关。
OpenAI还开源了一个新的评估平台OpenAI-MRCR,以测试模子检索和领略多条信息、并领略讯息之间相互关联的才能。也即是说更接近骨子阁下中,公共对长险阻文的真确需求。
成果如下:
还发布了一个用于评估多跳险阻文推理的数据集Graphwalks。所谓多跳,即在长险阻文中进行屡次逻辑向上,比如编写代码时在多个文献之间跳转。
在这个基准上,GPT-4.1与o1性能绝顶,简易打败了GPT-4o。
性价比仍不如DeepSeek R1
价钱方面,相干于自家贵得要命的模子,GPT-4.1系列无疑是低廉的。
尤其是对比要被替代的GPT-4.5 Preview,2刀/百万tokens vs 75刀/百万tokens,价钱属于大砍一刀只剩零头了。
但肃肃的网友们发现,照旧比不上DeepSeek R1:
△图源:x@bongrandpOne More Thing
以上,你认为GPT-4.1何如?
归正这个定名步地确乎是蛮值得吐槽的。
但没准儿,OpenAI的意旨酷好是…4.10>4.5?
至少奥特曼本尊有被劝服到(doge)。
他还自嘲了一波:
咱们能不行在今天夏天之前措置咱们的模子定名?在此之前每个东谈主皆不错再花几个月时期来取消咱们(咱们该死)。
参考蚁集:https://openai.com/index/gpt-4-1/
— 完 —
成人在线量子位 QbitAI · 头条号
祥和咱们偷拍 自拍,第一时期获知前沿科技动态签约