你的位置:杨幂 丝袜 > 银色网 > 偷拍 自拍 GPT-4.1淘汰了4.5!全系列百万险阻文,主打一个性价比

偷拍 自拍 GPT-4.1淘汰了4.5!全系列百万险阻文,主打一个性价比

发布日期:2025-04-15 23:24    点击次数:96

偷拍 自拍 GPT-4.1淘汰了4.5!全系列百万险阻文,主打一个性价比

鱼羊 发自 凹非寺偷拍 自拍

量子位 | 公众号 QbitAI

4.1与4.5孰大?OpenAI刚刚给出谜底:

发布GPT-4.1,比GPT-4.5强的那种。

新模子系列更新,一共带来三个版块:GPT-4.1,GPT-4.1 mini、GPT-4.1 nano——

与同样中杯大杯超大杯的建设不同,这回翻译过来,是中杯、小杯、超小杯。

OpenAI示意,4.1系列是API专供,不外诸君非迷惑者先别急哈,东谈主家也补充了,在ChatGPT里,4.1的才能将主要通过“融入最新版块的GPT-4o”体现。

才能方面,归来起来4.1系列纸面上最隆起的上风有两点:

长险阻文,3个型号均领有100万token险阻文窗口;

性价比,用里面老哥的说法即是:

目下你不错用4%的价钱,畅享GPT-4o模子品性。

OpenAI还示意,GPT-4.1系列会在API里取代GPT-4.5 Preview,后者将于本年(2025年)7月14日下架。

GPT-4.1:主打性价比

伸开来看,OpenAI合座上是把GPT-4.1和GPT-4o拿来对比的。

以蔓延为横轴,以智能为纵轴,不错看到,GPT-4.1比GPT-4o强了一丢丢,而4.1 mini则超出了4o mini一大截。

定量比拟的成果是,编码方面,GPT-4.1在预计真确寰宇软件工程手段的SWE-bench Verified上得分为54.6%,比GPT-4o的分数普及了21.4%,比GPT-4.5强了26.6%。

指示盲从方面,在MultiChallenge基准中,GPT-4.1得分38.3%,而GPT-4o的得分是27.8%。

长险阻文方面,在多模态长下文领略基准Video-MME上,GPT-4.1刷新SOTA,在长篇无字幕类别中得分72.0%,比GPT-4o高了6.7%。

值得醒想法是,GPT-4.1 mini在多项基准测试中极端了GPT-4o。

比如在智能评估基准MMLU上,GPT-4.1 mini的得分为87.5%,极端了GPT-4o的85.7%,同期蔓延裁汰一半,老本裁汰83%。

GPT-4.1 nano则被定位为OpenAI“目下速率最快、老本最低”的模子。况兼在部分测试中有超出GPT-4o mini的证实。

编码才能

OpenAI提神强调了GPT-4.1的编码才能。除了在各式编程任务上皆极端GPT-4o,OpenAI还演示了其在前端编程方面的骨子上风:

概况创立功能更深广、更好意思不雅的Web阁下。

东谈主类评分的成果显露,在80%的对比测试中,GPT-4.1的网站皆比GPT-4o的网站更受接待。

比如给出合并段请示词,GPT-4o生成的网站长这么:

而4.1的成果显豁更好意思不雅:

手快的网友则照旧搞出了公共更念念看的——小球测试。

BTW,OpenAI提到,GPT-4.1会在API里取代GPT-4.5,GPT-4.5 Preview将在3个月后(2025年7月14日)透彻关闭,但这位老哥示意:我照旧更可爱4.5啊啊啊。

不外,老哥也坦承:4.5虽好,但4.1确乎低廉太多啦(30倍价差)。

百万长险阻文

再来看一眼长险阻文方面,GPT-4.1的具体证实。

大海捞针推行中,濒临100万token险阻文检索,3个型号均能100%过关。

OpenAI还开源了一个新的评估平台OpenAI-MRCR,以测试模子检索和领略多条信息、并领略讯息之间相互关联的才能。也即是说更接近骨子阁下中,公共对长险阻文的真确需求。

成果如下:

还发布了一个用于评估多跳险阻文推理的数据集Graphwalks。所谓多跳,即在长险阻文中进行屡次逻辑向上,比如编写代码时在多个文献之间跳转。

在这个基准上,GPT-4.1与o1性能绝顶,简易打败了GPT-4o。

性价比仍不如DeepSeek R1

价钱方面,相干于自家贵得要命的模子,GPT-4.1系列无疑是低廉的。

尤其是对比要被替代的GPT-4.5 Preview,2刀/百万tokens vs 75刀/百万tokens,价钱属于大砍一刀只剩零头了。

但肃肃的网友们发现,照旧比不上DeepSeek R1:

△图源:x@bongrandpOne More Thing

以上,你认为GPT-4.1何如?

归正这个定名步地确乎是蛮值得吐槽的。

但没准儿,OpenAI的意旨酷好是…4.10>4.5?

至少奥特曼本尊有被劝服到(doge)。

他还自嘲了一波:

咱们能不行在今天夏天之前措置咱们的模子定名?在此之前每个东谈主皆不错再花几个月时期来取消咱们(咱们该死)。

参考蚁集:https://openai.com/index/gpt-4-1/

— 完 —

成人在线

量子位 QbitAI · 头条号

祥和咱们偷拍 自拍,第一时期获知前沿科技动态签约