找回密码
 立即注册
搜索
查看: 3804|回复: 31

[科技] Claude Opus 4.1代码实测惊人!OpenAI开源模型却只会写屎山?

[复制链接]
发表于 2025-8-6 17:27 | 显示全部楼层 |阅读模式
AI界的「赤壁之战」!OpenAI开源惨遭谷歌、Anthropic新模型狙击。最绝的是,Anthropic卡点发布Claude Opus 4.1,代码甩OpenAI新模型几条街。
昨日,OpenAI、谷歌和Anthropic等发布了不同的新模型:
谷歌推出「G」字号第三代世界模型Genie 3,号称「宇宙模拟器」,视频生成更加符合物理定律。

Anthropic正式推出Claude Opus 4.1,在智能体任务、现实世界编程和逻辑推理三大核心领域全面升级了Claude Opus 4。

OpenAI再次Open,兑现了开源承诺,放出了OpenAI-OSS系列模型,手机、电脑本地可跑。

Anthropic称Claude Opus 4.1提升了编码性能,同时在深度研究和数据分析能力上实现突破,特别强化了细节追踪和智能体搜索功能。

至于,Anthropic为什么对如此小的改进还要发布?还在OpenAI官宣「再次开源」几分钟前?我说就是巧了,Anthropic和OpenAI这是巧了,这是Anthropic在欢迎OpenAI「回归初心」,你信吗?

Palantir兼Cloudflare前员工、剑桥CS毕业生表示,2%性能提升对大部分人而言无足轻重,改天发布更有意义,这样就不会被OpenAI的新模型盖过风头。

即便如此,论写代码Claude模型是真的强。Anthropic拉上大客户表示:Claude Opus 4.1实现全方位能力跃升。GitHub表示,Claude Opus 4.1相比Opus 4在多项功能上都有进步,尤其是在处理多文件代码重构时表现更为出色。

Rakuten Group发现,Opus 4.1能够在庞大的代码库中精准识别需要修改的部分,避免不必要的更动,也不会引入新的 Bug。他们的开发团队在日常调试中非常看重这种高精度的表现。

Windsurf也报告称,在他们用于评估初级开发者能力的基准测试中,Opus 4.1的表现比Opus 4提升了约一个标准差,这一提升幅度大致等同于从Sonnet 3.7升级到Sonnet 4时的进步。

KCORES 联合创始人「karminski-牙医」测试了OpenAI和Anthropic新模型写代码能力,结果OpenAI新模型写代码不太行。

「karminski-牙医」测试了4款模型:OpenAI-OSS-120B  OpenAI-OSS-20B  Claude-Opus-4.1  Gemini-2.5-pro (Opus的主要对手)

这次快速测试结论如下:Claude-Opus-4.1 > Gemini-2.5-pro > OpenAI-OSS-20B >? (存疑) OpenAI-OSS-120B每个模型各运行至少6次, 取最好结果给大家展示。

从测试结果看Claude-Opus-4.1出乎意料的稳,对空间理解远超任何模型。

OSS-120B随机性非常大, 在这个测试里面OSS-120B甚至采样了8次, 还没有OSS-20B效果好.可能原因是120B每次激活专家量很少,而总专家数量又多,导致每token随机到相同专家的概率会特别小,进而表现不是那么稳定。

而20B则好一些,4/128 VS 4/32专家。

总之,OpenAI-OSS-120B用起来要谨慎,写代码特别不稳定。OpenAI-OSS-20B在这个参数量大小下反而挺好。

最后,他提醒大家AI写代码需谨慎:不要用不太行的模型写代码,只会浪费时间去调试并且积累屎山。

奥特曼又拉了一坨大的

论坛助手,iPhone
回复

使用道具 举报

     
发表于 2025-8-6 17:30 | 显示全部楼层
上次用OAI的4.1,给我写了一堆空接口,还煞有介事的写TBD
回复

使用道具 举报

     
发表于 2025-8-6 17:34 | 显示全部楼层
Claude 就是太贵了
回复

使用道具 举报

     
发表于 2025-8-6 17:43 | 显示全部楼层
才3B激活就别太严厉了. 整体也才100B. 这次尺寸已经很惊喜了. 我还以为是Grok1那种TMD谁跑的动啊, 然后就算能跑一看BYD还不如小尺寸SOTA模型. 两块魔改4090或者A100 H100 H20也就装下了. QWen则是30BA3B/200BA30B. 一个太小, 怀疑内部知识量, 另一个太大. 载入和微调都是问题.
以后大概会有一大堆模型基于这个微调而来吧.
回复

使用道具 举报

头像被屏蔽
     
发表于 2025-8-6 17:47 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2025-8-6 17:58 | 显示全部楼层
以后oss-20B当个客服或者小爱还是行的的,速度快是优势
回复

使用道具 举报

发表于 2025-8-6 17:58 来自手机 | 显示全部楼层
泰坦失足 发表于 2025-8-6 17:43
才3B激活就别太严厉了. 整体也才100B. 这次尺寸已经很惊喜了. 我还以为是Grok1那种TMD谁跑的动啊, 然后就算 ...

没别的公司发模型可能还行,现在有glm4.5-air,109B,混合推理,强力的编程和tool use能力。而且没有像这坨玩意一样"""safety"""做的那么过分。


—— 来自 鹅球 v3.4.97
回复

使用道具 举报

     
发表于 2025-8-6 18:00 | 显示全部楼层
https://github.com/vllm-project/vllm/issues
同样都是提前和VLLM合作, 发布日直接提供vllm支持, Qwen按照文档说明部署好就能用, OpenAI的直接一堆Issues. 不管了, 等Vllm更新吧.
回复

使用道具 举报

头像被屏蔽
发表于 2025-8-6 18:01 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2025-8-6 18:09 | 显示全部楼层
奥特曼自从把openai打包卖微软的生意被马圣搅黄了之后,就剩下画饼,能挨一天是一天
回复

使用道具 举报

     
发表于 2025-8-6 18:21 | 显示全部楼层
感觉榜单真的图一乐,榜单上分数都差不多,实测下来 Claude基本效果碾压其他家

论坛助手,iPhone
回复

使用道具 举报

     
发表于 2025-8-6 18:27 | 显示全部楼层
现在能免费 使用的,我自己感觉gemini2.5pro最佳,坛友还有推荐的吗

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2025-8-6 18:50 来自手机 | 显示全部楼层
cursor也是屎山,手欠的要死

—— 来自 nubia NX712J, Android 14上的 S1Next-鹅版 v2.5.2
回复

使用道具 举报

     
发表于 2025-8-6 18:55 | 显示全部楼层
一月200刀啊,有没有用过的说说值不值得升,我现在用的20刀的pro版
回复

使用道具 举报

     
发表于 2025-8-6 19:04 | 显示全部楼层
看了一圈

simpleQA  
成功率  20B是0.06,120B是0.17
幻觉率  20B是0.91,120B是0.76

自带鱿鱼政确基因,不能NSFW,moderate发动率极高

默认上下文16k,开到128K的话20B显存也要吃20多个G

要不是openai出怕不真就是路边一条
回复

使用道具 举报

头像被屏蔽
     
发表于 2025-8-6 20:07 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2025-8-7 07:57 | 显示全部楼层
试了下4.1
没有感觉明显的代码质量提升
但是api燃烧速度很明显感觉到了
还是4.0了

回复

使用道具 举报

     
发表于 2025-8-7 09:14 | 显示全部楼层
现在开源的哪家代码能力强?
回复

使用道具 举报

     
发表于 2025-8-7 17:58 | 显示全部楼层
用不成claude,只能用gemini,感觉gemini2.5pro也还不错了
不晓得claude比gemini强多少
回复

使用道具 举报

头像被屏蔽
     
发表于 2025-8-7 18:06 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2025-8-7 18:07 | 显示全部楼层
julia黑 发表于 2025-8-6 18:55
一月200刀啊,有没有用过的说说值不值得升,我现在用的20刀的pro版

我用的 100 刀版本,干活角度来讲非常值

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2025-8-7 18:33 来自手机 | 显示全部楼层
github copilot,opus消耗是sonnet的十倍还不支持agent(估计这个消耗也没法用agent)。gemini2.5pro的agent模式就没成功过

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-8-7 18:49 来自手机 | 显示全部楼层
明天凌晨发GPT5,早上起来看看
回复

使用道具 举报

     
发表于 2025-8-7 18:50 | 显示全部楼层
那么哪里可以免费用呢
回复

使用道具 举报

     
发表于 2025-8-7 18:59 来自手机 | 显示全部楼层
=w= 发表于 2025-8-7 18:50
那么哪里可以免费用呢

今年以来光cursor和copilot就给anthropic支付了差不多14亿美元,然后即使如此也有不少人舍不得用4op只舍得用sonnet的

程序员愿意洒钞票的工具不太可能给免费渠道(非要说的话gcp绑信用卡送300刀能用claude
回复

使用道具 举报

     
发表于 2025-8-7 19:04 | 显示全部楼层
狭义文具爱好者 发表于 2025-8-7 18:59
今年以来光cursor和copilot就给anthropic支付了差不多14亿美元,然后即使如此也有不少人舍不得用4op只舍 ...

原来gcp也能开这个?就怕300试用金根本用不了多久
回复

使用道具 举报

头像被屏蔽
     
发表于 2025-8-8 09:55 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2025-8-8 10:03 | 显示全部楼层
windrarara 发表于 2025-8-8 09:55
gemini2.5pro能免费?不是只能试用一个月吗

有教育账号和印度学生账号啥的,可以领PRO会员一年到15个月
回复

使用道具 举报

     
发表于 2025-8-8 10:03 | 显示全部楼层
windrarara 发表于 2025-8-8 09:55
gemini2.5pro能免费?不是只能试用一个月吗

Gemini CLI Google 账号就能用,就是每天限额
回复

使用道具 举报

     
发表于 2025-8-8 16:43 | 显示全部楼层
windrarara 发表于 2025-8-8 09:55
gemini2.5pro能免费?不是只能试用一个月吗

去Google AI studio
回复

使用道具 举报

     
发表于 2025-8-8 17:06 | 显示全部楼层
前段时间看别的楼里兄弟的推荐,用augment code50刀版本小试了一下。确实非常强,难怪敢要最低50刀一个月。
以前CURSOR手欠、不听话、乱发散的毛病被调教的很好。而且极大增加了一次修改成功率,极少极少出现编译错误,以前都要来回编译几次,这次换了之后基本上都是第一次就是完善的代码了。

以后如果不想CURSOR一样干掉中国大陆用户,我就一直用它了
回复

使用道具 举报

     
发表于 2025-8-8 17:16 | 显示全部楼层
今天在cursor试了试 gpt5,

从结果目前看, 代码工作还是 claude 4  和 gemini 2.5pro , OpenAI的都差强人意
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2026-6-25 01:48 , Processed in 0.170898 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表