Claude Opus 4.1代码实测惊人！OpenAI开源模型却只会写屎山?

i0ncube_R · 发表于 2025-8-6 17:27

AI界的「赤壁之战」！OpenAI开源惨遭谷歌、Anthropic新模型狙击。最绝的是，Anthropic卡点发布Claude Opus 4.1，代码甩OpenAI新模型几条街。
昨日，OpenAI、谷歌和Anthropic等发布了不同的新模型：
谷歌推出「G」字号第三代世界模型Genie 3，号称「宇宙模拟器」，视频生成更加符合物理定律。

Anthropic正式推出Claude Opus 4.1，在智能体任务、现实世界编程和逻辑推理三大核心领域全面升级了Claude Opus 4。

OpenAI再次Open，兑现了开源承诺，放出了OpenAI-OSS系列模型，手机、电脑本地可跑。

Anthropic称Claude Opus 4.1提升了编码性能，同时在深度研究和数据分析能力上实现突破，特别强化了细节追踪和智能体搜索功能。

至于，Anthropic为什么对如此小的改进还要发布？还在OpenAI官宣「再次开源」几分钟前？我说就是巧了，Anthropic和OpenAI这是巧了，这是Anthropic在欢迎OpenAI「回归初心」，你信吗？

Palantir兼Cloudflare前员工、剑桥CS毕业生表示，2%性能提升对大部分人而言无足轻重，改天发布更有意义，这样就不会被OpenAI的新模型盖过风头。

即便如此，论写代码Claude模型是真的强。Anthropic拉上大客户表示：Claude Opus 4.1实现全方位能力跃升。GitHub表示，Claude Opus 4.1相比Opus 4在多项功能上都有进步，尤其是在处理多文件代码重构时表现更为出色。

Rakuten Group发现，Opus 4.1能够在庞大的代码库中精准识别需要修改的部分，避免不必要的更动，也不会引入新的 Bug。他们的开发团队在日常调试中非常看重这种高精度的表现。

Windsurf也报告称，在他们用于评估初级开发者能力的基准测试中，Opus 4.1的表现比Opus 4提升了约一个标准差，这一提升幅度大致等同于从Sonnet 3.7升级到Sonnet 4时的进步。

KCORES 联合创始人「karminski-牙医」测试了OpenAI和Anthropic新模型写代码能力，结果OpenAI新模型写代码不太行。

「karminski-牙医」测试了4款模型:OpenAI-OSS-120B OpenAI-OSS-20B Claude-Opus-4.1 Gemini-2.5-pro (Opus的主要对手)

这次快速测试结论如下:Claude-Opus-4.1 > Gemini-2.5-pro > OpenAI-OSS-20B >? (存疑) OpenAI-OSS-120B每个模型各运行至少6次, 取最好结果给大家展示。

从测试结果看Claude-Opus-4.1出乎意料的稳，对空间理解远超任何模型。

OSS-120B随机性非常大, 在这个测试里面OSS-120B甚至采样了8次, 还没有OSS-20B效果好.可能原因是120B每次激活专家量很少，而总专家数量又多，导致每token随机到相同专家的概率会特别小，进而表现不是那么稳定。

而20B则好一些，4/128 VS 4/32专家。

总之，OpenAI-OSS-120B用起来要谨慎，写代码特别不稳定。OpenAI-OSS-20B在这个参数量大小下反而挺好。

最后，他提醒大家AI写代码需谨慎：不要用不太行的模型写代码，只会浪费时间去调试并且积累屎山。

奥特曼又拉了一坨大的

论坛助手,iPhone

革萌 · 发表于 2025-8-6 17:30

上次用OAI的4.1，给我写了一堆空接口，还煞有介事的写TBD

zypyong · 发表于 2025-8-6 17:34

Claude 就是太贵了

泰坦失足 · 发表于 2025-8-6 17:43

才3B激活就别太严厉了. 整体也才100B. 这次尺寸已经很惊喜了. 我还以为是Grok1那种TMD谁跑的动啊, 然后就算能跑一看BYD还不如小尺寸SOTA模型. 两块魔改4090或者A100 H100 H20也就装下了. QWen则是30BA3B/200BA30B. 一个太小, 怀疑内部知识量, 另一个太大. 载入和微调都是问题.
以后大概会有一大堆模型基于这个微调而来吧.

super_uni · 发表于 2025-8-6 17:47

提示: 作者被禁止或删除内容自动屏蔽

バーチャルS1er · 发表于 2025-8-6 17:58

以后oss-20B当个客服或者小爱还是行的的，速度快是优势

overflowal · 发表于 2025-8-6 17:58

泰坦失足发表于 2025-8-6 17:43
才3B激活就别太严厉了. 整体也才100B. 这次尺寸已经很惊喜了. 我还以为是Grok1那种TMD谁跑的动啊, 然后就算 ...

没别的公司发模型可能还行，现在有glm4.5-air，109B，混合推理，强力的编程和tool use能力。而且没有像这坨玩意一样"""safety"""做的那么过分。

—— 来自鹅球 v3.4.97

泰坦失足 · 发表于 2025-8-6 18:00

https://github.com/vllm-project/vllm/issues
同样都是提前和VLLM合作, 发布日直接提供vllm支持, Qwen按照文档说明部署好就能用, OpenAI的直接一堆Issues. 不管了, 等Vllm更新吧.

yesandno · 发表于 2025-8-6 18:01

提示: 作者被禁止或删除内容自动屏蔽

2017.05.04 · 发表于 2025-8-6 18:09

奥特曼自从把openai打包卖微软的生意被马圣搅黄了之后，就剩下画饼，能挨一天是一天

Wqr_ · 发表于 2025-8-6 18:21

感觉榜单真的图一乐，榜单上分数都差不多，实测下来 Claude基本效果碾压其他家

论坛助手,iPhone

明天不再有牛奶 · 发表于 2025-8-6 18:27

现在能免费使用的，我自己感觉gemini2.5pro最佳，坛友还有推荐的吗

—— 来自 S1Fun

陶矢 · 发表于 2025-8-6 18:50

cursor也是屎山，手欠的要死

—— 来自 nubia NX712J, Android 14上的 S1Next-鹅版 v2.5.2

julia黑 · 发表于 2025-8-6 18:55

一月200刀啊，有没有用过的说说值不值得升，我现在用的20刀的pro版

jojog · 发表于 2025-8-6 19:04

看了一圈

simpleQA
成功率  20B是0.06，120B是0.17
幻觉率  20B是0.91，120B是0.76

自带鱿鱼政确基因，不能NSFW，moderate发动率极高

默认上下文16k，开到128K的话20B显存也要吃20多个G

要不是openai出怕不真就是路边一条

万恶淫猥手 · 发表于 2025-8-6 20:07

提示: 作者被禁止或删除内容自动屏蔽

Awanano · 发表于 2025-8-7 07:57

试了下4.1
没有感觉明显的代码质量提升
但是api燃烧速度很明显感觉到了
还是4.0了

炽十二翼 · 发表于 2025-8-7 09:14

现在开源的哪家代码能力强？

kraxia · 发表于 2025-8-7 17:58

用不成claude，只能用gemini，感觉gemini2.5pro也还不错了
不晓得claude比gemini强多少

windrarara · 发表于 2025-8-7 18:06

提示: 作者被禁止或删除内容自动屏蔽

Rainwedell · 发表于 2025-8-7 18:07

julia黑发表于 2025-8-6 18:55
一月200刀啊，有没有用过的说说值不值得升，我现在用的20刀的pro版

我用的 100 刀版本，干活角度来讲非常值

—— 来自 S1Fun

wuuuuuud · 发表于 2025-8-7 18:33

github copilot，opus消耗是sonnet的十倍还不支持agent（估计这个消耗也没法用agent）。gemini2.5pro的agent模式就没成功过

—— 来自鹅球 v3.3.96-alpha

Fuero · 发表于 2025-8-7 18:49

明天凌晨发GPT5，早上起来看看

=w= · 发表于 2025-8-7 18:50

那么哪里可以免费用呢

狭义文具爱好者 · 发表于 2025-8-7 18:59

=w= 发表于 2025-8-7 18:50
那么哪里可以免费用呢

今年以来光cursor和copilot就给anthropic支付了差不多14亿美元，然后即使如此也有不少人舍不得用4op只舍得用sonnet的

程序员愿意洒钞票的工具不太可能给免费渠道（非要说的话gcp绑信用卡送300刀能用claude

=w= · 发表于 2025-8-7 19:04

狭义文具爱好者发表于 2025-8-7 18:59
今年以来光cursor和copilot就给anthropic支付了差不多14亿美元，然后即使如此也有不少人舍不得用4op只舍 ...

原来gcp也能开这个？就怕300试用金根本用不了多久

windrarara · 发表于 2025-8-8 09:55

提示: 作者被禁止或删除内容自动屏蔽

Lorraine_Kinney · 发表于 2025-8-8 10:03

windrarara 发表于 2025-8-8 09:55
gemini2.5pro能免费？不是只能试用一个月吗

有教育账号和印度学生账号啥的，可以领PRO会员一年到15个月

moekyo · 发表于 2025-8-8 10:03

windrarara 发表于 2025-8-8 09:55
gemini2.5pro能免费？不是只能试用一个月吗

Gemini CLI Google 账号就能用，就是每天限额

Novien · 发表于 2025-8-8 16:43

windrarara 发表于 2025-8-8 09:55
gemini2.5pro能免费？不是只能试用一个月吗

去Google AI studio

ytrfegd · 发表于 2025-8-8 17:06

前段时间看别的楼里兄弟的推荐，用augment code50刀版本小试了一下。确实非常强，难怪敢要最低50刀一个月。
以前CURSOR手欠、不听话、乱发散的毛病被调教的很好。而且极大增加了一次修改成功率，极少极少出现编译错误，以前都要来回编译几次，这次换了之后基本上都是第一次就是完善的代码了。

以后如果不想CURSOR一样干掉中国大陆用户，我就一直用它了

松岡茉優 · 发表于 2025-8-8 17:16

今天在cursor试了试 gpt5，

从结果目前看，代码工作还是 claude 4 和 gemini 2.5pro ， OpenAI的都差强人意

		自动登录	找回密码
密码			立即注册

super_uni super_uni 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2021-10-1 头像被屏蔽	发表于 2025-8-6 17:47 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

yesandno yesandno 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2025-6-14 头像被屏蔽	发表于 2025-8-6 18:01 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

万恶淫猥手万恶淫猥手当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2011-6-9 头像被屏蔽	发表于 2025-8-6 20:07 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

windrarara windrarara 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2013-1-25 头像被屏蔽	发表于 2025-8-7 18:06 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

windrarara windrarara 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2013-1-25 头像被屏蔽	发表于 2025-8-8 09:55 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

[科技] Claude Opus 4.1代码实测惊人！OpenAI开源模型却只会写屎山?