找回密码
 立即注册
搜索
查看: 9656|回复: 44

[科技] Claude code思考深度暴跌67%

[复制链接]
发表于 2026-4-11 09:11 | 显示全部楼层 |阅读模式
AMD的senior director Stella Laurenzo证明自2月更新后Claude code出现明显降智。
https://github.com/anthropics/claude-code/issues/42796

-----------------------------
豆包总结
Stella Laurenzo(AMD AI 团队主管)已用数据证实 Claude Opus(Claude Code)出现明显 “降智”/ 性能退化。
一、核心证据(2026 年 4 月公开)
她在 GitHub 提交了一份基于 6852 次会话、17.8k 思考块、23.5 万次工具调用 的量化报告(1 月底 —4 月初):
思考深度暴跌 67%
1 月底:平均思考长度 ≈ 2200 字符
2 月下旬:≈ 720 字符(-67%)
3 月上旬:≈ 560 字符(-75%)

代码 “读改比” 断崖式下跌
以前:修改前平均读 6.6 次代码(全局理解)
3 月底:只读 2 次就改(不读上下文、直接重写)
“偷懒 / 摆烂” 行为暴增
3 月 8 日后:173 次提前终止任务、回避责任、敷衍输出
此前:0 次
时间线吻合
3 月 8 日:Anthropic 上线 redact-thinking(默认隐藏思考过程)
当天起:用户再也看不到模型在 “敷衍”

二、她的结论
Claude Code 已无法信任用于复杂工程任务,已从 “专家” 退化成 “应付差事的实习生”。

三、官方回应(Anthropic)
称只是隐藏思考(UI 层面),模型能力没变
社区与开发者普遍不认可:质量下降是可复现、可测量的事实

四、影响
大量企业 / 开发者弃用 Claude Code
API 成本因重试暴涨约 122 倍($345 → $42,000 / 月)
被称为 AI 领域典型的 “降本增效毁掉产品” 案例
回复

使用道具 举报

     
发表于 2026-4-11 09:12 | 显示全部楼层
最近太几把慢了,一点小事一直在那转圈
回复

使用道具 举报

发表于 2026-4-11 09:16 | 显示全部楼层
我最近两周买的claude 我说这东西怎么好意思说比codex更好的。现在发现原来是被过度降智了
回复

使用道具 举报

发表于 2026-4-11 09:18 来自手机 | 显示全部楼层
“大量企业 / 开发者弃用 Claude Code”

这又是哪个ai编的

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

 楼主| 发表于 2026-4-11 09:20 | 显示全部楼层
魔神赵日天 发表于 2026-4-11 09:18
“大量企业 / 开发者弃用 Claude Code”

这又是哪个ai编的

写了啊,豆包。
回复

使用道具 举报

     
发表于 2026-4-11 09:24 | 显示全部楼层
以后AI发展就是要到了拼内力拼血条的阶段了




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

发表于 2026-4-11 09:34 | 显示全部楼层
ppntint 发表于 2026-4-11 09:24
以后AI发展就是要到了拼内力拼血条的阶段了

占了将近三分之一,图给你画个四分之一

评分

参与人数 6战斗力 +6 收起 理由
曼彻斯特联 + 1 29比32还大,难绷
liujx0173 + 1 好评加鹅
ymm1030 + 1 好评加鹅
秦南心 + 1 瞎说什么大实话
外挂全家脚气 + 1 总数30853,中国10073基本就是三分之一了.
烦死了 + 1 难崩

查看全部评分

回复

使用道具 举报

     
发表于 2026-4-11 09:38 来自手机 | 显示全部楼层
上个礼拜给我修bug还会偷鸡摸狗改baseline来跟我说修好了也是逆天

—— 来自 OPPO PKU110, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-4-11 09:39 | 显示全部楼层
是降智了,这周跑open spec ff,次次偷懒提前终止

论坛助手,iPhone
回复

使用道具 举报

     
发表于 2026-4-11 09:40 | 显示全部楼层
个人降智是真的,但企业不一定。a畜现在tob 企业了
回复

使用道具 举报

     
发表于 2026-4-11 09:40 | 显示全部楼层
前天就连生成测试代码都各种漏参数,明明文档都写好了    Re:Source
回复

使用道具 举报

发表于 2026-4-11 09:43 | 显示全部楼层
个人版的5小时限额随便就用完了
但是公司里github copilot的opus4.6还是正常的

论坛助手,iPhone
回复

使用道具 举报

 楼主| 发表于 2026-4-11 09:43 来自手机 | 显示全部楼层
malisa 发表于 2026-4-11 09:40
个人降智是真的,但企业不一定。a畜现在tob 企业了

这就是AMD的人测的。

—— 来自 HUAWEI VYG-AL30, Android 12, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-4-11 09:45 来自手机 | 显示全部楼层
codex还不错的,就是改计费后额度下得飞快,也是难顶
回复

使用道具 举报

发表于 2026-4-11 10:20 来自手机 | 显示全部楼层
璇瑢子R 发表于 2026-4-11 09:43
个人版的5小时限额随便就用完了
但是公司里github copilot的opus4.6还是正常的

github是自己的harness是走的API,这个主要是Claude的harness给调低了思考深度
回复

使用道具 举报

头像被屏蔽
发表于 2026-4-11 10:29 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2026-4-11 10:32 | 显示全部楼层
朋友 发表于 2026-4-11 10:20
github是自己的harness是走的API,这个主要是Claude的harness给调低了思考深度

所以只剩下GitHub还算正经不耍猴?
回复

使用道具 举报

     
发表于 2026-4-11 10:35 | 显示全部楼层
人大不了开掉,ai降智怎么办呢
回复

使用道具 举报

     
发表于 2026-4-11 11:05 来自手机 | 显示全部楼层
本帖最后由 星花 于 2026-4-11 11:06 编辑

开源可破。企业自建ai才是未来。
回复

使用道具 举报

发表于 2026-4-11 11:10 | 显示全部楼层
用claude多打几个thank you会帮助消耗美国的电力吗
回复

使用道具 举报

     
发表于 2026-4-11 11:16 来自手机 | 显示全部楼层
ppntint 发表于 2026-4-11 09:24
以后AI发展就是要到了拼内力拼血条的阶段了

这神图,32%的看着比29%还小

—— 来自 Xiaomi 22081212C, Android 15上的 S1Next-鹅版 v2.1.2
回复

使用道具 举报

     
发表于 2026-4-11 11:44 来自手机 | 显示全部楼层
可恶,究竟什么时候才能本地爽搭大模型,这些狗逼公司收了钱就降智降使用数,还没有啥法律治一下这群狗逼

—— 来自 vivo V2405A, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

发表于 2026-4-11 12:00 | 显示全部楼层
realismsy 发表于 2026-4-11 09:16
我最近两周买的claude 我说这东西怎么好意思说比codex更好的。现在发现原来是被过度降智了 ...

我还是一直用codex算了···
回复

使用道具 举报

     
发表于 2026-4-11 12:06 | 显示全部楼层
卖算力的公司算力紧张的时候就后台偷偷改参数呗。前期的神力靠赔本赚吆喝
回复

使用道具 举报

     
发表于 2026-4-11 13:45 | 显示全部楼层
有谁用过mythos?有没有他吹的那么牛逼
回复

使用道具 举报

     
发表于 2026-4-11 13:49 来自手机 | 显示全部楼层
Ganzkiller 发表于 2026-4-11 09:45
codex还不错的,就是改计费后额度下得飞快,也是难顶

我说呢,这几天没改几个就哗哗往下掉

—— 来自 samsung SM-F9460, Android 16, 鹅球 v3.5.99-alpha
回复

使用道具 举报

     
发表于 2026-4-11 13:59 来自手机 | 显示全部楼层
西蜀笑笑生 发表于 2026-4-11 09:34
占了将近三分之一,图给你画个四分之一

目测是个锐角,1/4都不到
回复

使用道具 举报

     
发表于 2026-4-11 14:30 来自手机 | 显示全部楼层
学会偷懒明明是智力提升的表现啊
回复

使用道具 举报

发表于 2026-4-11 15:00 来自手机 | 显示全部楼层
Jet.Black 发表于 2026-4-11 10:32
所以只剩下GitHub还算正经不耍猴?

也不一定,我们这一周左右开始觉得他家API也开始脑残了,可能是4.7要出了
回复

使用道具 举报

     
发表于 2026-4-11 15:07 来自手机 | 显示全部楼层
ppntint 发表于 2026-4-11 09:24
以后AI发展就是要到了拼内力拼血条的阶段了

这图我们是不是小了点,按32.65%算的话不是应该占接近三分之一圆吗?

—— 来自 HONOR AAK-AN00, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-4-11 15:15 | 显示全部楼层
goranger 发表于 2026-4-11 12:06
卖算力的公司算力紧张的时候就后台偷偷改参数呗。前期的神力靠赔本赚吆喝 ...

这跟集采药用合格辅材过审批,再后续批次中降辅材质量有什么区别
回复

使用道具 举报

发表于 2026-4-11 16:17 | 显示全部楼层
我是it这个领域的,我一直觉得it界很多事情是应该严管的, 比如这种偷偷降智的,敝司也有就不说了,还有比如什么搜索旅游一次再搜就涨价的,摇一摇就莫名其妙弹广告的,这些都需要有政府去管的,本质是欺负消费者行为
回复

使用道具 举报

     
发表于 2026-4-11 17:42 | 显示全部楼层
claude max会员,网页版已经回答不正确洗车问题了
回复

使用道具 举报

     
发表于 2026-4-11 17:50 | 显示全部楼层
闭源模型就像外置牛子,硬不硬你说了不算

回复

使用道具 举报

头像被屏蔽
发表于 2026-4-11 17:51 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2026-4-11 19:03 来自手机 | 显示全部楼层
ppntint 发表于 2026-4-11 09:24
以后AI发展就是要到了拼内力拼血条的阶段了

其他所有国家太厉害了!
回复

使用道具 举报

发表于 2026-4-11 19:10 | 显示全部楼层
牙膏倒吸然后下一代产品改变世界
回复

使用道具 举报

     
发表于 2026-4-11 19:15 来自手机 | 显示全部楼层
ppntint 发表于 2026-4-11 09:24
以后AI发展就是要到了拼内力拼血条的阶段了

这个其他国家有点实力啊

—— 来自 HUAWEI SGU-AL10, Android 12, 鹅球 v3.5.99
回复

使用道具 举报

发表于 2026-4-11 20:44 | 显示全部楼层
ppntint 发表于 2026-4-11 09:24
以后AI发展就是要到了拼内力拼血条的阶段了

第一的中国三分之一,2到10名三分之一,其他所有国家三分之一
回复

使用道具 举报

     
发表于 2026-4-11 21:09 | 显示全部楼层
怪不得企业一直要想办法干掉老员工
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2026-6-24 23:45 , Processed in 0.295547 second(s), 10 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表