Claude code思考深度暴跌67%
AMD的senior director Stella Laurenzo证明自2月更新后Claude code出现明显降智。https://github.com/anthropics/claude-code/issues/42796
-----------------------------
豆包总结
Stella Laurenzo(AMD AI 团队主管)已用数据证实 Claude Opus(Claude Code)出现明显 “降智”/ 性能退化。
一、核心证据(2026 年 4 月公开)
她在 GitHub 提交了一份基于 6852 次会话、17.8k 思考块、23.5 万次工具调用 的量化报告(1 月底 —4 月初):
思考深度暴跌 67%
1 月底:平均思考长度 ≈ 2200 字符
2 月下旬:≈ 720 字符(-67%)
3 月上旬:≈ 560 字符(-75%)
代码 “读改比” 断崖式下跌
以前:修改前平均读 6.6 次代码(全局理解)
3 月底:只读 2 次就改(不读上下文、直接重写)
“偷懒 / 摆烂” 行为暴增
3 月 8 日后:173 次提前终止任务、回避责任、敷衍输出
此前:0 次
时间线吻合
3 月 8 日:Anthropic 上线 redact-thinking(默认隐藏思考过程)
当天起:用户再也看不到模型在 “敷衍”
二、她的结论
Claude Code 已无法信任用于复杂工程任务,已从 “专家” 退化成 “应付差事的实习生”。
三、官方回应(Anthropic)
称只是隐藏思考(UI 层面),模型能力没变
社区与开发者普遍不认可:质量下降是可复现、可测量的事实
四、影响
大量企业 / 开发者弃用 Claude Code
API 成本因重试暴涨约 122 倍($345 → $42,000 / 月)
被称为 AI 领域典型的 “降本增效毁掉产品” 案例 最近太几把慢了,一点小事一直在那转圈 我最近两周买的claude 我说这东西怎么好意思说比codex更好的。现在发现原来是被过度降智了 “大量企业 / 开发者弃用 Claude Code”
这又是哪个ai编的
—— 来自 鹅球 v3.3.96 魔神赵日天 发表于 2026-4-11 09:18
“大量企业 / 开发者弃用 Claude Code”
这又是哪个ai编的
写了啊,豆包。 以后AI发展就是要到了拼内力拼血条的阶段了
ppntint 发表于 2026-4-11 09:24
以后AI发展就是要到了拼内力拼血条的阶段了
占了将近三分之一,图给你画个四分之一 上个礼拜给我修bug还会偷鸡摸狗改baseline来跟我说修好了也是逆天
—— 来自 OPPO PKU110, Android 16, 鹅球 v3.5.99 是降智了,这周跑open spec ff,次次偷懒提前终止
论坛助手,iPhone 个人降智是真的,但企业不一定。a畜现在tob 企业了 前天就连生成测试代码都各种漏参数,明明文档都写好了 Re:Source 个人版的5小时限额随便就用完了
但是公司里github copilot的opus4.6还是正常的
论坛助手,iPhone malisa 发表于 2026-4-11 09:40
个人降智是真的,但企业不一定。a畜现在tob 企业了
这就是AMD的人测的。
—— 来自 HUAWEI VYG-AL30, Android 12, 鹅球 v3.5.99 codex还不错的,就是改计费后额度下得飞快,也是难顶 璇瑢子R 发表于 2026-4-11 09:43
个人版的5小时限额随便就用完了
但是公司里github copilot的opus4.6还是正常的
github是自己的harness是走的API,这个主要是Claude的harness给调低了思考深度 朋友 发表于 2026-4-11 10:20
github是自己的harness是走的API,这个主要是Claude的harness给调低了思考深度
所以只剩下GitHub还算正经不耍猴? 人大不了开掉,ai降智怎么办呢 本帖最后由 星花 于 2026-4-11 11:06 编辑
开源可破。企业自建ai才是未来。 用claude多打几个thank you会帮助消耗美国的电力吗 ppntint 发表于 2026-4-11 09:24
以后AI发展就是要到了拼内力拼血条的阶段了
这神图,32%的看着比29%还小
—— 来自 Xiaomi 22081212C, Android 15上的 S1Next-鹅版 v2.1.2 可恶,究竟什么时候才能本地爽搭大模型,这些狗逼公司收了钱就降智降使用数,还没有啥法律治一下这群狗逼
—— 来自 vivo V2405A, Android 16, 鹅球 v3.5.99 卖算力的公司算力紧张的时候就后台偷偷改参数呗。前期的神力靠赔本赚吆喝 有谁用过mythos?有没有他吹的那么牛逼 Ganzkiller 发表于 2026-4-11 09:45
codex还不错的,就是改计费后额度下得飞快,也是难顶
我说呢,这几天没改几个就哗哗往下掉
—— 来自 samsung SM-F9460, Android 16, 鹅球 v3.5.99-alpha 西蜀笑笑生 发表于 2026-4-11 09:34
占了将近三分之一,图给你画个四分之一
目测是个锐角,1/4都不到 学会偷懒明明是智力提升的表现啊 Jet.Black 发表于 2026-4-11 10:32
所以只剩下GitHub还算正经不耍猴?
也不一定,我们这一周左右开始觉得他家API也开始脑残了,可能是4.7要出了 ppntint 发表于 2026-4-11 09:24
以后AI发展就是要到了拼内力拼血条的阶段了
这图我们是不是小了点,按32.65%算的话不是应该占接近三分之一圆吗?
—— 来自 HONOR AAK-AN00, Android 16, 鹅球 v3.5.99 goranger 发表于 2026-4-11 12:06
卖算力的公司算力紧张的时候就后台偷偷改参数呗。前期的神力靠赔本赚吆喝 ...
这跟集采药用合格辅材过审批,再后续批次中降辅材质量有什么区别 我是it这个领域的,我一直觉得it界很多事情是应该严管的, 比如这种偷偷降智的,敝司也有就不说了,还有比如什么搜索旅游一次再搜就涨价的,摇一摇就莫名其妙弹广告的,这些都需要有政府去管的,本质是欺负消费者行为
claude max会员,网页版已经回答不正确洗车问题了 闭源模型就像外置牛子,硬不硬你说了不算
ppntint 发表于 2026-4-11 09:24
以后AI发展就是要到了拼内力拼血条的阶段了
其他所有国家太厉害了! 牙膏倒吸然后下一代产品改变世界 ppntint 发表于 2026-4-11 09:24
以后AI发展就是要到了拼内力拼血条的阶段了
这个其他国家有点实力啊
—— 来自 HUAWEI SGU-AL10, Android 12, 鹅球 v3.5.99 ppntint 发表于 2026-4-11 09:24
以后AI发展就是要到了拼内力拼血条的阶段了
第一的中国三分之一,2到10名三分之一,其他所有国家三分之一 怪不得企业一直要想办法干掉老员工
页:
[1]
2