【转】修不过来:Anthropic 披露 AI 抓虫首月战报,揪出超 1 万个高危漏洞
https://www.ithome.com/0/954/272.htmIT之家 5 月 23 日消息,Anthropic 昨日(5 月 22 日)发布公告,披露称 Project Glasswing 项目上线 1 个月后,携手约 50 家合作伙伴,已在关键软件中挖掘出超过 1 万个高危(High)和关键(Critical)级别漏洞。
根据 Project Glasswing 项目合作方的反馈,Claude Mythos Preview 模型已显著提升漏洞发现能力,部分团队的找漏洞速度提升超过 10 倍,当前瓶颈已从“发现漏洞”转向“验证、披露与修补漏洞”。
Cloudflare 披露,其在关键路径系统中发现 2000 个漏洞,其中 400 个属于高危或严重级别,且误报率优于人工测试。
Mozilla 在 Firefox 150 中修复 271 个漏洞,这一数量超过使用 Claude Opus 4.6 测试 Firefox 148 时的 10 倍。
在外部评测中,Mythos Preview 也表现突出。英国 AI Security Institute 称其是首个端到端攻破 2 个网络攻防靶场的模型。
独立安全平台 XBOW 认为,该模型在网页利用基准上的表现明显强于现有模型,并具备极高精度。
IT之家援引博文介绍,针对开源软件,Anthropic 过去几个月已扫描 1000 多个开源项目,合计发现 23019 个漏洞(包括中危和低危),其中 6202 个被模型估计为高危或严重级别。
当前已有 1752 个高危或严重漏洞完成人工复核,确认其中 1587 个为真实漏洞,真实率达 90.6%;其中 1094 个被确认仍属高危或严重级别,占比 62.4%。
按当前复核后命中率估算,即便后续不再新增漏洞,最终也可能沉淀出近 3900 个开源高危或严重漏洞。
真正困难的环节在修补。Anthropic 称,高危或严重漏洞从发现到补丁落地,平均需要 2 周,部分开源维护者甚至要求放慢披露节奏,其处理 AI 生成漏洞报告的能力已接近上限。
本帖最后由 勿徊哉 于 2026-5-23 15:58 编辑
所以说越来越卷是发展中的阵痛。目前 AI 能力还只能全自动发现漏洞,修复漏洞仍然需要人工干预。
过几年 AI 能力再提升不需要人工干预就能修复漏洞了,大家也就不用卷了。
那时 GCZY 就实现了
ai自己就是个漏洞制造者,昨天它写的代码让它今天扫就能扫出几个bug来 子虚乌有 发表于 2026-5-23 18:13
ai自己就是个漏洞制造者,昨天它写的代码让它今天扫就能扫出几个bug来
自己拉屎自己吃,闭环了 最近几个月的那些重量级bug是不是都是AI测出来的 这事其实学术界还挺看重的,不是单纯炒作的,
这个扫描专业软件bug能力还是太猛了 要不是修复上线要花时间,领导恨不得天天扫而不是周周扫
最近开始放风每天token用量不到5亿就要淘汰了,因为有sb卷王用了一天13亿 勿徊哉 发表于 2026-5-23 15:56
所以说越来越卷是发展中的阵痛。目前 AI 能力还只能全自动发现漏洞,修复漏洞仍然需要人工干预。
过几年 A ...
这种会不会导致未来所有的设备越狱、固件破解等行为全部绝迹? albertfu 发表于 2026-5-23 18:43
要不是修复上线要花时间,领导恨不得天天扫而不是周周扫
最近开始放风每天token用量不到5亿就要淘汰了,因 ...
怎么防止有人口嗨随便发任务给agent纯烧token呢 Linux root密码忘记重置小技巧 whzfjd 发表于 2026-5-23 19:23
怎么防止有人口嗨随便发任务给agent纯烧token呢
只统计公司提供的api就行了,但应该也防不住一些小巧思 什么时候ai才能自己修漏洞啊
—— 来自 Sony XQ-EC72, Android 16, 鹅球 v3.5.99 我觉得意义还是很大的 现在用那种支持llm的终端一键部署firewall规则 log日志啥的比以前方便太多了 以后批量运维会舒服很多 代码总是会有漏洞,ai测效率比人工高多了,话说测试岗要最先失业了吧
—— 来自 Xiaomi 25042PN24C, Android 16, 鹅球 v3.5.99-alpha 百猪夜行 发表于 2026-5-25 10:08
代码总是会有漏洞,ai测效率比人工高多了,话说测试岗要最先失业了吧
—— 来自 Xiaomi 25042PN24C, Andro ...
Vibe coding,已经没有开发了。
测试要是再没了,岂不是软件工程进入黑灯工厂时代。
百猪夜行 发表于 2026-5-25 10:08
代码总是会有漏洞,ai测效率比人工高多了,话说测试岗要最先失业了吧
—— 来自 Xiaomi 25042PN24C, Andro ...
代码安全性测试有很多自动化方式检查了,基本不靠人,AI只是提效了。 a/就在那扯淡,专门挑软柿子捏,那个fireofox和freebsd的洞都是开发人员用这东西辅助弄出来的。
curl的作者就说这东西误报率特别高。 就怕发现2000个BUG让AI修 然后修出来3000个BUG albertfu 发表于 2026-5-23 18:43
要不是修复上线要花时间,领导恨不得天天扫而不是周周扫
最近开始放风每天token用量不到5亿就要淘汰了,因 ...
我同事2天把小米的7亿token干出拉了
—— 来自 HONOR BKQ-AN10, Android 16, 鹅球 v3.5.99-alpha 属于经典的先创造问题,再解决问题
albertfu 发表于 2026-5-23 18:43
要不是修复上线要花时间,领导恨不得天天扫而不是周周扫
最近开始放风每天token用量不到5亿就要淘汰了,因 ...
我就很好奇这种指标到底有啥意义,光烧了token,成果能匹配吗? 幻想:AI自己发现漏洞,自己修补漏洞,就没有漏洞啦
现实:AI写出来的玩意儿,人类都读不懂,那确实找不出漏洞了 人工已经跟不上AI的发展了
页:
[1]