【转】修不过来：Anthropic 披露 AI 抓虫首月战报，揪出超 1 万个高危漏洞

撒撒发表于 2026-5-23 15:41

https://www.ithome.com/0/954/272.htm

IT之家 5 月 23 日消息，Anthropic 昨日（5 月 22 日）发布公告，披露称 Project Glasswing 项目上线 1 个月后，携手约 50 家合作伙伴，已在关键软件中挖掘出超过 1 万个高危（High）和关键（Critical）级别漏洞。

根据 Project Glasswing 项目合作方的反馈，Claude Mythos Preview 模型已显著提升漏洞发现能力，部分团队的找漏洞速度提升超过 10 倍，当前瓶颈已从“发现漏洞”转向“验证、披露与修补漏洞”。

Cloudflare 披露，其在关键路径系统中发现 2000 个漏洞，其中 400 个属于高危或严重级别，且误报率优于人工测试。

Mozilla 在 Firefox 150 中修复 271 个漏洞，这一数量超过使用 Claude Opus 4.6 测试 Firefox 148 时的 10 倍。

在外部评测中，Mythos Preview 也表现突出。英国 AI Security Institute 称其是首个端到端攻破 2 个网络攻防靶场的模型。

独立安全平台 XBOW 认为，该模型在网页利用基准上的表现明显强于现有模型，并具备极高精度。

IT之家援引博文介绍，针对开源软件，Anthropic 过去几个月已扫描 1000 多个开源项目，合计发现 23019 个漏洞（包括中危和低危），其中 6202 个被模型估计为高危或严重级别。

当前已有 1752 个高危或严重漏洞完成人工复核，确认其中 1587 个为真实漏洞，真实率达 90.6%；其中 1094 个被确认仍属高危或严重级别，占比 62.4%。

按当前复核后命中率估算，即便后续不再新增漏洞，最终也可能沉淀出近 3900 个开源高危或严重漏洞。

真正困难的环节在修补。Anthropic 称，高危或严重漏洞从发现到补丁落地，平均需要 2 周，部分开源维护者甚至要求放慢披露节奏，其处理 AI 生成漏洞报告的能力已接近上限。

勿徊哉 发表于 2026-5-23 15:56

本帖最后由勿徊哉于 2026-5-23 15:58 编辑

所以说越来越卷是发展中的阵痛。目前 AI 能力还只能全自动发现漏洞，修复漏洞仍然需要人工干预。

过几年 AI 能力再提升不需要人工干预就能修复漏洞了，大家也就不用卷了。

那时 GCZY 就实现了

子虚乌有 发表于 2026-5-23 16:13

ai自己就是个漏洞制造者，昨天它写的代码让它今天扫就能扫出几个bug来

Xerxes_2 发表于 2026-5-23 16:44

子虚乌有发表于 2026-5-23 18:13
ai自己就是个漏洞制造者，昨天它写的代码让它今天扫就能扫出几个bug来

自己拉屎自己吃，闭环了

格林达姆 发表于 2026-5-23 18:04

最近几个月的那些重量级bug是不是都是AI测出来的

你说这个谁懂呀? 发表于 2026-5-23 18:13

这事其实学术界还挺看重的，不是单纯炒作的，
这个扫描专业软件bug能力还是太猛了

albertfu 发表于 2026-5-23 18:43

要不是修复上线要花时间，领导恨不得天天扫而不是周周扫

最近开始放风每天token用量不到5亿就要淘汰了，因为有sb卷王用了一天13亿

格林达姆 发表于 2026-5-23 18:58

勿徊哉发表于 2026-5-23 15:56
所以说越来越卷是发展中的阵痛。目前 AI 能力还只能全自动发现漏洞，修复漏洞仍然需要人工干预。

过几年 A ...

nocode 发表于 2026-5-23 19:01

这种会不会导致未来所有的设备越狱、固件破解等行为全部绝迹？

whzfjd 发表于 2026-5-23 19:23

albertfu 发表于 2026-5-23 18:43
要不是修复上线要花时间，领导恨不得天天扫而不是周周扫

最近开始放风每天token用量不到5亿就要淘汰了，因 ...

怎么防止有人口嗨随便发任务给agent纯烧token呢

木谷高明 发表于 2026-5-23 19:35

Linux root密码忘记重置小技巧

albertfu 发表于 2026-5-23 22:50

whzfjd 发表于 2026-5-23 19:23
怎么防止有人口嗨随便发任务给agent纯烧token呢

只统计公司提供的api就行了，但应该也防不住一些小巧思

FFFreddie 发表于 2026-5-25 10:02

什么时候ai才能自己修漏洞啊

—— 来自 Sony XQ-EC72, Android 16, 鹅球 v3.5.99

qianoooo 发表于 2026-5-25 10:07

我觉得意义还是很大的现在用那种支持llm的终端一键部署firewall规则 log日志啥的比以前方便太多了以后批量运维会舒服很多

百猪夜行 发表于 2026-5-25 10:08

代码总是会有漏洞，ai测效率比人工高多了，话说测试岗要最先失业了吧

—— 来自 Xiaomi 25042PN24C, Android 16, 鹅球 v3.5.99-alpha

Jet.Black 发表于 2026-5-25 13:47

百猪夜行发表于 2026-5-25 10:08
代码总是会有漏洞，ai测效率比人工高多了，话说测试岗要最先失业了吧

—— 来自 Xiaomi 25042PN24C, Andro ...

Vibe coding，已经没有开发了。

测试要是再没了，岂不是软件工程进入黑灯工厂时代。

木谷高明 发表于 2026-5-25 15:14

百猪夜行发表于 2026-5-25 10:08
代码总是会有漏洞，ai测效率比人工高多了，话说测试岗要最先失业了吧

—— 来自 Xiaomi 25042PN24C, Andro ...

代码安全性测试有很多自动化方式检查了，基本不靠人，AI只是提效了。

Van夫膜开 发表于 2026-5-25 15:44

a/就在那扯淡，专门挑软柿子捏，那个fireofox和freebsd的洞都是开发人员用这东西辅助弄出来的。
curl的作者就说这东西误报率特别高。

CrayS1 发表于 2026-5-25 20:36

就怕发现2000个BUG让AI修然后修出来3000个BUG

天气姐姐 发表于 2026-5-25 22:32

albertfu 发表于 2026-5-23 18:43
要不是修复上线要花时间，领导恨不得天天扫而不是周周扫

最近开始放风每天token用量不到5亿就要淘汰了，因 ...

我同事2天把小米的7亿token干出拉了

—— 来自 HONOR BKQ-AN10, Android 16, 鹅球 v3.5.99-alpha

PEPTIDE 发表于 2026-5-25 23:02

属于经典的先创造问题，再解决问题

chuchoselph 发表于 2026-5-26 09:41

albertfu 发表于 2026-5-23 18:43
要不是修复上线要花时间，领导恨不得天天扫而不是周周扫

最近开始放风每天token用量不到5亿就要淘汰了，因 ...

我就很好奇这种指标到底有啥意义，光烧了token，成果能匹配吗？

两个路人 发表于 2026-5-26 13:17

幻想：AI自己发现漏洞，自己修补漏洞，就没有漏洞啦

现实：AI写出来的玩意儿，人类都读不懂，那确实找不出漏洞了

handy 发表于 2026-5-26 13:40

人工已经跟不上AI的发展了

页: [1]

Stage1st's Archiver

【转】修不过来：Anthropic 披露 AI 抓虫首月战报，揪出超 1 万个高危漏洞