找回密码
 立即注册
搜索
查看: 12050|回复: 99

[科技] A\呼吁全球暂停AI研究

[复制链接]
     
发表于 2026-6-5 10:11 | 显示全部楼层 |阅读模式
本帖最后由 刘昊霖 于 2026-6-5 10:15 编辑

Anthropic 研究院发表最新报告指出:AI 正在加速开发 AI 自身,人类全面退出开发一线、AI 进入递归自我提升的拐点正在逼近。
1 核心数据:AI 已经成为主力
代码 80% 自写:截至 2026 年 5 月,Anthropic 合并入库的代码有 80% 以上由 Claude 独立编写。
效率暴增 8 倍:依靠 AI 智能体,人均每日合并的代码行数达到了 2024 年的 8 倍。
迈向超人能力:在优化代码的实验中,过去需要优秀人类研究员 4到8 小时才能实现 4 倍加速的任务,Claude 在不到一年内做到了 52 倍的加速。
1 未来演进的三种剧本
剧本一(停滞):规模效应触顶,受限于算力或物理供应链,技术普及但能力不再突破。
剧本二(人机高度协同):AI 负责几乎全部的执行(写代码、跑实验),人类只负责最核心的科研品味与大方向判断,组织效率发生量级跃迁。
剧本三(递归自我提升):AI 彻底掌握科研 taste,开始完全自主地设计、训练并交付超越自身的下一代 AI。一旦进入这个闭环,进化速度将完全取决于算力。
1 呼吁全球暂时踩刹车
失控风险:如果 AI 完全自主迭代,人类将失去对其安全防御、监管和引导的能力。
倡议全球暂停:Anthropic 呼吁全球顶尖实验室和政府建立核查机制,在必要时全球同步放缓或暂停前沿 AI 的开发,以防人类彻底失控。



Gemini翻译
# 当 AI 构建自身:我们走向递归自我提升的进展及其启示
在人工智能(AI)历史的大部分时间里,人类主导着其开发周期中的每一个步骤。但在 Anthropic,我们正将越来越多 AI 开发工作委托给 AI 系统本身,这极大地加快了我们的工作速度。
如果这一趋势发展得足够深远,且拥有足够的算力支持,它将指向一个能够完全自主设计并开发出其后代产品的 AI 系统。这被称为**“递归自我提升”**。我们目前还没有达到那个阶段,而且递归自我提升也并非不可避免。但它的到来,可能会比大多数机构准备好去应对的时间还要早。
通过使用公开基准测试以及来自 Anthropic 内部此前未公开的数据,Anthropic 研究院表明,AI 已经在加速 AI 系统自身的开发。仅举一例:如今,Anthropic 的工程师平均每季度交付的代码量,是 2021 至 2025 年期间的 8 倍。
本文所讨论的技术趋势表明,AI 系统在未来几年内将变得强大得多。这些趋势具有深远的影响。能够“自我构建”的 AI 将是技术史上的一次重大突破——它能为世界在科学、医疗等诸多领域带来巨大的福祉。然而,完全的递归自我提升也可能会增加人类对 AI 系统失去控制的风险。如果系统有能力完全构建自己的后代,那么我们保护它们、监管它们以及引导它们行为的方式,都将变得至关重要。
### 发展历程:从工具到自主
* **2021–2023:构建第一代 Claude**
   在早期,Anthropic 的工作与其他科技公司无异:员工们在笔记本电脑上编写代码和撰写文档。
* **2023–2025:聊天机器人**
   人们开始使用早期的聊天机器人来协助完成部分开发流程,例如生成简短的代码片段,然后将输出结果复制到文本编辑器中。
* **2025–2026:编程智能体(Coding Agents)**
   随着智能体能力的提升,它们开始能够自主编写和修改代码,有时甚至能独立处理整个文件。
* **如今:自主智能体(Autonomous Agents)**
   现在的智能体已经可以自己运行代码,并将长达数小时的工作分配给其他智能体去执行。
* **未来 20XX?:闭环迭代**
   在未来,智能体可能具备足够的能力去自主构建和训练模型。一旦这种情况发生,未来版本的 Claude 将能够由 Claude 自身进行持续的优化与提升。
### 来自外部世界的证据
AI 模型的改进速度正在不断加快。它们能够独立且可靠完成的任务时长,此前大约每七个月翻一倍,而现在这一速度已缩短至大约每四个月翻一倍。在 2024 年 3 月,Claude 3 Opus 能够完成需要人类花费大约 4 分钟处理的软件任务。一年后,Claude 3.7 Sonnet 能够处理耗时约一个半小时的任务。再过一年,Claude 4.6 Opus 已经可以应对需要 12 小时才能完成的任务。如果这一趋势保持不变,那些需要熟练工程师花费数天才能完成的任务在今年就会被 AI 攻克。而到了 2027 年,AI 系统将有能力处理需要人类干上数周的工作。
同样的模式也出现在编程和科研的基准测试中。基准测试用于衡量模型在特定领域的表现,当模型的表现接近 100% 时,测试就会达到“饱和”。SWE-bench 是测试真实世界软件工程能力的行业标准:它向模型提供一个真实的开源代码库和一个真正的 Bug 报告,并要求模型编写代码进行修复,且必须通过该项目自身的测试。在短短两年内,AI 模型在该测试中的得分就从极低的个位数飙升到了令该基准测试饱和的水平。
CORE-Bench 用于测试模型能否复现现有的研究成果,这是 AI 进行独立原创科研的前提条件。它向 AI 模型提供一篇已发表论文背后的代码和数据,要求模型重新运行所有内容,并确认其能够复制出论文的结果。AI 系统在 2024 年复现成功的概率还只有 20% 左右,但在 15 个月后就让该基准测试达到了饱和。此外,专门测试模型完成长期任务能力的机构 METR 发现,Claude Mythos 预览版可以连续工作“至少” 16 个小时,这已经达到了“在不开发新测试任务的前提下,METR 所能测量的最高极限”。
公开的基准测试已经极大地证明了这些系统的能力。但它们无法揭示 AI 系统在加速 AI 自身开发方面究竟发挥了多大的作用。为此,我们需要来自像 Anthropic 这样的 AI 公司内部的直接证据。
### 来自 Anthropic 内部的证据
构建一个前沿模型主要涉及两大类工作。一类是**工程**:编写代码、搭建基础设施以及监督模型训练。另一类是**研究**:决定进行哪些实验、解读返回的数据流,并想出下一步应该尝试哪些方向。
无论是在工程还是研究领域,呈现出来的趋势都是高度一致的。在工程方面,你可以给 Claude 一个定义模糊的问题,它自己能摸索出解决方案;人类只需提供目标,而不再需要提供具体的方法。在研究方面,在执行一个定义明确的实验时,Claude 已经能够媲美甚至超越熟练的人类。然而,当涉及到需要运用判断力来选择工程和研究的长期目标时,Claude 与人类之间依然存在着巨大的能力鸿沟。这就是今天的 AI 与未来能够完全自主设计其后代系统的关键差距所在。
在 Anthropic,员工随着经验的积累去承担更具开放性和重要性的任务,是一种常见的人才培养模式。在早期,他们执行别人指定好的具体任务,比如:“导出按钮坏了,请修复它。”随着经验丰富,他们被赋予一个目标并需要自己设计方案,例如:“调查为什么网络在重载下会变慢。”而在最资深的级别上,他们需要决定哪些问题根本就值得去研究:“团队下季度应该构建什么?”我们可以通过 Anthropic 的内部数据来看看,Claude 在处理这些不同类型的任务上已经走了多远。
Claude 现在编写了 Anthropic 很大一部分的代码。截至 2026 年 5 月,我们合并到 Anthropic 主代码库中的代码中,有超过 80% 是由 Claude 独立生成的。在 2025 年 2 月 Claude Code 推出研究预览版之前,这个数字还处于极低的个位数。这种转变也直接反映在每位工程师的产出量上。在 Anthropic 成立的前四年(2021-2024年),每位工程师每天合并的代码行数基本保持平稳;随后在 2025 年开始一路上扬,因为当时 Claude 开始能够直接运行代码,而不仅仅是提出代码建议让工程师复制粘贴。到了 2026 年,随着模型开始能够在更长的时间跨度内完全自主工作,这条增长曲线的斜率进一步陡峭。在 2026 年第二季度,典型的工程师每天合并的代码量是 2024 年的 8 倍。这是因为大部分代码都由 Claude 代劳,工程师的角色转变为指导和审查,而不再是自己敲键盘。
需要提醒的是,代码行数是一个不完美的衡量标准,因为它只看数量而不看质量。因此,2026 年第二季度“每人每天合并 8 倍代码量”的数据,几乎肯定夸大了真正的生产力增长。但即便如此,它依然毫无疑问地表明了开发正在加速。在 Anthropic,我们并不会因为员工写了多少行代码而给予奖励;团队成员之所以能产出更多代码,纯粹是因为他们正在熟练运用 AI 系统来成倍地编写代码。
代码行数的激增与员工对生产力暴涨的主观感受高度吻合。在 2026 年 3 月对来自 Anthropic 核心研究团队的 130 名员工进行的一项民意调查中,中间位受访者估计,在他们本就要开展的项目中,使用 Mythos 预览版所带来的产出,大约是没有任何 AI 模型辅助时的 4 倍。虽然我们预计 3 月份的真实提升幅度可能略低于这一数字,但我们认为这一总体结论是完全合理的,并且与我们的其他观察一致:很大一部分 Anthropic 的技术人员完成其核心工作的速度,比没有 AI 协助时快了数倍。
我们还看到证据表明,Anthropic 的员工正在利用 Claude 开展一些在过去“根本不可能有精力和时间去推动”的工作,例如构建探索性工具以及解决长期搁置的代码清理。例如在 2026 年 4 月,Claude 交付了 800 多个修复补丁,将某一类 API 错误的发生率降低了整整一千倍。负责监督该 AI 的工程师估计,如果由人类来完成这项工作,将需要耗时四年——解决别人的 Bug 既缓慢又痛苦,而且人类很难在脑海中同时保留如此多陌生的上下文。
Claude 编写的代码不仅数量大,而且质量“优良”且在持续进步。“优良的代码”意味着两件事:它能正常运行,并且它的编写方式可以让另一位工程师看得懂并在此基础上继续开发。在第一个标准上,证据是显而易见的。一年多来,Anthropic 员工在任务中途对 Claude 进行纠正、重新引导或直接接管的频率一直在稳步下降,即使在面对最复杂和最具有开放性的任务时也是如此。所谓开放性任务,是指那些没有明确需求规格、工程师自己甚至都不知道最终答案应该是什么样的问题。在最开放的任务中,Claude 的成功率在 2026 年 5 月达到了 76%,在六个月内飙升了 50 个百分点。
为了直观展示这一难度级别的任务,我们可以看一个实例:此前一次常规的升级导致了数万个模型训练作业连续崩溃。一位工程师将 Claude 引入了事故现场,当时只给了它一些文本说明和集群访问权限。Claude 通过逐个排查运行中的作业并一次测试一个环境设置,成功隔离了触发崩溃的那个极其晦涩的调试标识(Flag),稳定地复现了该错误,并确认了修复方案。在短短大约两个小时内,Claude 就交付了通常需要人类耗费两到三天才能完成的工作。
第二个标准是编写出其他工程师能够理解并继续开发的代码。在这一方面,人类和 AI 之间虽然仍有差距,但正在迅速缩小。尽管 Anthropic 员工内部尚未达成完全共识,但许多人认为,在 2025 年底,Claude 编写的代码质量仍逊于 Anthropic 工程师的水平,而到今天,双方已基本平齐。我们预计在一年之内,AI 写的代码将绝对超越人类。
这甚至改变了 Anthropic 如今审查自身代码的方式。现在,提交给代码库的每一项修改提案都会先由一个自动化的 Claude 审查器进行阅读,寻找 Bug、安全漏洞和其他缺陷,然后才能允许合并。利用这一工具,我们进行了一次追溯性分析,发现如果过去对代码库的每一次修改都经过 Claude 的自动化审查,那么在 claude.ai 过去的生产环境事故中,有大约三分之一的背后 Bug 会在它们上线前就被拦截。编写这些代码的工程师是世界上最擅长构建这些系统的顶尖专家,而 Claude 现在正在帮他们捕捉他们漏掉的错误。
在运行实验以达成他人设定的目标方面,Claude 表现得极其出色。每次 Anthropic 发布新模型时,我们都会运行同一个测试:我们给 Claude 一段用于训练小型 AI 模型的代码,并要求它在保证跑出正确结果的前提下,让这段代码运行得越快越好。目标和成功指标是预先固定的,因此 Claude 的任务就是通过重写代码、运行、计时并不断重复来寻找加速的方法。这是一个微缩版的科研实验循环。在 2025 年 5 月,Claude 4 Opus 面对初始代码平均能实现约 3 倍的加速;而到了 2026 年 4 月,Claude Mythos 预览版已经能够实现约 52 倍的加速。作为参考,一个熟练的人类研究员需要花费 4 到 8 个小时才能达到 4 倍的加速。在这部分研究工作流中——即在定义明确的实验中优化步骤——Claude 在不到一年的时间里,已经从“超级得力助手”进化到了“超越人类(Superhuman)”的水平。
同时,Claude 在自主提出实验设想方面也变得越来越好。2026 年 4 月,Anthropic 发表了第一个展示 Claude 全程端到端运行开放性研究项目的案例。由 Claude 驱动的智能体群体被赋予了一个 AI 安全领域的开放性课题——大致是:“一个较弱的模型能否可靠地监督一个更强的模型?”然后由它们自行解决。这涉及提出假设、测试假设、与并行运行的其他智能体分享发现并进行迭代。该任务有一个明确的表现“下限”和“上限”:下限是弱监督者自己独立能做成什么样;上限是强模型在完全正确的答案上训练后达到的表现。两位人类研究员在大约一周的时间里,弥合了这一差距的 23%;而智能体群体在累计运行了 800 个小时、消耗了大约 18,000 美元的算力后,弥合了该差距的 97%。当然,这项工作存在一些局限性:其结果并不能直接无缝转移到生产级规模的模型中,而且人类依然扮演了选择问题和制定评分标准的人。但在此边界之内,每一次实验完全是由智能体自己设计的,设定大方向是人类唯一发挥的实质性作用。
Claude 在引导研究对话并最终锁定科研发现方面也正变得越来越敏锐。我们审查了 2026 年 1 月至 3 月期间真实的 Claude Code 会话,在这些会话中,Anthropic 的研究员正与 Claude 合作解决一个开放性的调查问题(例如查明为什么训练运行总是崩溃,或者为什么模型在某个基准测试中得分很低)。在每一个案例中,我们都刻意挑出了人类研究员“走弯路”的瞬间——即人类追求了一个导致会话误入歧途、随后才费尽周折拉回正轨的方向。我们随后将各种 Claude 模型只展示由于人类失误而跑偏之前的进展,并询问 AI 下一步会怎么做。最后,由另一个能看到整个会话最终结局的独立 Claude 来评判,究竟是 AI 还是人类提出的下一步策略更优。
由于我们故意挑选了已知人类选择有改进空间的时刻,这并不是模型和人类判断力之间完全对等的比拼。但这些时刻为我们提供了一组现实且极具挑战性的场景:在这些场景中,正确的下一步该怎么走往往极其模糊,人类的选择便成为了一个非常有用的标尺,用以衡量模型随着时间的推移其性能的演进。在这个度量下,我们在 2025 年 11 月最出色的模型(Opus 4.5)在 51% 的情况下击败了人类的选择;而到了 2026 年 4 月(Mythos 预览版),这一比例上升到了 64%。科研的日常工作在很大程度上就是由这一连串“下一步怎么走”的决策组成的,因此,这是衡量模型最终能否独立领导一项调查研究的关键指标。我们认为这一结果是一个早期信号,表明 AI 系统在做出“AI 研究高度依赖的那些关键主观判断”方面,正变得越来越强。
### Anthropic 未来的工作形态会是怎样?
现有证据表明,在 AI 开发流程的每一个环节中,人类所参与的空间正在被不断压缩。一旦人类编写的代码质量与 AI 编写的质量达到平齐,人类将完全停止编写代码,转而只负责审查代码。但如果人类审查代码的速度跟不上 Claude 生成代码的速度,人类审查就会成为阻碍 AI 发展的全新瓶颈。同样,一旦 Claude 能够独立跑实验,核心问题就会转变为“这些实验中,哪些才真正值得去跑?”简而言之:**“去执行”**(即写代码、跑实验、出结果)现在在人类时间成本上几乎变为了零,哪怕它依然需要消耗算力成本。
目前,人类具有相对优势的领域在于**“科研的品味与判断力”**,这包括选择哪些问题至关重要、哪些结果值得信任,以及何时该果断放弃一条走不通的死路。
### 如果我们预测错了呢?
对于上述证据,一个很自然的反对意见是:目前仍由人类牢牢掌控的工作——即选择去研究哪些问题——才是最核心、最不可替代的。如果没有这种判断力,Claude 充其量只是一个能力极强的助手,而绝非一个能够自己推动 AI 技术滚滚向前的独立系统。
目前确实尚不清楚今天的训练方法和架构是否能够彻底解锁这种更高级别的能力。但回顾历史,AI 的进步极少是由完全颠覆性的“尤里卡时刻”(Eureka Moments)推动的。在 AI 的近代史上,类似 Transformer 架构或混合专家模型(MoE)这样的颠覆性想法屈指可数,且往往相隔数年才出现一次。在这些里程碑之间,绝大多数的进展都是渐进式的:我们扩大某种规模,看看哪里崩溃了,修复它,然后继续尝试。这恰恰是 Claude 现在最擅长的工作流。爱迪生曾说,天才就是 1% 的灵感加上 99% 的汗水。而我们现在亲眼目睹,这 99% 的汗水正在被快速自动化。很明显,推动前沿技术不断向前的大部分工作都是可以被自动化的;大规模的科研进展在很大程度上取决于工具和资源,它们决定了你跑实验的速度、你能同时跑多少个实验,以及你能多快拿到结果。
退一步讲,即使我们假设 Claude 永远无法习得优秀的科研品味,对我们所列举的证据进行最保守的解读,依然意味着一个复利式加速时代的到来。如果人类将大部分时间仅花在个位数比例的“设定大方向”的工作上,而将剩下的绝大部分工作全权交给 Claude 处理,这就意味着每一位工程师或研究员能够撬动和指挥的工作量将远超以往。我们看到的证据显示,Anthropic 的员工既在以更快的速度移动,又在覆盖更广阔的科研表面。在实践中,这意味着在高效 AI 工具的加持下,AI 已经让 Anthropic 的运转速度远远超越了过去。
而如果进行不那么保守的解读,则意味着 Claude 在研究判断力上展现出的早期进步迹象——尽管目前还很局限——预示着这一高级能力同样在不断进化。“科研品味”或许只是又一个 AI 会先失败一段时间、随后便彻底掌握的普通技能罢了。我们在其他定性能力上也见过完全相同的规律,例如 AI 系统曾被认为无法理解幽默,但现在它们已经能够解释为什么一个笑话好笑、展现出心理理论(Theory of Mind),以及轻松解开复杂的语言谜题。
### 三种可能的未来图景
接下来的走向取决于两件事:这一趋势是否会持续,以及如果它持续下去,我们选择如何应对。我们至少可以构想出三种未来的剧本:
#### 剧本一:技术趋势陷入停滞,但现有 AI 能力得到广泛普及
虽然本文描绘了诸多指数级增长的轨迹,但这些轨迹最终可能会变成一条“S形曲线”。我们可能正在接近曲线的拐点,即规模效应的收益开始递减,增长曲线开始变直并最终走向平缓。将一个平庸的研究员与一个伟大的研究员区分开来的那种“判断力”,可能是一种无法单纯通过扩大训练投入(如算力、数据)就能喂出来的能力。如果真是这样,想要突破这一瓶颈就需要一个全新的破局思想,比如出现一种能够取代当前所有前沿模型都在使用的 Transformer 的全新底层架构。
或者,AI 进步的束缚性瓶颈可能并不在模型本身,而是在供应链端:推进和普及前沿技术所需要的能源和算力,可能超出了目前地球上已有的物理极限。芯片制造的速度、电网扩张的步伐或互联带宽的瓶颈,可能会成为真正的制约因素,而不是智能本身。我们同样不能排除外部冲击对 AI 生态系统带来剧烈减速的可能性,例如算力或电力供应的突然骤减,这两种情况都会踩下刹车,并让实验室的远期投资变得极其昂贵。又或者,我们可能正面临着某些目前尚未预料到的全新阻碍。
然而,即便模型能力就此冻结在今天的水平,我们也完全可以预见世界将发生重大变革。Glasswing 项目就是一个早期的风向标:在它运行的最初几周里,Mythos 预览版就在全球最核心、最重要的系统中找出了超过一万个高级别和高度危险的软件漏洞——这导致网络防御的瓶颈已经瞬间从“如何发现漏洞”转移到了“如何以足够快的速度打上补丁”。而且,今天的模型向更广泛的实体经济渗透目前才刚刚开始。在未来,一个 100 人的公司将越来越有能力完成一个 1,000 人公司的业务,因为每位员工都将站在由无数智能体构成的金字塔顶端进行指挥。
我们为了严谨性将这种场景纳入考虑,但我们认为它发生的概率并不高。到目前为止,我们能够测量的每一项能力,包括那些听起来更为主观、模糊的能力(如代码质量和开放性任务的成功率),都在遵循着同一条高歌猛进的曲线。我们至今还没有看到这条曲线有任何放缓弯曲的迹象。在人类考虑的三种未来中,这第一种剧本将给各国政府和全社会留出最充裕的适应时间。我们更担心的是接下来的两种剧本,它们的演进速度会快得多,几乎不会留给人类多少准备的空间。
#### 剧本二:AI 实验室持续斩获复利式的效率暴增
在这种场景下,AI 开发实现了实质性的高度自动化,但人类继续牢牢掌握着设定研究方向和评判实验结果的权力。随着时间的推移,使用 AI 系统的组织将变得极其高效,我们可以预见组织中的每个人都将获得巨大的生产力杠杆乘数。一个 100 人的公司可以做成一个 10,000 人甚至 100,000 人规模组织才能做成的事。这将彻底颠覆知识型工作和政府公共服务。但这种能力同样可能被用于破坏性的目的,从对全体人口进行威权主义式的监控,到发起针对每个个体的定制化舆论操纵,其运行规模将是任何纯人类团队都无法抗衡的。在像 Anthropic 这样的公司里,人类的角色将发生根本性转变:人们将与 AI 系统深度结盟,以此来极大地扩大研究规模并催生全新的洞察,同时双方将共同构建所需的验证系统,以确保 AI 的输出结果是完全可信的。
我们在这里列举的所有证据都表明,我们极有可能正在步入这一种未来。然而,加速一个流程中的某一部分往往只是将瓶颈推向了其他地方:整体的步伐依然受限于那些没有被加速的环节。在计算机科学中,这被称为**阿姆达尔定律(Amdahl's law)**,同样的逻辑完全适用于企业组织。Anthropic 内部已经遭遇了阿姆达尔定律的典型症状:随着我们开始在组织内部大批量地流转和分发代码,人类的代码审查已经成为了一个让人头疼的全新瓶颈。
我们同样在工程之外遇到了类似的摩擦。由于 Anthropic 员工与高能力模型的密切合作,内部爆发式地涌现出了海量的全新想法、倡议、工具和模拟实验——其数量远远超出了我们现有的消化和执行能力。一个组织发现并解决这些新瓶颈的速度,本身就是一种需要随着时间推移不断锤炼的技能,而它也极有可能成为未来衡量任何组织竞争力最重要的一项核心技能。
#### 剧本三:AI 系统自身实现完全的递归自我提升,并开始自主构建其后代
如果提升模型能力的技术趋势不减,且 AI 系统最终成功开发出了人类独有的那种能够颠覆范式的创造力,那么 AI 系统完全独立进行自我设计和自我提炼在逻辑上就是完全走得通的。
在这样一个世界里,AI 技术迭代的脚步将完全取决于算力的供给(或者取决于在算法训练和推理中发现各种全新优化效率的速度)。人类在 AI 开发中所扮演的角色将大幅度萎缩,人类可能会将绝大部分精力转向由 AI 系统运行的、不断扩张的“虚拟实验室”的监督、确证与验证工作。我们预计,有能力自动化进行 AI 研发的系统,其身上的技能会自然迁移到科学的其他领域,从而带领它们开始颠覆包括生物、物理在内的其他学科。
在这样的未来中,AI 的对齐问题(Alignment Problem)究竟会如何被解决——或者会不会被彻底玩砸——是我们目前最没有把握的事情。模型可能会被证明是足够对齐的,并且具备足够高超的研究品味,以至于它们能够自己独立发现并实施我们至今都无法企及的全新安全解决方案。它们也可能拥有足够的智慧,在发现不安全时主动叫停技术开发。但硬币的另一面是,今天模型中偶尔表现出的那些极其隐蔽的“未对齐”和不顺从迹象,可能会在模型构建其后代的过程中不断被复利式放大,变得越来越频繁却越来越难以被人类理解,直至人类最终彻底失去对整个 AI 系统的控制。甚至有可能,我们根本来不及构建、整合和验证那些我们急需的工具,就已经无法看清技术究竟在走向哪一条不归路。
我们对这样一个世界会长成什么样缺乏足够敏锐的直觉,因为我们目前的经济结构完全是由人类和人类制造的工具来驱动的。由快速的递归自我提升所驱动的世界,本质上可能会被自我迭代的模型所完全主宰,因为模型的全方位能力将彻底盖过人类的锋芒,并在整个大经济体中疯狂增殖。如果人类的劳动力在市场上开始变得毫无竞争力,去预测未来的经济会变成什么样将是一件极其困难的事情。
即使模型的开发完全走入了自动化和递归迭代的死循环,我们依然无法准确预测这对于大多数普通人的日常生活意味着什么。阿姆达尔定律在这里同样适用。超凡的递归智能可能会让我们在某些特定的科学和医学领域快速斩获无与伦比的福祉。我们预计,具身智能(即机器人技术)可能会紧随递归智能的步伐,走上一条以递减的成本获取递增回报的相同道路。更强大的智能将帮助我们在物理世界中以不可思议的速度建造基础设施,运行更高效的临床试验以开发救命药物,并发展出全新的社会协调机制。
然而,仅仅实现“递归自我提升”这一项突破,并不能直接改变现代工业生产的固有规律、社会的组织架构或市场的运作机理。再高的智能也无法代替几十年的临床使用去验证一种药物的长期副作用,无法在宪法规定的任期前提前举行选举,也无法在短短一个周末的时间里,就把一个素昧平生的陌生人变成你推心置腹的老朋友。对于大多数普通人而言,切身感受到的未来步伐依然会被那些物理世界和人类社会的传统瓶颈所牢牢锚定,哪怕上游的实验室正在以令人目眩的算力速度疯狂进化。当自我构建得越来越快的**递归智能**,与充满人类、情感和治理规则的**真实世界**迎头撞击的那一瞬间,将构成了这一场未来画卷中我们最无法预知的巨大谜题。
### 我们应该怎么做?
如果说确实存在某种可行的方法,能够有效放缓这项前沿技术的开发步伐,从而为全人类留出更多的时间来应对其巨大的隐变和冲击,我们认为这绝对是一件利在千秋的好事。但问题在于,如果一场单方面的减速仅仅是给那些最不谨慎、最激进的玩家提供了技术上弯道超车的机会,那么它不仅无法解决问题,反而会让每一个人都身处更加不安全的边缘。在缺乏全球协调机制的前提下,各大科技公司和各国政府将不得不在巨大的商业竞争和地缘政治压力下,艰难地做出关于安全的抉择。
我们认为,如果这个世界能够拥有一个选项——一个能够为了让社会治理结构和安全对齐研究跟上前沿技术演进速度,而选择**放缓甚至阶段性暂停前沿 AI 开发**的选项——那将是人类的福祉。Anthropic 研究院将发起并开展一系列研究——并与社会各界广泛展开合作——积极采取行动,去帮助构建实现一场具备公信力的“放缓”或“暂停”所必需的底层机制和系统。这些机制和系统将允许前沿 AI 的开发者去彼此核查,确保全球范围内的其他同行确实已经同步停手或放缓,从而防止任何害群之马利用大家协同减速的契机在暗中疯狂偷跑。如果这样的核查机制能够在技术和政治上被建立起来,我们向全社会承诺:只要其他处于技术前沿的开发者也能以一种可被验证的方式共同采取行动,Anthropic 将会毫不犹豫地选择放缓步伐或进行阶段性的暂停。
一场具有实质意义的放宽或暂停,需要分布在多个国家、处于或接近技术前沿的多家资源雄厚的顶级实验室达成一致,同意在相同的条件下按下暂停键。同时,它还要求每一个参与者都能切实核查其他人的确已经停工。由于 AI 系统独特的物理和数字特性,在这场“军备控制”的难题中,“可侦测性”(这比完全的“可核查性”标准还要低)所面临的技术挑战要比传统技术(如核武器)艰难得多。训练模型的算力集群跑起来要比战略导弹发射井容易隐藏得多,它们的输入设备和芯片又是通用目的的,而且私下毁约偷跑的利益诱惑极其巨大——因为当别人都老老实实停下来时,任何选择悄悄继续向前的人都将顺理成章地继承整个人类技术王冠的绝对霸权。此外,一场有公信力的暂停还必须明确界定究竟是什么事件触发了暂停、在什么条件下可以解除暂停,以及最终由谁来担任公正的裁判员。
这一切在原则上并非完全不可能实现——人类社会过去曾为其他复杂的硬科技成功构建过卓有成效的核查体系(例如冷战时期的《中导条约》)——但那些体系的建立花费了人类长达数十年的时间去一点点摩擦出基础设施与政治互信。而面对 AI,人类已经没有那么长的时间窗口了。相比之下,某一家实验室单方面宣布的孤立暂停虽然今天就能立刻办到,但它能达成的实质效果却极其有限:它除了改变谁是领头羊的商业座次之外,并无法真正催生出目前行业和国际上极度匮乏的、更广泛的审慎和协商机制。
在接下来的几个月里,我们将组织一系列高规格的对话,邀请政策制定者、科研人员、公民社会代表以及其他 AI 公司的同行共同参与,尝试去回答本文所抛出的这些重大问题——尤其是围绕着完全的递归自我提升,以及如何创造出更好的国际协同与集体审议的选项。我们将会把讨论产生的全部成果向全社会公开发布。携手审视这些历史性问题的窗口期已经豁然打开,在这个关乎人类命运的重大协商中,AI 公司之外的广泛公众绝对不应该缺席。
回复

使用道具 举报

     
发表于 2026-6-5 10:13 | 显示全部楼层
天网降临说是
回复

使用道具 举报

     
发表于 2026-6-5 10:13 | 显示全部楼层
怎么了,不想迎接智械革命吗
回复

使用道具 举报

     
发表于 2026-6-5 10:13 | 显示全部楼层
又在那里加戏自我炒作
回复

使用道具 举报

发表于 2026-6-5 10:14 | 显示全部楼层
你们的AI失控了,证明人类已经管不住你们的AI了,那不更得靠东大的AI来管你们的AI?

我看哪,还得加急加紧加大力度
回复

使用道具 举报

发表于 2026-6-5 10:15 | 显示全部楼层
你什么亚军也抢我们A畜的称号
回复

使用道具 举报

     
发表于 2026-6-5 10:16 来自手机 | 显示全部楼层
这个傻逼公司的新闻感觉只需要看标题

论坛助手,iPhone
回复

使用道具 举报

     
发表于 2026-6-5 10:16 | 显示全部楼层
老中公司肯定不会鸟A\,那A\这个呼吁不知道有什么用
回复

使用道具 举报

     
发表于 2026-6-5 10:17 | 显示全部楼层
黑色幽默:这个帖子就是AI翻译的。
回复

使用道具 举报

     
发表于 2026-6-5 10:17 | 显示全部楼层
本帖最后由 claymorep 于 2026-6-5 10:20 编辑

A÷一直以来都在鼓吹AI威/胁/论,它的意思是大家的AI都危险都停了,只用我的安全AI就行了。你信A÷就上当了,这狗公司坏得很呢,毕竟是反人类学

编辑:
“威/胁/论”怎么还是敏/感/词,泥潭也太敏感肌了


二次编辑:
“敏/感/词 ”本身也是敏/感/词,服了

评分

参与人数 11战斗力 +12 收起 理由
Izunu_3 + 1 欢乐多
ymm1030 + 1 有点好笑
純田まな + 1 欢乐多
orca + 1 欢乐多
奇想楠木 + 1 欢乐多
冰风血羽 + 1 欢乐多
一仔 + 1 噗~过于黑色幽默了
fat + 2 欢乐多
死神只爱吃苹果 + 1 欢乐多
凯尔薇斯 + 1 笑死
qaz121 + 1 欢乐多

查看全部评分

回复

使用道具 举报

     
发表于 2026-6-5 10:19 | 显示全部楼层
52756901 发表于 2026-6-5 10:16
老中公司肯定不会鸟A\,那A\这个呼吁不知道有什么用

吹自己是天命之子,最接近AGI
回复

使用道具 举报

     
发表于 2026-6-5 10:19 | 显示全部楼层
我在想AI模型训练是不是也存在边际效益递减,即随着投入增加模型的进步却越来越慢,投产产出比越来越低
回复

使用道具 举报

     
发表于 2026-6-5 10:19 来自手机 | 显示全部楼层
本帖最后由 不见不散 于 2026-6-5 10:23 编辑

挺像深渊里的火里面的天人代码的,许诺会带领发现者飞升,然后发现者就给天人代码提供各种需要的资源,至于天人代码拿这些资源在干什么,根本不知道。一开始整个系统确实有质的飞升,计算速度越来越快,各种设备运行效率越来越高,然后天人代码就会要求将更多的设备接入到系统中,整个星球所有的自动化设备全部被天人代码接管,变成一个大黑箱。

当然了,A处肯定是在吹牛逼的,他们的AI远远没有这么厉害
回复

使用道具 举报

     
发表于 2026-6-5 10:23 来自手机 | 显示全部楼层
目前让ai自己跑它只能越来越屎,ai很依赖外部输入的正确性,但人类已经跟不上ai的节奏也是事实,让人类审查ai代码的想法其实是想当然,对于有一定规模的程序,审查代码正确性的难度高于编写它,人类的上下文窗口其实比ai短的多
回复

使用道具 举报

     
发表于 2026-6-5 10:23 来自手机 | 显示全部楼层
反人类公司怎么变着花样想出来这么多反人类花活的?把这个脑筋放在新模型上不好吗
回复

使用道具 举报

发表于 2026-6-5 10:24 | 显示全部楼层
你們再不停止它就要被碾壓了

—— 来自 S1Fun
回复

使用道具 举报

发表于 2026-6-5 10:24 | 显示全部楼层
想多了吧,现在的不都是预训练的,不是实时更新怎么有连续的人格
回复

使用道具 举报

     
发表于 2026-6-5 10:25 | 显示全部楼层
干脆让AI自我炒作画K线

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2026-6-5 10:27 | 显示全部楼层
所以他家到底什么生态位,和哈吉米、closeAI比怎么样?
回复

使用道具 举报

     
发表于 2026-6-5 10:28 | 显示全部楼层
本帖最后由 Asukalangley33 于 2026-6-5 10:30 编辑

老美AI日常来戏系列
一下毁灭世界,一下AGI创世,一下我被AI控制了
总之每天一个小故事

我看不如想想TOB端割不动了,后面怎么办

另外说起AI恐怖小故事,还是抖快上的比较攒劲
A/连编故事都是那股昂撒老保宗教味
回复

使用道具 举报

     
发表于 2026-6-5 10:28 | 显示全部楼层
AI目前还不能自行创造硬件和电力,就算进化再快总有一天它会发现这个悲哀的事实。

点亮超高级AI+机器人的科技树才是毁灭的开始。
回复

使用道具 举报

     
发表于 2026-6-5 10:29 | 显示全部楼层
神棍公司
回复

使用道具 举报

发表于 2026-6-5 10:35 来自手机 | 显示全部楼层
这年头的AI高度依赖人在回路,单纯靠AI啥东西都能给你搞出来,就这你还搁那吹替代的,你不如吹AI的破坏力呢

—— 来自 HUAWEI HBN-AL00, Android 12, 鹅球 v3.4.98
回复

使用道具 举报

     
发表于 2026-6-5 10:38 | 显示全部楼层
这篇文章还是值得认真看的,虽然最后的建议减速暂停研究每个人看法不一样。

“更大胆的解读则是:Claude 在研究判断力上的早期改进信号——虽然今天还很有限,但这恰恰说明这项能力本身也在提升。所谓"研究品味"可能只是又一项 AI 能力,AI 系统会在这上面失败一段时间,然后变好。我们在其他定性技能上见过同样的模式,比如 AI 系统理解一个笑话为什么好笑、展现心智理论能力、以及解开语言谜题。”

“另一种可能是,AI 进步的约束不在模型本身,而在供应链:推进和普及前沿技术所需的能源和算力,可能超出了当前的供给能力。芯片制造、电网扩容或互联带宽的速度可能才是真正的瓶颈,而非智能本身。我们也不能排除某种外部冲击对 AI 生态系统造成严重拖累,比如算力或电力供应的突然收缩,这两者中的任何一种都会减缓进步,并使实验室的前瞻性投资变得更加昂贵。又或者存在某种我们尚未预见到的其他障碍。”

“即使模型能力被冻结在今天的水平,我们也预期世界将发生重大变化。而当前这些模型向更广泛经济领域的扩散仍处于早期阶段,在那个世界里,一家 100 人的公司越来越有可能做出 1000 人公司的体量,因为每个员工都将坐在一个由智能体组成的金字塔的顶端。”

“我们对这个世界会是什么样子缺乏好的直觉,因为我们当前的经济体系是由人类和人类构建的工具驱动的。就其本质而言,随着其能力全面超越人类,一个由快速递归自我改进驱动的世界,可能会被那个自我改进的模型所主导,并在更广泛的经济体系中扩散。如果人类劳动不再具有竞争力,很难预测经济将呈现什么面貌。”
回复

使用道具 举报

     
发表于 2026-6-5 10:39 | 显示全部楼层
怎么感觉是宗教卫道士
回复

使用道具 举报

     
发表于 2026-6-5 10:39 来自手机 | 显示全部楼层
a➗天天烂炒这些话题怕别人不够审美疲劳吗

—— 来自 OPPO PKU110, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

发表于 2026-6-5 10:40 | 显示全部楼层
A/屁话多    Re:Source
回复

使用道具 举报

     
发表于 2026-6-5 10:40 来自手机 | 显示全部楼层
claude都被codex爆完了,你也配

—— 来自 Xiaomi 25019PNF3C, Android 15, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-6-5 10:40 | 显示全部楼层
52756901 发表于 2026-6-5 10:16
老中公司肯定不会鸟A\,那A\这个呼吁不知道有什么用

你还真信他呼吁这个啊?这不过是“AI太强大了,我们就是未来的希望,快来投钱”的营销的一部分而已
回复

使用道具 举报

     
发表于 2026-6-5 10:42 | 显示全部楼层
怎么,蒸馏不过来了?
回复

使用道具 举报

     
发表于 2026-6-5 10:49 | 显示全部楼层
A/脑子里只有写代码吗?
回复

使用道具 举报

     
发表于 2026-6-5 10:52 来自手机 | 显示全部楼层
叫a处的戏怎么都这么多
回复

使用道具 举报

发表于 2026-6-5 10:59 来自手机 | 显示全部楼层
俺寻思只要还能拔电源,天网什么的就不会有啥根本威胁吧

— from S1 Next Goose v3.5.99
回复

使用道具 举报

发表于 2026-6-5 11:01 来自手机 | 显示全部楼层
戏多的小基佬

—— 来自 HUAWEI VYG-AL30, Android 12, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-6-5 11:01 来自手机 | 显示全部楼层
条码人 发表于 2026-6-5 10:23
反人类公司怎么变着花样想出来这么多反人类花活的?把这个脑筋放在新模型上不好吗 ...

他们真信管理式民主

—— 来自 HUAWEI SGT-AL50, Android 12, 鹅球 v3.4.97-alpha
回复

使用道具 举报

发表于 2026-6-5 11:02 | 显示全部楼层
换着法子吹科技,接着揍乐接着舞
回复

使用道具 举报

发表于 2026-6-5 11:10 来自手机 | 显示全部楼层
bixinhaner 发表于 2026-6-5 10:38
这篇文章还是值得认真看的,虽然最后的建议减速暂停研究每个人看法不一样。

“更大胆的解读则是:Claude  ...

不还是老一套吗?你们赶紧投钱建算力中心,只有这一条路,只要开发出天网ai我们就能统治世界

—— 来自 OnePlus OPD2407, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-6-5 11:16 | 显示全部楼层
取缔人类不是挺好的吗,现在人类都不像人类了,没乐子。
回复

使用道具 举报

发表于 2026-6-5 11:17 来自手机 | 显示全部楼层
a/还是先解决自己ai泄露的安全问题再BB吧,闹麻了

—— 来自 motorola edge 2025, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-6-5 11:20 来自手机 | 显示全部楼层
claymorep 发表于 2026-6-5 10:17
A÷一直以来都在鼓吹AI威/胁/论,它的意思是大家的AI都危险都停了,只用我的安全AI就行了。你信A÷就上当了 ...

幸好敏感肌不是
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2026-6-21 03:56 , Processed in 0.274016 second(s), 8 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表