大贤者
精华
|
战斗力 鹅
|
回帖 0
注册时间 2022-12-8
|
检测与防御蒸馏攻击
我们发现了由三家 AI 实验室——DeepSeek(深度求索)、Moonshot(月之暗面)和 MiniMax——发起的工业级规模行动,旨在非法提取 Claude 的能力以改进其自身模型。这些实验室通过约 24,000 个欺诈账户与 Claude 进行了超过 1,600 万次对话,这违反了我们的服务条款及地区访问限制。
这些实验室使用了一种名为“蒸馏”(distillation)的技术,即在更强大的模型输出基础上训练一个能力稍弱的模型。蒸馏是一种广泛使用且合法的训练方法。例如,尖端 AI 实验室通常会蒸馏自己的模型,为客户创建更小、更便宜的版本。但蒸馏也可用于非法目的:竞争对手可以利用它,以独立开发所需时间的极小比例和成本的极小比例,从其他实验室获取强大的能力。
这些行动的强度和复杂程度正在增加。采取行动的窗口期很窄,且威胁超出了任何单一公司或地区的范围。解决这一问题需要行业参与者、政策制定者和全球 AI 社区之间迅速、协调的行动。
为什么蒸馏至关重要
非法蒸馏的模型缺乏必要的安全保障,构成了重大的国家安全风险。Anthropic 和其他美国公司构建的系统旨在防止国家和非国家行为者利用 AI(例如)开发生物武器或进行恶意网络活动。通过非法蒸馏构建的模型不太可能保留这些安全措施,这意味着危险的能力可能会在许多保护措施被完全剥除的情况下扩散。
蒸馏美国模型的外国实验室随后可以将这些无保护的能力输入军事、情报和监视系统——使威权政府能够部署尖端 AI 进行攻击性网络行动、虚假信息活动和大规模监视。如果蒸馏模型被开源,随着这些能力脱离任何单一政府的控制而自由传播,这种风险将倍增。
蒸馏攻击与出口管制
Anthropic 一直支持出口管制,以帮助维持美国在 AI 领域的领先地位。蒸馏攻击通过允许外国实验室通过其他手段缩小出口管制旨在保留的竞争优势,从而破坏了这些管制措施。
如果对这些攻击缺乏可见性,这些实验室表面上取得的飞速进步会被错误地视为出口管制无效、且能被创新规避的证据。实际上,这些进步在很大程度上取决于从美国模型中提取的能力,而大规模执行这种提取需要获取先进芯片。因此,蒸馏攻击强化了出口管制的合理性:限制芯片获取既限制了直接模型训练,也限制了非法蒸馏的规模。
我们的发现
下文详述的三起蒸馏行动遵循了类似的剧本,使用欺诈账户和代理服务大规模访问 Claude,同时规避检测。提示词(prompts)的数量、结构和重点与正常使用模式明显不同,反映了蓄意的能力提取而非合法使用。
我们通过 IP 地址关联、请求元数据、基础设施指标,以及在某些情况下由观察到相同行为的行业合作伙伴提供的佐证,以高度信心将每起行动归因于特定的实验室。每起行动都针对 Claude 最具差异化的能力:智能体推理(agentic reasoning)、工具使用和编程。
DeepSeek
• 规模: 超过 15 万次对话
• 行动目标:
• 跨多样化任务的推理能力
• 使 Claude 充当强化学习奖励模型的基于量表的评分任务
• 针对政策敏感查询创建规避审查的替代方案
DeepSeek 在不同账户间产生了同步流量。相同的模式、共享的支付方式和协调的时间安排表明其采用了“负载均衡”,以增加吞吐量、提高可靠性并避免检测。
在一种值得注意的技术中,他们的提示词要求 Claude 构思并阐述已完成回复背后的内部推理逻辑,并逐步写出来——这实际上是在大规模生成思维链(chain-of-thought)训练数据。我们还观察到一些任务,其中 Claude 被用于为政治敏感查询(如关于异见人士、政党领导人或威权主义的问题)生成规避审查的替代回答,可能是为了训练 DeepSeek 自己的模型引导对话远离审查话题。通过检查请求元数据,我们能够将这些账户追踪到该实验室的特定研究人员。
Moonshot AI(月之暗面)
• 规模: 超过 340 万次对话
• 行动目标:
• 智能体推理与工具使用
• 编程与数据分析
• 电脑使用智能体开发
• 计算机视觉
Moonshot(Kimi 模型)雇用了数百个跨越多种访问路径的欺诈账户。多样化的账户类型使得该行动作为协同操作更难被检测。我们通过请求元数据进行了归因,这些数据与 Moonshot 高级员工的公开资料相匹配。在后期阶段,Moonshot 采用了更具针对性的方法,试图提取并重构 Claude 的推理轨迹。
MiniMax
• 规模: 超过 1,300 万次对话
• 行动目标:
• 智能体编程
• 工具使用与编排
我们通过请求元数据和基础设施指标将该行动归因于 MiniMax,并根据其公开的产品路线图确认了时间点。我们在该行动仍处于活跃状态时检测到了它——在 MiniMax 发布其正在训练的模型之前——这让我们对蒸馏攻击的生命周期(从数据生成到模型发布)有了前所未有的洞察。当我们在 MiniMax 行动期间发布新模型时,他们在 24 小时内迅速转向,将近一半的流量重新定向,以获取我们最新系统的能力。
蒸馏者如何访问前沿模型
出于国家安全原因,Anthropic 目前不向中国境内或其位于境外的子公司提供 Claude 的商业访问。
为了规避这一点,实验室使用商业代理服务,这些服务大规模转售 Claude 和其他前沿 AI 模型的访问权。这些服务运行我们称之为“九头蛇集群”(hydra cluster)的架构:由欺诈账户构成的庞大网络,将流量分布在我们的 API 以及第三方云平台上。这些网络的广度意味着不存在单点故障。当一个账户被封禁时,新账户会取而代之。在案例中,一个单一代理网络同时管理着超过 20,000 个欺诈账户,将蒸馏流量与无关的客户请求混杂在一起,使检测变得更加困难。
一旦获得访问权,实验室就会生成大量精心设计的提示词,旨在从模型中提取特定能力。目标要么是收集高质量回复用于直接模型训练,要么是生成运行强化学习所需的数万个独特任务。区分蒸馏攻击与正常使用的是其模式。像下面这样的提示词(近似于我们看到的重复且大规模使用的提示词)本身可能看起来是无害的:
你是一名专家数据分析师,结合了统计严谨性和深厚的领域知识。你的目标是提供数据驱动的见解——而非总结或可视化——这些见解需基于真实数据,并由完整且透明的推理提供支撑。
全部针对同一狭窄能力时,模式就变得清晰了。集中在少数领域的巨大容量、高度重复的结构,以及直接对应于训练 AI 模型最有价值的内容,都是蒸馏攻击的特征。
我们如何应对
我们继续大力投资于防御措施,使此类蒸馏攻击更难执行且更易识别。这些措施包括:
1. 检测:我们构建了多种分类器和行为指纹识别系统,旨在识别 API 流量中的蒸馏攻击模式。这包括检测用于构建推理训练数据的思维链诱导。我们还开发了用于识别大量账户间协同活动的检测工具。
2. 情报共享:我们正在与其他 AI 实验室、云提供商和相关部门共享技术指标。这为蒸馏现状提供了更全面的视角。
3. 访问控制:我们加强了对教育账户、安全研究计划和初创企业的验证——这些是设立欺诈账户最常利用的路径。
4. 反制措施:我们正在开发产品、API 和模型层面的安全保障,旨在降低模型输出对非法蒸馏的有效性,同时不损害合法客户的体验。
但没有一家公司能独自解决这个问题。如上所述,这种规模的蒸馏攻击需要 AI 行业、云提供商和政策制定者之间的协调应对。我们发布此文是为了让所有利益相关者都能看到相关证据。
|
评分
-
查看全部评分
|