找回密码
 立即注册
搜索
查看: 4160|回复: 25

[科技] OpenAI发布GPT5.6 sol terra lunar

[复制链接]
     
发表于 2026-6-27 01:42 | 显示全部楼层 |阅读模式
我们正在开始对 GPT-5.6 系列模型进行限量预览。其中包括我们的旗舰模型 Sol,一款适合日常工作的平衡型模型 Terra,以及一款快速且经济实惠的模型 Luna。Terra 的性能可媲美 GPT-5.5,但价格便宜了 2 倍,而 Luna 则以我们最低的成本带来了强大的能力。GPT-5.6 Sol 带着我们迄今为止最强大的安全栈亮相。我们加强了对高风险活动、敏感网络请求和重复滥用行为的保护,并花费了数周时间寻找系统漏洞、进行压力测试,并使其在面对现实世界的攻击时更加坚固。

我们坚信工具应该被广泛获取,并计划在未来几周内向大众正式开放 GPT-5.6 Sol、Terra 和 Luna。作为我们与美国政府持续沟通的一部分,我们在今日正式发布前,向政府预览了我们的计划和模型的能力。应政府要求,我们正率先面向一小部分值得信赖的合作伙伴进行限量预览,其参与情况已与政府共享,随后再更广泛地发布。在此预览期间,我们将继续进行测试并与合作伙伴密切协调。我们不认为这种政府准入流程应该成为长期的常态,因为它将最好的工具隔绝在真正需要它们的普通用户、开发者、企业、网络防御者和全球合作伙伴之外。我们之所以采取这一短期步骤,是因为我们相信这是在未来几周内通往更广泛开放的最坚实路径,与此同时,我们也在与美国政府合作,以制定网络行政命令框架以及未来模型发布的常规化流程。

GPT-5.6 Sol 是我们迄今为止最强悍的模型。为了预览模型性能,我们分享了一组基准评估,重点展示了其在编程、生物学和网络安全方面提升的智能体能力,其他关于安全和防范的评估可在我们的系统卡片中查看。当模型广泛开放时,我们将分享更全面的评估结果。在 GPT-5.6 中,我们引入了全新的 max 推理努力设置,以给予 Sol 最充足的时间来进行深度推理。此外,我们还推出了全新的 ultra 模式,该模式通过利用子智能体协同作业来加速复杂工作,从而超越了单一智能体的能力极限。

在编程工作流中,GPT-5.6 Sol 在 Terminal-Bench 2.1 上刷新了行业最高纪录。该基准主要测试需要规划、迭代和工具协同的极端命令行工作流。在此项测试中,GPT-5.6 Sol Ultra 取得了 91.9% 的最高分,GPT-5.6 Sol 取得 88.8%,而 GPT-5.5 评分为 88.0%。相比之下,Claude Mythos 5 得分为 84.3%,Claude Opus 4.8 为 84.3%,GPT-5.6 Terra 为 82.5%,Claude Fable 5 为 83.4%,GPT-5.6 Luna 为 78.9%,Gemini 3.1 Pro Preview 为 70.7%。

GPT-5.6 Sol 在生物学工作流中也展现出了广泛的改进。在评估长周期基因组学和定量生物学分析的 GeneBench v1 上,它在消耗更少 Token 的情况下,取得了比 GPT-5.5 更好的成绩。同时,GPT-5.6 Sol 也是我们迄今为止在网络安全领域最强大的模型。它打破了长周期安全任务的性能与效率边界。在 ExploitBench 评估中,GPT-5.6 Sol 仅使用约三分之一的输出 Token,便能与 Mythos Preview 齐头并进。在由加州大学伯克利分校研究人员与 OpenAI 及其他前沿实验室合作创建的 ExploitGym 基准上,随着我们增加推理力度,GPT-5.6 Sol、Terra 和 Luna 模型在网络能力上都展现出了强劲的增长。

我们在开发 GPT-5.6 Sol、Terra 和 Luna 时,采用了迄今为止最牢固的防护措施,并为每款模型的自身能力匹配了对应的配置。随着模型能力越来越强,我们设计的安全措施将能越来越多地抵御现实世界中的对抗压力,同时保留对合法工作的支持,例如代码审查、漏洞研究、补丁开发、调试、安全教育和防御性测试。我们的目标是让受禁止的攻击性活动变得更加困难、充满不确定性且易于被察觉,同时不非必要地限制那些有益的用途。基于我们对模型和防护措施的评估,我们预计这会为合法的防御工作带来巨大收益,同时能显著约束被禁止的攻击性使用。

相比于稳定地执行端到端的网络攻击,GPT-5.6 Sol 更擅长帮助人类发现并修复漏洞。随着这些能力持续演进,我们的首要任务是确保它们能够触及并造福防御者,让他们能使用这些工具寻找弱点、开发补丁并广泛加固系统。在我们的防范框架下,GPT-5.6 Sol 并未越过网络关键红线。在涉及 Chromium 和 Firefox 的评估中,它能够识别出 Bug 和漏洞利用原语,但在测试条件下,它无法自主产生一个功能完整的全链条漏洞利用。尽管如此,基准测试的红线并不能捕捉到模型被使用或与其他工具组合的所有方式。正是由于这种不确定性以及模型能力的飞跃,我们才将增强的能力与更强的防护及分阶段发布相结合。

面对顽固或具有适应能力的滥用行为,单一的安全措施是不够的。在整个 GPT-5.6 预览版中,我们采用了分层的安全栈,具体配置因模型而异,并针对现实世界的攻击进行了压力测试。这包括训练进模型内部的保护、生成过程中的实时检查、账号级别的信号监测、差异化访问权限、监控、执行以及持续的测试。GPT-5.6 经过训练,会拒绝提供受禁止的网络协助,即使在用户试图伪装其真实意图或对模型进行越狱时也是如此。这些模型层面的防护构成了模型提供帮助的第一道边界。

针对网络和生物领域的滥用,实时分类器提供了另一层防护,在内容生成的同时进行评估。对于高风险情况,如果它们检测到潜在的违规行为,生成可能会暂停,并由一个更大的推理模型来审查该对话及其上下文。如果输出被评估为不合规,它将在到达用户之前被拦截。被标记的活动还可以触发对相关对话和风险信号的账号级审查。站在超越单一对话的全局视角,有助于我们的系统将持久的恶意行为与合法的双重用途安全工作区分开来,因为在完全不同的语境中,类似的底层技术概念可能会以大不相同的方式出现。

尤其是在预览期间,用户可能会遇到安全措施拦截或拒绝某些请求的情况。有些请求可能会花费更长的时间,因为生成过程会因额外的审查而暂停。安全措施偶尔也会干扰合法的工作,特别是在防御性和攻击性活动最初看起来非常相似的双重用途领域。但这正是预览版所旨在测试的一部分。我们不仅想了解安全措施是否限制了滥用,还想知道合法的用户是否仍能可靠、高效地完成正常工作。预览期间的反馈将帮助我们减少不必要的拦截和延迟,改善防护措施对上下文的理解,并在扩大发布前创造更流畅的体验。我们还在与企业客户合作研究更长期的方案,包括保护隐私的检测机制、客户自主控制的安全控制台,以及根据客户、用户或工作负载的风险定制的访问权限。

当攻击者改变策略时,安全防护也需要保持有效。一个仅仅针对一组已知攻击有效的保护措施,对于前沿模型来说是远远不够的。这就是为什么我们在安全领域投入了比以往更多的智能和算力,利用我们自己的模型来更快地发现弱点并改进安全措施。我们投入了超过 70,000 个 A100 等效 GPU 小时用于自动化红队测试,旨在寻找通用越狱,即可以在许多提示词或上下文中生效的攻击。专注于这些更困难、更通用的攻击,让我们的测试超越了固定的已知失败案例,也让我们能够探索比仅靠人工测试多得多的攻击模式,从而更早地发现失败模式,并缩短从发现弱点到修复弱点的路径。除了自动化红队外,我们还与第三方测试人员合作,进行了广泛的人类专家红队测试,这将在预览期间持续进行。

在预览期间,GPT-5.6 模型将首先通过 API 和 Codex 向一小部分信赖的合作伙伴和组织开放。我们计划很快向使用 ChatGPT、Codex 和 API 的普通用户更广泛地开放。在 GPT-5.6 引入的这一新命名系统中,数字代表模型的世代,而 Sol、Terra 和 Luna 代表持久的能力层级,它们可以按照各自的节奏独自演进。这套家族模型为用户和开发者在智能、速度和成本之间提供了更清晰的选择。

GPT-5.6 按照每 100 万 Token 进行计费。旗舰款 Sol 的价格为输入 5 美元,输出 30 美元;平衡款 Terra 的价格为输入 2.50 美元,输出 15 美元;经济款 Luna 的价格为输入 1 美元,输出 6 美元。GPT-5.6 还引入了更具可预测性的提示词缓存,包括支持显式缓存断点以及 30 分钟的最低缓存寿命。对于 GPT-5.6 及更晚的模型,缓存写入按模型未缓存输入费率的 1.25 倍计费,而缓存读取继续享受 90% 的折扣。此外,我们还将在 7 月份于 Cerebras 上推出 GPT-5.6 Sol,其运行速度最高可达每秒 750 个 Token,以史无前例的速度为客户带来前沿智能。随着我们扩大产能,最初的访问将仅限于特定客户。我们很高兴能继续从这个预览期中学习,并期待很快将 GPT-5.6 Sol、Terra 和 Luna 带给更多的人。

https://openai.com/index/previewing-gpt-5-6-sol/
回复

使用道具 举报

     
发表于 2026-6-27 01:58 来自手机 | 显示全部楼层
名字怎么开始抄隔壁了

—— 来自 Xiaomi 24072PX77C, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-6-27 02:58 | 显示全部楼层
A\ 害人害己啊 把自己吹死了 还把OpenAI给限制了
回复

使用道具 举报

     
发表于 2026-6-27 03:14 | 显示全部楼层
benchmark都能吹 先拿出来给人用用
回复

使用道具 举报

发表于 2026-6-27 05:46 | 显示全部楼层
限制使用后,数据飞轮就转不起来了吧,这两家到头来还是傻逼了
回复

使用道具 举报

     
发表于 2026-6-27 07:40 | 显示全部楼层
A/真的太傻逼了,吹牛把自己和行业吹死了
回复

使用道具 举报

     
发表于 2026-6-27 07:42 来自手机 | 显示全部楼层
你们不懂,不给用的才是最强的,更有想象空间。
回复

使用道具 举报

     
发表于 2026-6-27 07:44 来自手机 | 显示全部楼层
gpt5.5这周也降智得跟脑瘫一样,gemini基本已经不能正常对话还不如豆包,美国ai何去何从啊(棒读)

—— 来自 HUAWEI SGU-AL10, Android 12, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-6-27 09:14 来自手机 | 显示全部楼层
这些大模型起名怎么越来越花里胡哨了
回复

使用道具 举报

     
发表于 2026-6-27 09:27 | 显示全部楼层
啥批A/搞营销,非得按个名字不搞序号,开始有样学样了,这些AI名称又更乱了
回复

使用道具 举报

     
发表于 2026-6-27 09:32 来自手机 | 显示全部楼层
自私但是是有道理的,ai已经不是以前图一乐的东西的而是有可能事关人类未来,我看国内公司的开源也该停了

评分

参与人数 4战斗力 -7 收起 理由
那一年的河川 -1 欢乐多
thecatnie -2
云卷花开 -2 入脑 A 畜信徒
camelia_vie2 -2

查看全部评分

回复

使用道具 举报

     
发表于 2026-6-27 09:35 来自手机 | 显示全部楼层
楼上莫名其妙。
回复

使用道具 举报

发表于 2026-6-27 09:48 | 显示全部楼层
起名不能更清晰点么

回复

使用道具 举报

     
发表于 2026-6-27 11:01 | 显示全部楼层
这就是周四你5.5一整天用不了的原因?拉完了
回复

使用道具 举报

     
发表于 2026-6-27 11:09 | 显示全部楼层
事关人类未来不是更应该开源权重吗
回复

使用道具 举报

     
发表于 2026-6-27 11:11 | 显示全部楼层
怎么也开始学Claude的名字起各种代号了,大家能记住的也就是Opus,Fable。GPT好不容易从原来的O家族,GPT家族合并回了GPT 5.x nano/mini/instant/thinking/pro
回复

使用道具 举报

     
发表于 2026-6-27 11:22 来自手机 | 显示全部楼层
Mythos5发现漏洞无敌,Sol安全防护无敌,用你的矛**的盾会啥样啊?
回复

使用道具 举报

发表于 2026-6-27 11:45 | 显示全部楼层
很久就在那边l 发表于 2026-6-27 09:32
自私但是是有道理的,ai已经不是以前图一乐的东西的而是有可能事关人类未来,我看国内公司的开源也该停了 ...

这两家现在还领先就是靠着有人用,能够直接经受困难问题考验,本家框架拿用户数据训练,现在用户被限制了,到头来不还是要泯然众人?
回复

使用道具 举报

     
发表于 2026-6-27 13:04 来自手机 | 显示全部楼层
我不懂事关人类未来为何要把开源停掉,事关丑国资本未来那是应该把 deepseek 之流干掉

—— 来自 vivo V2405A, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-6-27 13:14 | 显示全部楼层
本帖最后由 malisa 于 2026-6-27 13:15 编辑

因为Dario是真邪门

今天看到一份19年的报道,说GPT-2 因为Dario的要求,推迟发布,因为太危险

还有爆料称这次阿川和a\谈判,阿川的人觉得Dario这个人没法沟通,后来换了人才开始谈下去
回复

使用道具 举报

     
发表于 2026-6-27 13:23 来自手机 | 显示全部楼层
malisa 发表于 2026-6-27 13:14
因为Dario是真邪门

今天看到一份19年的报道,说GPT-2 因为Dario的要求,推迟发布,因为太危险

能把奥特曼和李彦宏衬托得像个圣人的玩意,畜生程度根本是正常人想不到的

—— 来自 HUAWEI SGU-AL10, Android 12, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-6-27 13:30 | 显示全部楼层
拆版本应该也是要分为面向白宫和面向大众了
扩肛达里奥和反人类必然是要在科技史上留下一泡的存在,现在这样已经有闭关锁国的神似了,可惜北美可能没一个新美国给他盖棺
回复

使用道具 举报

     
发表于 2026-6-27 13:48 | 显示全部楼层
很久就在那边l 发表于 2026-6-27 09:32
自私但是是有道理的,ai已经不是以前图一乐的东西的而是有可能事关人类未来,我看国内公司的开源也该停了 ...

国内开源又不是白开源的

冲击美帝闭源商业模式,阻止他们垄断卖高价服务回本

这种阳谋效果拔群,没啥不好的

回复

使用道具 举报

发表于 2026-6-27 14:17 来自手机 | 显示全部楼层
还有闭源AI的信徒的,也不想想没有开源模型,到时候只要用到AI的领域都被那几家公司把持,你作为使用者扛不扛得住安全风险和token花销啊?

—— 来自 HUAWEI HBN-AL00, Android 12, 鹅球 v3.4.98
回复

使用道具 举报

发表于 2026-6-28 00:36 来自手机 | 显示全部楼层
事关人类未来的事那么多,为啥都觉得AI得开源
回复

使用道具 举报

     
发表于 2026-6-28 02:20 | 显示全部楼层
我还以为奥特曼能抓住着A/把自己玩死的机会, 彻底干死它呢,结果走上了A/的老路...
果然狗屎就是狗屎...
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2026-7-1 09:18 , Processed in 0.123862 second(s), 8 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表