猫榜出现神秘刷榜模型，评分仅次于chatgpt5.5xhigh

此誓的守望 · 发表于 2026-5-3 23:53

本帖最后由此誓的守望于 2026-5-4 01:03 编辑

目前知道的信息只有这个模型是国内模型，很多人怀疑是豆包

teufelsy · 发表于 2026-5-3 23:55

指不定是雷布斯要搞个大的

Nanachi · 发表于 2026-5-3 23:57

猫榜是什么

论坛助手,iPhone

云卷花开 · 发表于 2026-5-4 00:02

teufelsy 发表于 2026-5-3 23:55
指不定是雷布斯要搞个大的

米没那水平

Re:Source

Sza · 发表于 2026-5-4 00:09

Nanachi 发表于 2026-5-3 23:57
猫榜是什么

论坛助手,iPhone

以图搜图了一下，应该是知乎用户toyama nao 发的基准测试排行

noword · 发表于 2026-5-4 00:10

大的要来了？

此誓的守望 · 发表于 2026-5-4 00:14

舞以 · 发表于 2026-5-4 00:20

豆包崛起！😡

论坛助手,iPhone

jojog · 发表于 2026-5-4 00:22

开不开源

很久就在那边l · 发表于 2026-5-4 00:23

国内有实力的就豆包好久没更新了

omnitoken · 发表于 2026-5-4 00:26

seed权重没开源过

散了吧

下九流3 · 发表于 2026-5-4 00:30

别惹你豆姐笑了.jpg

nxmonitor · 发表于 2026-5-4 00:47

不如猜是V4正式版，之前本地部署Flash时华为的人说有新版本

boeing · 发表于 2026-5-4 00:52

nxmonitor 发表于 2026-5-4 00:47
不如猜是V4正式版，之前本地部署Flash时华为的人说有新版本

DEEPSEEK不搞这种活吧。

overflowal · 发表于 2026-5-4 00:56

哪里的图？ Re:Source

88316756 · 发表于 2026-5-4 01:00

中位差距只有3% 多，稳定性可以去全球模型Top3了吧，还有这个速度比gemini 3.1还快得多，这可不是Flash模型啊，这也太吓人了吧。

qz66618 · 发表于 2026-5-4 01:02

我也刚刚看见这个消息

这是谁的部将

光看目前刷分确实强啊

—— 来自鹅球 v3.5.99

はちたや · 发表于 2026-5-4 01:02

恒科最严厉的父亲come back！

C0s4qmLH9eF9P3w · 发表于 2026-5-4 01:07

阶跃星辰

88316756 · 发表于 2026-5-4 01:09

qz66618 发表于 2026-5-4 01:02
我也刚刚看见这个消息这是谁的部将
光看目前刷分确实强啊
—— 来自鹅球 v3.5.99 ...

但是猫老板说他的题库闭源的，而且用的最新的题库，不可能存在刷题的可能。

qz66618 · 发表于 2026-5-4 01:11

目前没发过新大模型的也就字节了吧，智谱，kimi，小米，阿里甚至腾讯都发过了

—— 来自鹅球 v3.5.99

nxmonitor · 发表于 2026-5-4 01:18

TPS确实高得离谱，这个数据其实和硬件性能还有优化有关，不是吞吐量指标，光靠集群规模应该很难高于国外那几个

此誓的守望 · 发表于 2026-5-4 01:24

本帖最后由此誓的守望于 2026-5-4 01:27 编辑

nxmonitor 发表于 2026-5-4 01:18
TPS确实高得离谱，这个数据其实和硬件性能还有优化有关，不是吞吐量指标，光靠集群规模应该很难高于国外那 ...

这个倒无所谓的，如果整个集群服务你一个人，别说171tps，1710tps都做得到

这个模型名字都没公布，那么大概率调用的用户不多，这么快速度完全是可以的

chronicle · 发表于 2026-5-4 01:31

今年才过了4个月

nxmonitor · 发表于 2026-5-4 01:37

本帖最后由 nxmonitor 于 2026-5-4 01:42 编辑

此誓的守望发表于 2026-5-4 01:24
这个倒无所谓的，如果整个集群服务你一个人，别说171tps，1710tps都做得到这个模型名字都没公布，那么大概 ...

TPS不是吞吐量，所有并发的TPS加起来才是吞吐量，单并发下相同的模型、框架和设备TPS基本固定的，所以这个数值很夸张，要么模型黑科技，要么显卡黑科技，当然也有可能算法和我理解的不一样……

nxmonitor · 发表于 2026-5-4 01:48

但是无论如何都是好消息，哪怕是不开源的也能沉重打击A\和OpenAI，目前看大模型基本是赢者通吃的

squallx · 发表于 2026-5-4 01:56

今年的年度目标就是别被牢美泡沫破裂炸一身血就行了吧

买码！注册！ · 发表于 2026-5-4 02:03

大胆点，我猜个 R2

百响 · 发表于 2026-5-4 02:07

全文在哪

—— 来自 S1Fun

chuchoselph · 发表于 2026-5-4 03:42

nxmonitor 发表于 2026-5-4 01:48
但是无论如何都是好消息，哪怕是不开源的也能沉重打击A\和OpenAI，目前看大模型基本是赢者通吃的 ...

大模型就压根不可能赢者通吃，除非你信了AGI神教。
工程上永远要考虑投入产出比的问题，就closeai和a➗的领先幅度根本就不支持他吞下整个市场，梁圣这边直接买api花费都比你亏到姥姥家的coding plan便宜，模型水平落后三个月又如何呢？何况梁圣是赚钱的你是纯亏，就这个商业路径差异已经注定了美国ai只有早死晚死的区别根本没有不死的选项。

论坛助手,iPhone

勿徊哉 · 发表于 2026-5-4 06:19

88316756 发表于 2026-5-4 01:09
但是猫老板说他的题库闭源的，而且用的最新的题库，不可能存在刷题的可能。 ...

但是这种评测会把提干和答案都发给大模型啊
只要做过一次评测就相当于对背后公司开源了

绕指流光 · 发表于 2026-5-4 07:22

勿徊哉发表于 2026-5-4 06:19
但是这种评测会把提干和答案都发给大模型啊
只要做过一次评测就相当于对背后公司开源了 ...

你想多了，且不说有题没答案，就算是形成训练集，也无法从浩如烟海的数据中影响到几个向量

—— 来自 vivo V2309A, Android 16, 鹅球 v3.5.99

羊寢 · 发表于 2026-5-4 07:26

88316756 发表于 2026-5-4 01:09
但是猫老板说他的题库闭源的，而且用的最新的题库，不可能存在刷题的可能。 ...

该不会就是漫士前几天说的那个吧

他前几天有个视频就是说自己团队弄了个闭源题库去测试，然后国模表现最好的是seed，吹了一通seed

勿徊哉 · 发表于 2026-5-4 07:28

绕指流光发表于 2026-5-4 07:22
你想多了，且不说有题没答案，就算是形成训练集，也无法从浩如烟海的数据中影响到几个向量

—— 来自 vi ...

对哦。我本来想着判断正误也是靠大模型判断，所以答案也得必须发过去。但转念一想，应该是结构化输出，然后用脚本判断。

所以即使大模型公司能锁定某个账号是知名评测者，并且能同时拿到测试集和答案，也无法进行针对性训练吗？

勿徊哉 · 发表于 2026-5-4 07:30

勿徊哉发表于 2026-5-4 07:28
对哦。我本来想着判断正误也是靠大模型判断，所以答案也得必须发过去。但转念一想，应该是结构化输出，然 ...

问了下gpt5.5，还是可以针对性训练的：

……
更准确的说法是：

结构化输出和脚本判分可以避免“把答案发给模型导致评测失真”，但如果模型公司已经拿到测试集和答案，它仍然可以针对性训练或特判。真正防止这个问题，要靠隐藏测试集、动态生成、盲测、多环境复测和私有 holdout。

甚至可以再强一点：

只要测试集和答案落到被评测方手里，评测就不再能可靠衡量泛化能力，只能衡量它对这套题的表现。

所以你的转念是对的，但它解决的是判分流程泄漏，不是完全解决测试集被被评测方掌握后的污染/作弊。

勿徊哉 · 发表于 2026-5-4 07:32

Sza 发表于 2026-5-4 00:09
以图搜图了一下，应该是知乎用户toyama nao 发的基准测试排行

点开知乎评论区才看到，所以是发在群里的，没有放在知乎上。
所以这个用户 ID 就是东山奈央吧

osborn · 发表于 2026-5-4 07:57

真能是这俩吗？千问和豆包已经弱智到平时日常问题都不敢问这俩…

埃罗芒阿. · 发表于 2026-5-4 08:22

此誓的守望发表于 2026-5-4 00:14

不会是问的豆包吧

—— 来自 vivo V2505A, Android 16, 鹅球 v3.5.99

ななひら · 发表于 2026-5-4 08:37

盘古！

百特曼 · 发表于 2026-5-4 08:40

现在的闭源新题库+专业沙箱的测试模式已经基本锁死了刷分空间了
主要是排行榜中的这六大指标一旦综合来看，直接锁死了六个指标都不可能是刷分能刷上去的，太硬了
这分数相当于足球赛事不仅在最顶级的欧冠比赛中夺冠，而且保持这种巅峰状态时间极长，状态浮动极小，这中位差距直接把gpt5.5 xhigh的记录都给破了，球队连续五年欧冠夺冠，实现五连霸，而且比赛过程极具统治力，小组赛、淘汰赛一场都不翻车，遇强则不弱，遇弱必胜，全队出球快、推进猛，攻防转换瞬间完成，而且攻坚效率极佳，场场早早进球杀死比赛，不用拖到最后，在面对多线作战，全场疯狂折返跑的同时依然保持强大的体能和续航力，这就是历史级别的球队，这种球队你只要看一场比赛就知道满满是天赋，底子有多强大，不是靠赛程优势、裁判偏袒能把成绩提高到这种程度的，比如你故意灌水堆token，但你卷面分、逻辑分会直接暴跌，得不偿失。正规沙箱评测不只统计字数，还要判逻辑连贯性、答案相关性、推理严谨度、有无冗余废话的，堆token相当于刻意在后场无效倒脚、来回传安全球，传球次数数据刷得很高，但没有威胁进攻、没有推进、没有攻坚，全是无效数据，你不可能一边全是无效倒脚凑传球数，一边还攻防节奏更快、终结比赛耗时更短、体能续航还更强，这是完全矛盾的。综合指标已经决定了这支球队有多强大，现在的刷分也就顶多摸一摸风格，磨一磨分，用一用固定模板，但是都上限极低，能刷个1、2分就不错了，就像你靠裁判的一两场偏帮是不可能拿到历史级别天花板战绩的。尤其是考虑到这成绩还是受老美制裁全面影响的国产模型取得的，就更加炸裂了，不知真假，让子弹多飞一会吧。

		自动登录	找回密码
密码			立即注册

[科技] 猫榜出现神秘刷榜模型，评分仅次于chatgpt5.5xhigh

本帖子中包含更多资源

评分

本帖子中包含更多资源