猫榜出现神秘刷榜模型，评分仅次于chatgpt5.5xhigh

此誓的守望 发表于 2026-5-3 23:53

本帖最后由此誓的守望于 2026-5-4 01:03 编辑

目前知道的信息只有这个模型是国内模型，很多人怀疑是豆包

teufelsy 发表于 2026-5-3 23:55

指不定是雷布斯要搞个大的

Nanachi 发表于 2026-5-3 23:57

猫榜是什么

论坛助手,iPhone

云卷花开 发表于 2026-5-4 00:02

teufelsy 发表于 2026-5-3 23:55
指不定是雷布斯要搞个大的

米没那水平

Re:Source

Sza 发表于 2026-5-4 00:09

Nanachi 发表于 2026-5-3 23:57
猫榜是什么

论坛助手,iPhone

以图搜图了一下，应该是知乎用户toyama nao 发的基准测试排行

noword 发表于 2026-5-4 00:10

大的要来了？

此誓的守望 发表于 2026-5-4 00:14

舞以发表于 2026-5-4 00:20

豆包崛起！😡

论坛助手,iPhone

jojog 发表于 2026-5-4 00:22

开不开源

很久就在那边l 发表于 2026-5-4 00:23

国内有实力的就豆包好久没更新了

omnitoken 发表于 2026-5-4 00:26

seed权重没开源过

散了吧

下九流3 发表于 2026-5-4 00:30

别惹你豆姐笑了.jpg

nxmonitor 发表于 2026-5-4 00:47

不如猜是V4正式版，之前本地部署Flash时华为的人说有新版本

boeing 发表于 2026-5-4 00:52

nxmonitor 发表于 2026-5-4 00:47
不如猜是V4正式版，之前本地部署Flash时华为的人说有新版本

DEEPSEEK不搞这种活吧。

overflowal 发表于 2026-5-4 00:56

哪里的图？ Re:Source

88316756 发表于 2026-5-4 01:00

中位差距只有3% 多，稳定性可以去全球模型Top3了吧，还有这个速度比gemini 3.1还快得多，这可不是Flash模型啊，这也太吓人了吧。

qz66618 发表于 2026-5-4 01:02

我也刚刚看见这个消息这是谁的部将
光看目前刷分确实强啊
—— 来自鹅球 v3.5.99

はちたや 发表于 2026-5-4 01:02

恒科最严厉的父亲come back！

C0s4qmLH9eF9P3w 发表于 2026-5-4 01:07

阶跃星辰

88316756 发表于 2026-5-4 01:09

qz66618 发表于 2026-5-4 01:02
我也刚刚看见这个消息这是谁的部将
光看目前刷分确实强啊
—— 来自鹅球 v3.5.99 ...

但是猫老板说他的题库闭源的，而且用的最新的题库，不可能存在刷题的可能。

qz66618 发表于 2026-5-4 01:11

目前没发过新大模型的也就字节了吧，智谱，kimi，小米，阿里甚至腾讯都发过了

—— 来自鹅球 v3.5.99

nxmonitor 发表于 2026-5-4 01:18

TPS确实高得离谱，这个数据其实和硬件性能还有优化有关，不是吞吐量指标，光靠集群规模应该很难高于国外那几个

此誓的守望 发表于 2026-5-4 01:24

本帖最后由此誓的守望于 2026-5-4 01:27 编辑

nxmonitor 发表于 2026-5-4 01:18
TPS确实高得离谱，这个数据其实和硬件性能还有优化有关，不是吞吐量指标，光靠集群规模应该很难高于国外那 ...
这个倒无所谓的，如果整个集群服务你一个人，别说171tps，1710tps都做得到这个模型名字都没公布，那么大概率调用的用户不多，这么快速度完全是可以的

chronicle 发表于 2026-5-4 01:31

今年才过了4个月

nxmonitor 发表于 2026-5-4 01:37

本帖最后由 nxmonitor 于 2026-5-4 01:42 编辑

此誓的守望发表于 2026-5-4 01:24
这个倒无所谓的，如果整个集群服务你一个人，别说171tps，1710tps都做得到这个模型名字都没公布，那么大概 ...
TPS不是吞吐量，所有并发的TPS加起来才是吞吐量，单并发下相同的模型、框架和设备TPS基本固定的，所以这个数值很夸张，要么模型黑科技，要么显卡黑科技，当然也有可能算法和我理解的不一样……

nxmonitor 发表于 2026-5-4 01:48

但是无论如何都是好消息，哪怕是不开源的也能沉重打击A\和OpenAI，目前看大模型基本是赢者通吃的

squallx 发表于 2026-5-4 01:56

今年的年度目标就是别被牢美泡沫破裂炸一身血就行了吧

买码！注册！ 发表于 2026-5-4 02:03

大胆点，我猜个 R2

百响发表于 2026-5-4 02:07

全文在哪

—— 来自 S1Fun

chuchoselph 发表于 2026-5-4 03:42

nxmonitor 发表于 2026-5-4 01:48
但是无论如何都是好消息，哪怕是不开源的也能沉重打击A\和OpenAI，目前看大模型基本是赢者通吃的 ...

大模型就压根不可能赢者通吃，除非你信了AGI神教。
工程上永远要考虑投入产出比的问题，就closeai和a➗的领先幅度根本就不支持他吞下整个市场，梁圣这边直接买api花费都比你亏到姥姥家的coding plan便宜，模型水平落后三个月又如何呢？何况梁圣是赚钱的你是纯亏，就这个商业路径差异已经注定了美国ai只有早死晚死的区别根本没有不死的选项。

论坛助手,iPhone

勿徊哉 发表于 2026-5-4 06:19

88316756 发表于 2026-5-4 01:09
但是猫老板说他的题库闭源的，而且用的最新的题库，不可能存在刷题的可能。 ...

但是这种评测会把提干和答案都发给大模型啊
只要做过一次评测就相当于对背后公司开源了

绕指流光 发表于 2026-5-4 07:22

勿徊哉发表于 2026-5-4 06:19
但是这种评测会把提干和答案都发给大模型啊
只要做过一次评测就相当于对背后公司开源了 ...

你想多了，且不说有题没答案，就算是形成训练集，也无法从浩如烟海的数据中影响到几个向量

—— 来自 vivo V2309A, Android 16, 鹅球 v3.5.99

羊寢发表于 2026-5-4 07:26

88316756 发表于 2026-5-4 01:09
但是猫老板说他的题库闭源的，而且用的最新的题库，不可能存在刷题的可能。 ...

该不会就是漫士前几天说的那个吧他前几天有个视频就是说自己团队弄了个闭源题库去测试，然后国模表现最好的是seed，吹了一通seed

勿徊哉 发表于 2026-5-4 07:28

绕指流光发表于 2026-5-4 07:22
你想多了，且不说有题没答案，就算是形成训练集，也无法从浩如烟海的数据中影响到几个向量

—— 来自 vi ...

对哦。我本来想着判断正误也是靠大模型判断，所以答案也得必须发过去。但转念一想，应该是结构化输出，然后用脚本判断。

所以即使大模型公司能锁定某个账号是知名评测者，并且能同时拿到测试集和答案，也无法进行针对性训练吗？

勿徊哉 发表于 2026-5-4 07:30

勿徊哉发表于 2026-5-4 07:28
对哦。我本来想着判断正误也是靠大模型判断，所以答案也得必须发过去。但转念一想，应该是结构化输出，然 ...
问了下gpt5.5，还是可以针对性训练的：

……
更准确的说法是：

结构化输出和脚本判分可以避免“把答案发给模型导致评测失真”，但如果模型公司已经拿到测试集和答案，它仍然可以针对性训练或特判。真正防止这个问题，要靠隐藏测试集、动态生成、盲测、多环境复测和私有 holdout。

甚至可以再强一点：

只要测试集和答案落到被评测方手里，评测就不再能可靠衡量泛化能力，只能衡量它对这套题的表现。

所以你的转念是对的，但它解决的是判分流程泄漏，不是完全解决测试集被被评测方掌握后的污染/作弊。

勿徊哉 发表于 2026-5-4 07:32

Sza 发表于 2026-5-4 00:09
以图搜图了一下，应该是知乎用户toyama nao 发的基准测试排行

点开知乎评论区才看到，所以是发在群里的，没有放在知乎上。
所以这个用户 ID 就是东山奈央吧

osborn 发表于 2026-5-4 07:57

真能是这俩吗？千问和豆包已经弱智到平时日常问题都不敢问这俩…

埃罗芒阿. 发表于 2026-5-4 08:22

此誓的守望发表于 2026-5-4 00:14

不会是问的豆包吧

—— 来自 vivo V2505A, Android 16, 鹅球 v3.5.99

ななひら 发表于 2026-5-4 08:37

盘古！

百特曼 发表于 2026-5-4 08:40

现在的闭源新题库+专业沙箱的测试模式已经基本锁死了刷分空间了
主要是排行榜中的这六大指标一旦综合来看，直接锁死了六个指标都不可能是刷分能刷上去的，太硬了
这分数相当于足球赛事不仅在最顶级的欧冠比赛中夺冠，而且保持这种巅峰状态时间极长，状态浮动极小，这中位差距直接把gpt5.5 xhigh的记录都给破了，球队连续五年欧冠夺冠，实现五连霸，而且比赛过程极具统治力，小组赛、淘汰赛一场都不翻车，遇强则不弱，遇弱必胜，全队出球快、推进猛，攻防转换瞬间完成，而且攻坚效率极佳，场场早早进球杀死比赛，不用拖到最后，在面对多线作战，全场疯狂折返跑的同时依然保持强大的体能和续航力，这就是历史级别的球队，这种球队你只要看一场比赛就知道满满是天赋，底子有多强大，不是靠赛程优势、裁判偏袒能把成绩提高到这种程度的，比如你故意灌水堆token，但你卷面分、逻辑分会直接暴跌，得不偿失。正规沙箱评测不只统计字数，还要判逻辑连贯性、答案相关性、推理严谨度、有无冗余废话的，堆token相当于刻意在后场无效倒脚、来回传安全球，传球次数数据刷得很高，但没有威胁进攻、没有推进、没有攻坚，全是无效数据，你不可能一边全是无效倒脚凑传球数，一边还攻防节奏更快、终结比赛耗时更短、体能续航还更强，这是完全矛盾的。综合指标已经决定了这支球队有多强大，现在的刷分也就顶多摸一摸风格，磨一磨分，用一用固定模板，但是都上限极低，能刷个1、2分就不错了，就像你靠裁判的一两场偏帮是不可能拿到历史级别天花板战绩的。尤其是考虑到这成绩还是受老美制裁全面影响的国产模型取得的，就更加炸裂了，不知真假，让子弹多飞一会吧。

页: [1] 2 3 4

Stage1st's Archiver

猫榜出现神秘刷榜模型，评分仅次于chatgpt5.5xhigh