猫榜出现神秘刷榜模型，评分仅次于chatgpt5.5xhigh

qq460262849 · 发表于 2026-5-4 08:52

豆包别的不说，逗比姐贵的形象是立起来了

ayanamilin · 发表于 2026-5-4 09:06

这个 171 TPS 真有点离谱了，不会真是阶跃的模型吧。阶跃能训出这种水平的模型吗？

横向对比一下：

Jet.Black · 发表于 2026-5-4 09:08

或许，大模型编程这个皇冠上的明珠也变成鱼目了？

安广多惠子 · 发表于 2026-5-4 09:22

真是國內模型那很快就會有人說刷分沒用，賽博做題家罷了

—— 来自 S1Fun

nianiania · 发表于 2026-5-4 09:41

还真是，等国内模型真的登顶了，估计口风一转就只提自己体感不认跑分了

—— 来自 vivo V2405A, Android 16, 鹅球 v3.5.99

KevinGraham · 发表于 2026-5-4 10:01

nianiania 发表于 2026-5-4 09:41
还真是，等国内模型真的登顶了，估计口风一转就只提自己体感不认跑分了

—— 来自 vivo V2405A, Android 1 ...

虽然但是这本来就没错吧，gemini3.1pro一直高分，但所有人都觉得降智成sb了

nianiania · 发表于 2026-5-4 10:10

KevinGraham 发表于 2026-5-4 10:01
虽然但是这本来就没错吧，gemini3.1pro一直高分，但所有人都觉得降智成sb了

那是谷触不做人，还是得学梁圣，宁愿响应慢也不降智

zy450 · 发表于 2026-5-4 10:19

kimi 3.0？

—— 来自 Xiaomi 24031PN0DC, Android 16, 鹅球 v3.5.99

drodchang · 发表于 2026-5-4 10:26

zy450 发表于 2026-5-4 10:19
kimi 3.0？

—— 来自 Xiaomi 24031PN0DC, Android 16, 鹅球 v3.5.99

这个据说要等3季度

拜拜 · 发表于 2026-5-4 10:35

squallx 发表于 2026-5-4 01:56
今年的年度目标就是别被牢美泡沫破裂炸一身血就行了吧

恒科都不看好中国大模型吗？

千秋难诉 · 发表于 2026-5-4 10:50

包姐是好AI吗？

nxmonitor · 发表于 2026-5-4 10:51

拜拜发表于 2026-5-4 10:35
恒科都不看好中国大模型吗？

现在上市的两个，一个被V4P挤压，一个被V4F覆盖，哪怕不比海外三家，至少几个月翻不了身

灰羽轻歌 · 发表于 2026-5-4 11:05

千秋难诉发表于 2026-5-4 10:50
包姐是好AI吗？

别逗你包姐笑了

love4aids · 发表于 2026-5-4 11:35

豆包崛起了吗？

love4aids · 发表于 2026-5-4 11:37

我会按表格里的性能指纹来推断，不联网核验。

不联网只看表格“性能指纹”推断，我会这样押：

**最可能结论**
- **国模 A：豆包/Seed 系列 Thinking 模型**，比如 `Doubao-Seed-1.6-thinking`、`Seed-2.0` 一类。
- **国模 B：Kimi 系列 Thinking 模型**，比如 `Kimi K2 Thinking` 或后续版。

**为什么国模 A 像豆包/Seed**
- **TPS 171** 太夸张，是全表最高，甚至远高于 Gemini 的 117、GPT 的 68、Claude 的 75。
- 平均耗时只有 **188 秒**，但 Token 有 **32217**，说明不是“少写所以快”，而是推理吞吐真的很高。
- 国内模型里这种“高吞吐、低延迟、便宜快跑”的风格最像 **字节豆包/Seed**。
- 分数 **86.04**，接近 GPT-5.5 的 86.76，而且中位差距只有 **3.05%**，说明稳定性也很强，像大厂闭源旗舰模型，不太像普通开源权重。

**为什么国模 B 像 Kimi**
- TPS 只有 **36**，和 DeepSeek V4 Pro 的 **35** 几乎一样，说明是偏慢的深度思考模型。
- 平均耗时 **739 秒**，但 Token 只有 **26885**，不是输出特别长，而是生成速度慢。
- 极限分数 **79.78** 还可以，但中位分数只有 **65.71**，中位差距 **17.63%**，说明波动很大，容易有题发挥很好、有题翻车。
- 这种“有上限、慢、方差大、偏深思考”的特征比较像 **Kimi Thinking**，尤其是 Kimi K2/K3 这种长思考路线。

**备选可能**
- 国模 A 备选：`Qwen3-Max-Thinking` / 通义千问旗舰。理由是稳定性和分数也很像 Qwen，但 **171 TPS** 更像豆包。
- 国模 B 备选：`GLM-4.6 Thinking` 或 `MiniMax M2`。不过它们的特征没有 Kimi 那么贴合“慢 + 方差大”。

如果必须给一个答案：
**国模 A = 豆包 Seed Thinking；国模 B = Kimi Thinking。**

大韩李明博 · 发表于 2026-5-4 11:52

豆包的模型吧。听字节朋友说豆包内部有个很强的模型，但是不对外。

eroneko · 发表于 2026-5-4 12:01

这个分数规模应该小不了，加上这么高的TPS没专用硬件感觉很难跑出来啊，难道说

勿徊哉 · 发表于 2026-5-4 12:56

难道说应该买寒武纪的股票了吗

nxmonitor · 发表于 2026-5-4 13:02

用过寒武纪的卡就不会指望了，至少目前

adachitouch · 发表于 2026-5-4 13:04

阿里倒是今天大涨了

—— 来自 S1Fun

nxmonitor · 发表于 2026-5-4 13:27

刚才看到消息是豆包要开收费套餐了

mrkikokiko · 发表于 2026-5-4 13:29

gpt-5.5也是刚发布不久的，最强的那个如果实际coding也好用的话，确实看起来有点恐怖，不仅性能追上了，时间差也抹平了

StarForceTi · 发表于 2026-5-4 13:34

贴个链接啊，信源呢

猫榜没有这个啊

王兰花秀丽 · 发表于 2026-5-4 13:38

豆包订阅来了
Re:Source

大韩李明博 · 发表于 2026-5-4 13:41

王兰花秀丽发表于 2026-5-4 13:38
豆包订阅来了
Re:Source

如果真的图表这个水平的话，可以有。

Nanachi · 发表于 2026-5-4 14:29

第一财经5月4日消息，豆包App Store页面近日出现付费版本服务声明。声明称，为更好地服务专业用户，豆包将在免费版的基础上，推出包含更多增值服务的付费版本。同时，该页面还披露了三档订阅价格：标准版连续包月每月68元（连续包年688元）、加强版连续包月每月200元（连续包年2048元）、专业版连续包月每月500元（连续包年5088元）。目前，在豆包产品中尚未看到相关的付费选项和功能。

---
付费豆包来了？

论坛助手,iPhone

ZBY901026 · 发表于 2026-5-4 14:46

这算对标国际定价方案了
10刀 30刀 100刀
不知道编程跟gpt比什么水准够用的话感觉能支持一下 Re:Source

ayanamilin · 发表于 2026-5-4 15:01

新京报贝壳财经讯（记者罗亦丹）记者5月4日获悉，豆包App Store页面出现付费版本服务声明。声明称，为更好地服务专业用户，豆包将在免费版的基础上，推出包含更多增值服务的付费版本。同时，该页面还披露了三档订阅价格：标准版连续包月每月68元（连续包年688元）、加强版连续包月每月200元（连续包年2048元）、专业版连续包月每月500元（连续包年5088元）。

目前，尚未在豆包产品中看到相关的付费选项和功能。豆包官方回应称，“豆包始终提供免费服务，在免费服务的基础上，豆包也在探索推出更多增值服务，以满足不同用户的差异化需求。相关方案细节目前还在测试阶段，正式上线时会通过官方渠道发布完整信息。”

据接近豆包的人士透露，付费功能将主要专注在复杂任务和生产力场景，如PPT生成、数据分析、影视制作等。随着模型能力持续升级，产品已经能满足越来越多的复杂高价值任务。但此类任务需消耗更多算力与推理时间，因此豆包计划上线付费服务，满足好这部分复杂场景需求。免费版本则继续面向用户的日常使用。

个人觉得和新模型没啥关联

overflowal · 发表于 2026-5-4 15:11

有这个能力说明模型很巨大，后训练很顶。
但是速度又这么快，说明注意力机制肯定有创新。
就算batch_size=1也不一定会有170tps的输出 Re:Source

nxmonitor · 发表于 2026-5-4 15:18

overflowal 发表于 2026-5-4 15:11
有这个能力说明模型很巨大，后训练很顶。
但是速度又这么快，说明注意力机制肯定有创新。
就算batch_size=1 ...

也可能是硬件优化突出，上面唯一超出100的是谷歌的，他们自己就有TPU

ov_efly · 发表于 2026-5-4 15:55

国内有能力定制芯片的不多吧
阿里、字节和华为
还有谁？

小妻水亚美 · 发表于 2026-5-4 16:00

所以豆包付费的是这个模型？

—— 来自 vivo V2454DA, Android 16上的 S1Next-鹅版 v2.5.2

nxmonitor · 发表于 2026-5-4 16:07

本帖最后由 nxmonitor 于 2026-5-4 16:20 编辑

ov_efly 发表于 2026-5-4 15:55
国内有能力定制芯片的不多吧
阿里、字节和华为
还有谁？

只有阿里是自己的芯片，不过代工厂不明。字节的各种来源都有，一部分是寒武纪的。还有就是海光也做芯片，这三家目前都是CUDA架构的。其实光论产品都比不过昇腾，但是910B和910C很难用，各种不适配。

tillnight · 发表于 2026-5-4 16:21

本帖最后由 tillnight 于 2026-5-4 16:22 编辑

nxmonitor 发表于 2026-5-4 16:07
只有阿里是自己的芯片，不过代工厂不明。字节的各种来源都有，一部分是寒武纪的。还有就是海光也做芯片， ...

首先把字节绑寒武纪是经典创业板炒股，字节买昇腾的量要远大于寒武纪。其次，字节是有芯片团队的，预计今年有十万片，虽然算不上主力，但是如果平头哥算阿里有自己的芯片，那字节也算。

编辑一下，我回复完就看到把“字节是寒武纪的”编辑成一部分是寒武纪了。那当我没说。

nxmonitor · 发表于 2026-5-4 16:30

本帖最后由 nxmonitor 于 2026-5-4 16:36 编辑

tillnight 发表于 2026-5-4 16:21
首先把字节绑寒武纪是经典创业板炒股，字节买昇腾的量要远大于寒武纪。其次，字节是有芯片团队的，预计今 ...

肯定是一部分，而且我也知道寒武纪的芯片真的只能拿出来吹，阿里和海光的至少好歹能用吧。至于昇腾就是不兼容，用起来各种小毛病，纸面算力发挥不了，要等国产模型换了底层再说了。

nxmonitor · 发表于 2026-5-4 16:36

还有华为自己做了一个框架也添了很多麻烦，他们后面到底会专注mindie还是vllm-ascend也很不确定，新模型mindie一个都上不了那也别继续投资源开发了。

gp1390 · 发表于 2026-5-4 16:56

nxmonitor 发表于 2026-5-4 16:07
只有阿里是自己的芯片，不过代工厂不明。字节的各种来源都有，一部分是寒武纪的。还有就是海光也做芯片， ...

阿里新的在smic，还有部分tsmc存货 Re:Source

RGm · 发表于 2026-5-4 17:00

等不及了，快端上来吧。

给A处一点压力让它把Mythos给放出来。

ayanamilin · 发表于 2026-5-4 17:08

nxmonitor 发表于 2026-5-4 16:36
还有华为自己做了一个框架也添了很多麻烦，他们后面到底会专注mindie还是vllm-ascend也很不确定，新模型min ...

vLLM-ascend 本质上是 vLLM 的插件，跟着上游生态走的，面向自部署用户，主打易用性；

MindIE 是华为原生框架，面向需要开箱即用的政企用户，主打稳定性。

Fuero · 发表于 2026-5-4 17:13

本帖最后由 Fuero 于 2026-5-4 17:15 编辑

豆包付费（专业版）有这质量其实是超值的，同档GPT Pro降价了还要100刀呢

		自动登录	找回密码
密码			立即注册

[科技] 猫榜出现神秘刷榜模型，评分仅次于chatgpt5.5xhigh

本帖子中包含更多资源

评分

本帖子中包含更多资源

本帖子中包含更多资源