找回密码
 立即注册
搜索
楼主: 此誓的守望

[科技] 猫榜出现神秘刷榜模型,评分仅次于chatgpt5.5xhigh

[复制链接]
     
发表于 2026-5-4 08:52 来自手机 | 显示全部楼层
豆包别的不说,逗比姐贵的形象是立起来了
回复

使用道具 举报

     
发表于 2026-5-4 09:06 | 显示全部楼层
这个 171 TPS 真有点离谱了,不会真是阶跃的模型吧。阶跃能训出这种水平的模型吗?

横向对比一下:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

发表于 2026-5-4 09:08 | 显示全部楼层
或许,大模型编程这个皇冠上的明珠也变成鱼目了?

回复

使用道具 举报

发表于 2026-5-4 09:22 | 显示全部楼层
真是國內模型那很快就會有人說刷分沒用,賽博做題家罷了

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2026-5-4 09:41 来自手机 | 显示全部楼层
还真是,等国内模型真的登顶了,估计口风一转就只提自己体感不认跑分了

—— 来自 vivo V2405A, Android 16, 鹅球 v3.5.99

评分

参与人数 1战斗力 +2 收起 理由
秦南心 + 2 欢乐多

查看全部评分

回复

使用道具 举报

     
发表于 2026-5-4 10:01 | 显示全部楼层
nianiania 发表于 2026-5-4 09:41
还真是,等国内模型真的登顶了,估计口风一转就只提自己体感不认跑分了

—— 来自 vivo V2405A, Android 1 ...

虽然但是这本来就没错吧,gemini3.1pro一直高分,但所有人都觉得降智成sb了
回复

使用道具 举报

     
发表于 2026-5-4 10:10 | 显示全部楼层
KevinGraham 发表于 2026-5-4 10:01
虽然但是这本来就没错吧,gemini3.1pro一直高分,但所有人都觉得降智成sb了

那是谷触不做人,还是得学梁圣,宁愿响应慢也不降智
回复

使用道具 举报

     
发表于 2026-5-4 10:19 来自手机 | 显示全部楼层
kimi 3.0?

—— 来自 Xiaomi 24031PN0DC, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-5-4 10:26 | 显示全部楼层
zy450 发表于 2026-5-4 10:19
kimi 3.0?

—— 来自 Xiaomi 24031PN0DC, Android 16, 鹅球 v3.5.99

这个据说要等3季度
回复

使用道具 举报

     
发表于 2026-5-4 10:35 | 显示全部楼层
squallx 发表于 2026-5-4 01:56
今年的年度目标就是别被牢美泡沫破裂炸一身血就行了吧

恒科都不看好中国大模型吗?
回复

使用道具 举报

     
发表于 2026-5-4 10:50 | 显示全部楼层
包姐是好AI吗?
回复

使用道具 举报

     
发表于 2026-5-4 10:51 | 显示全部楼层
拜拜 发表于 2026-5-4 10:35
恒科都不看好中国大模型吗?

现在上市的两个,一个被V4P挤压,一个被V4F覆盖,哪怕不比海外三家,至少几个月翻不了身
回复

使用道具 举报

发表于 2026-5-4 11:05 | 显示全部楼层

别逗你包姐笑了
回复

使用道具 举报

     
发表于 2026-5-4 11:35 | 显示全部楼层
豆包崛起了吗?
回复

使用道具 举报

     
发表于 2026-5-4 11:37 | 显示全部楼层
我会按表格里的性能指纹来推断,不联网核验。

不联网只看表格“性能指纹”推断,我会这样押:

**最可能结论**
- **国模 A:豆包/Seed 系列 Thinking 模型**,比如 `Doubao-Seed-1.6-thinking`、`Seed-2.0` 一类。
- **国模 B:Kimi 系列 Thinking 模型**,比如 `Kimi K2 Thinking` 或后续版。

**为什么国模 A 像豆包/Seed**
- **TPS 171** 太夸张,是全表最高,甚至远高于 Gemini 的 117、GPT 的 68、Claude 的 75。
- 平均耗时只有 **188 秒**,但 Token 有 **32217**,说明不是“少写所以快”,而是推理吞吐真的很高。
- 国内模型里这种“高吞吐、低延迟、便宜快跑”的风格最像 **字节豆包/Seed**。
- 分数 **86.04**,接近 GPT-5.5 的 86.76,而且中位差距只有 **3.05%**,说明稳定性也很强,像大厂闭源旗舰模型,不太像普通开源权重。

**为什么国模 B 像 Kimi**
- TPS 只有 **36**,和 DeepSeek V4 Pro 的 **35** 几乎一样,说明是偏慢的深度思考模型。
- 平均耗时 **739 秒**,但 Token 只有 **26885**,不是输出特别长,而是生成速度慢。
- 极限分数 **79.78** 还可以,但中位分数只有 **65.71**,中位差距 **17.63%**,说明波动很大,容易有题发挥很好、有题翻车。
- 这种“有上限、慢、方差大、偏深思考”的特征比较像 **Kimi Thinking**,尤其是 Kimi K2/K3 这种长思考路线。

**备选可能**
- 国模 A 备选:`Qwen3-Max-Thinking` / 通义千问旗舰。理由是稳定性和分数也很像 Qwen,但 **171 TPS** 更像豆包。
- 国模 B 备选:`GLM-4.6 Thinking` 或 `MiniMax M2`。不过它们的特征没有 Kimi 那么贴合“慢 + 方差大”。

如果必须给一个答案:
**国模 A = 豆包 Seed Thinking;国模 B = Kimi Thinking。**
回复

使用道具 举报

     
发表于 2026-5-4 11:52 | 显示全部楼层
豆包的模型吧。听字节朋友说豆包内部有个很强的模型,但是不对外。
回复

使用道具 举报

     
发表于 2026-5-4 12:01 | 显示全部楼层

这个分数规模应该小不了,加上这么高的TPS没专用硬件感觉很难跑出来啊,难道说

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2026-5-4 12:56 来自手机 | 显示全部楼层
难道说应该买寒武纪的股票了吗
回复

使用道具 举报

     
发表于 2026-5-4 13:02 | 显示全部楼层
用过寒武纪的卡就不会指望了,至少目前
回复

使用道具 举报

     
发表于 2026-5-4 13:04 | 显示全部楼层
阿里倒是今天大涨了

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2026-5-4 13:27 | 显示全部楼层
刚才看到消息是豆包要开收费套餐了
回复

使用道具 举报

     
发表于 2026-5-4 13:29 | 显示全部楼层
gpt-5.5也是刚发布不久的,最强的那个如果实际coding也好用的话,确实看起来有点恐怖,不仅性能追上了,时间差也抹平了
回复

使用道具 举报

     
发表于 2026-5-4 13:34 | 显示全部楼层
贴个链接啊,信源呢

猫榜没有这个啊
回复

使用道具 举报

     
发表于 2026-5-4 13:38 | 显示全部楼层
豆包订阅来了
    Re:Source

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2026-5-4 13:41 | 显示全部楼层
王兰花秀丽 发表于 2026-5-4 13:38
豆包订阅来了
    Re:Source

如果真的图表这个水平的话,可以有。
回复

使用道具 举报

     
发表于 2026-5-4 14:29 来自手机 | 显示全部楼层
第一财经5月4日消息,豆包App Store页面近日出现付费版本服务声明。声明称,为更好地服务专业用户,豆包将在免费版的基础上,推出包含更多增值服务的付费版本。同时,该页面还披露了三档订阅价格:标准版连续包月每月68元(连续包年688元)、加强版连续包月每月200元(连续包年2048元)、专业版连续包月每月500元(连续包年5088元)。目前,在豆包产品中尚未看到相关的付费选项和功能。

---
付费豆包来了?

论坛助手,iPhone
回复

使用道具 举报

     
发表于 2026-5-4 14:46 | 显示全部楼层
这算对标国际定价方案了
10刀 30刀 100刀
不知道编程跟gpt比什么水准 够用的话感觉能支持一下    Re:Source
回复

使用道具 举报

     
发表于 2026-5-4 15:01 | 显示全部楼层
新京报贝壳财经讯(记者罗亦丹)记者5月4日获悉,豆包App Store页面出现付费版本服务声明。声明称,为更好地服务专业用户,豆包将在免费版的基础上,推出包含更多增值服务的付费版本。同时,该页面还披露了三档订阅价格:标准版连续包月每月68元(连续包年688元)、加强版连续包月每月200元(连续包年2048元)、专业版连续包月每月500元(连续包年5088元)。

目前,尚未在豆包产品中看到相关的付费选项和功能。豆包官方回应称,“豆包始终提供免费服务,在免费服务的基础上,豆包也在探索推出更多增值服务,以满足不同用户的差异化需求。相关方案细节目前还在测试阶段,正式上线时会通过官方渠道发布完整信息。”

据接近豆包的人士透露,付费功能将主要专注在复杂任务和生产力场景,如PPT生成、数据分析、影视制作等。随着模型能力持续升级,产品已经能满足越来越多的复杂高价值任务。但此类任务需消耗更多算力与推理时间,因此豆包计划上线付费服务,满足好这部分复杂场景需求。免费版本则继续面向用户的日常使用。

个人觉得和新模型没啥关联
回复

使用道具 举报

发表于 2026-5-4 15:11 | 显示全部楼层
有这个能力说明模型很巨大,后训练很顶。
但是速度又这么快,说明注意力机制肯定有创新。
就算batch_size=1也不一定会有170tps的输出    Re:Source
回复

使用道具 举报

     
发表于 2026-5-4 15:18 | 显示全部楼层
overflowal 发表于 2026-5-4 15:11
有这个能力说明模型很巨大,后训练很顶。
但是速度又这么快,说明注意力机制肯定有创新。
就算batch_size=1 ...

也可能是硬件优化突出,上面唯一超出100的是谷歌的,他们自己就有TPU
回复

使用道具 举报

发表于 2026-5-4 15:55 | 显示全部楼层
国内有能力定制芯片的不多吧
阿里、字节和华为
还有谁?
回复

使用道具 举报

     
发表于 2026-5-4 16:00 来自手机 | 显示全部楼层
所以豆包付费的是这个模型?

—— 来自 vivo V2454DA, Android 16上的 S1Next-鹅版 v2.5.2
回复

使用道具 举报

     
发表于 2026-5-4 16:07 | 显示全部楼层
本帖最后由 nxmonitor 于 2026-5-4 16:20 编辑
ov_efly 发表于 2026-5-4 15:55
国内有能力定制芯片的不多吧
阿里、字节和华为
还有谁?

只有阿里是自己的芯片,不过代工厂不明。字节的各种来源都有,一部分是寒武纪的。还有就是海光也做芯片,这三家目前都是CUDA架构的。其实光论产品都比不过昇腾,但是910B和910C很难用,各种不适配。
回复

使用道具 举报

     
发表于 2026-5-4 16:21 | 显示全部楼层
本帖最后由 tillnight 于 2026-5-4 16:22 编辑
nxmonitor 发表于 2026-5-4 16:07
只有阿里是自己的芯片,不过代工厂不明。字节的各种来源都有,一部分是寒武纪的。还有就是海光也做芯片, ...

首先把字节绑寒武纪是经典创业板炒股,字节买昇腾的量要远大于寒武纪。其次,字节是有芯片团队的,预计今年有十万片,虽然算不上主力,但是如果平头哥算阿里有自己的芯片,那字节也算。

编辑一下,我回复完就看到把“字节是寒武纪的”编辑成一部分是寒武纪了。那当我没说。
回复

使用道具 举报

     
发表于 2026-5-4 16:30 | 显示全部楼层
本帖最后由 nxmonitor 于 2026-5-4 16:36 编辑
tillnight 发表于 2026-5-4 16:21
首先把字节绑寒武纪是经典创业板炒股,字节买昇腾的量要远大于寒武纪。其次,字节是有芯片团队的,预计今 ...

肯定是一部分,而且我也知道寒武纪的芯片真的只能拿出来吹,阿里和海光的至少好歹能用吧。至于昇腾就是不兼容,用起来各种小毛病,纸面算力发挥不了,要等国产模型换了底层再说了。
回复

使用道具 举报

     
发表于 2026-5-4 16:36 | 显示全部楼层
还有华为自己做了一个框架也添了很多麻烦,他们后面到底会专注mindie还是vllm-ascend也很不确定,新模型mindie一个都上不了那也别继续投资源开发了。
回复

使用道具 举报

     
发表于 2026-5-4 16:56 | 显示全部楼层
nxmonitor 发表于 2026-5-4 16:07
只有阿里是自己的芯片,不过代工厂不明。字节的各种来源都有,一部分是寒武纪的。还有就是海光也做芯片, ...

阿里新的在smic,还有部分tsmc存货        Re:Source
回复

使用道具 举报

     
发表于 2026-5-4 17:00 来自手机 | 显示全部楼层
等不及了,快端上来吧。

给A处一点压力让它把Mythos给放出来。
回复

使用道具 举报

     
发表于 2026-5-4 17:08 | 显示全部楼层
nxmonitor 发表于 2026-5-4 16:36
还有华为自己做了一个框架也添了很多麻烦,他们后面到底会专注mindie还是vllm-ascend也很不确定,新模型min ...

vLLM-ascend 本质上是 vLLM 的插件,跟着上游生态走的,面向自部署用户,主打易用性;

MindIE 是华为原生框架,面向需要开箱即用的政企用户,主打稳定性。
回复

使用道具 举报

     
发表于 2026-5-4 17:13 来自手机 | 显示全部楼层
本帖最后由 Fuero 于 2026-5-4 17:15 编辑

豆包付费(专业版)有这质量其实是超值的,同档GPT Pro降价了还要100刀呢
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2026-6-21 05:57 , Processed in 0.211255 second(s), 9 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表