MiMo-V2.5 系列 API 永久降价，额度最高提升 8 倍

ymm1030 · 发表于 2026-5-27 11:25

忧郁的杰哥发表于 2026-5-27 10:07
我又翻了下破案了

V2.5是多模态 V2.5-PRO 是LLM语言模型应该是不具备多模态

而且还支持1M上下文，这有点微妙了

忧郁的杰哥 · 发表于 2026-5-27 11:47

提示: 作者被禁止或删除内容自动屏蔽

糟糕喵 · 发表于 2026-5-27 11:52

spck 发表于 2026-5-27 09:43
你们看笑话的别高兴太早
坐等过几天网上大面积攻击ds岁月史书说小米逼着ds降价的
小米这套路玩太多，早都能 ...

就比如说什么小米拉低手机价格，当初花3、4千买小米1的时候长脑子了吗。

Cortana · 发表于 2026-5-27 12:20

simonouozy 发表于 2026-5-27 11:23
麻烦提供一下信息来源，然后我回的那个一副用ds技术就会性能降级的回复你觉得是在讨论技术问题吗 ...

神了，我确实不知道响应变慢怎么就显出我屁股来了，您劳烦解释解释？

—— 来自鹅球 v3.3.96-alpha

爱撕衣魔刃 · 发表于 2026-5-27 12:24

风夏发表于 2026-5-27 10:45
傻逼东西, 问了一个代码小问题, 用了11,296,620 Credits, 雷布斯你咋不去死呢

这个……
不至于这么明目张胆罢……

simonouozy · 发表于 2026-5-27 12:26

本帖最后由 simonouozy 于 2026-5-27 12:28 编辑

Cortana 发表于 2026-5-27 12:20
神了，我确实不知道响应变慢怎么就显出我屁股来了，您劳烦解释解释？

—— 来自鹅球 v3.3.96-alpha ...

因为正常人类并不会优先把响应速度和缓存技术做关联，为什么就不能是因为降价硬件降配呢，或者好听点说因为降价多人用了在排队等硬件

Cortana · 发表于 2026-5-27 12:46

simonouozy 发表于 2026-5-27 12:26
因为正常人类并不会优先把响应速度和缓存技术做关联，为什么就不能是因为降价硬件降配呢，或者好听点说因 ...

降价了为什么就会多人用这个在权威榜单里还不如qwen小模型的路边一条ai？我看帖子里不是这个风向吧？
v4开源的缓存技术要点是把ssd当显存用，降本的同时还可以极大上下文环节的缓存开销，而ds响应速度又是公认的慢，再看看mimo的降价+降速，和他们自己的解释：

本次价格调整背后，离不开小米技术团队在推理系统上的持续优化。

我们基于 SGLang HiCache 完整支持 SWA（Sliding Window Attention），将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近 1/7，并将可缓存 token 数量提升至优化前的近 5 倍，显著提升了缓存命中率和推理效率。

同时，我们通过优化专家并行方案、输入长度分桶策略等，进一步提升了集群输入吞吐能力，从而在保障服务质量的前提下持续降低单位 token 服务成本。

推测他们用了和ds一样的技术是很不可思议的事吗？

—— 来自鹅球 v3.3.96-alpha

宅🍐eriri · 发表于 2026-5-27 12:55

爱撕衣魔刃发表于 2026-5-27 12:24
这个……
不至于这么明目张胆罢……

xiaomi由于改了计价方式，credits通货膨胀了，token plan的月额度是百亿级别的

一千万credits还算是洒洒水的水平
不过只能说米在大数字上的小巧思，营销味拉满了

Rowen233 · 发表于 2026-5-27 12:58

宅🍐eriri 发表于 2026-5-27 12:55
xiaomi由于改了计价方式，credits通货膨胀了，token plan的月额度是百亿级别的
一千万credits还算是洒洒 ...

这个价格感觉Token Plan不值了除非真的开一堆agent狂用

simonouozy · 发表于 2026-5-27 13:08

Cortana 发表于 2026-5-27 12:46
降价了为什么就会多人用这个在权威榜单里还不如qwen小模型的路边一条ai？我看帖子里不是这个风向吧？
v4 ...

响应速度和缓存技术关系性很低的，一般讨论v4的响应速度也是归因于多人用导致的排队
v4核心缓存技术并不是把ssd当显存用，而是更高的缓存压缩率，没有人会把不常用的缓存放在显存的

宅🍐eriri · 发表于 2026-5-27 13:17

Rowen233 发表于 2026-5-27 12:58
这个价格感觉Token Plan不值了除非真的开一堆agent狂用

是这样，现在token plan就是1B credits=10元 api调用价值，lite这一档39元买价值41元的api计价
折扣没多少，还没api调用灵活

ov_efly · 发表于 2026-5-27 13:51

credits 这通货膨胀的速度真吓人，想起前几天 B 站看过的安装包的梗，营销鬼才

cube · 发表于 2026-5-27 13:56

虽然现在大公司没有自己的大模型自主权很危险所以小米走这一步肯定是对的。

但是我很反感他把其他业务上的宣传手段照搬到AI领域的行为，和DS比起来上蹿下跳太小丑了。

カドモン · 发表于 2026-5-27 14:53

simonouozy 发表于 2026-5-27 11:23
麻烦提供一下信息来源，然后我回的那个一副用ds技术就会性能降级的回复你觉得是在讨论技术问题吗 ...

https://platform.xiaomimimo.com/docs/zh-CN/news/v2.5-price-update

公告里自己写的啊，不过用了上了缓存会慢很正常啊，多一步读取慢了很正常

simonouozy · 发表于 2026-5-27 15:05

カドモン发表于 2026-5-27 14:53
https://platform.xiaomimimo.com/docs/zh-CN/news/v2.5-price-update

公告里自己写的啊，不过用了上了 ...

看了下swa不是基础设施吗，也不是v4的技术吧，而且改缓存时间消耗人体感不出来的，除非有实现问题

ayanamilin · 发表于 2026-5-27 15:06

本帖最后由 ayanamilin 于 2026-5-27 15:12 编辑

Cortana 发表于 2026-5-27 12:46
降价了为什么就会多人用这个在权威榜单里还不如qwen小模型的路边一条ai？我看帖子里不是这个风向吧？
v4 ...

SSD 做 KV cache 池化是业界普遍做法，和 DeepSeek 没啥关系。（况且人家告诉你了，推理引擎侧用的 HiCache）

MoonCake 早在24年已经把这套分级缓存思路给实现并且普及开来了。

忧郁的杰哥 · 发表于 2026-5-27 15:09

提示: 作者被禁止或删除内容自动屏蔽

カドモン · 发表于 2026-5-27 15:10

爱撕衣魔刃发表于 2026-5-27 12:24
这个……
不至于这么明目张胆罢……

他用cc之类直接加上上下文也还挺正常把，没缓存冷启动

CrayS1 · 发表于 2026-5-27 15:25

这个模型有人用过吗和DSv4 KM2.6相比咋样

big9999 · 发表于 2026-5-27 15:32

CrayS1 发表于 2026-5-27 15:25
这个模型有人用过吗和DSv4 KM2.6相比咋样

写材料角度看，有优点有缺点，优点在于大体能一遍过，只要小修改。缺点是比较死板，不够灵活，给他参考写真就按参考的格式写，生搬硬套，比较保守，需要多轮引导，改后也还行

AlterDialog · 发表于 2026-5-27 15:44

忧郁的杰哥发表于 2026-5-27 15:09
它用的是sglang 也就是一个开源推理架构的描述为将kvcache保存到内存甚至SSD里优化长上下文的技术

但是sg ...

我知道了，“我们基于 SGLang HiCache完整支持SWA”，sglang为了适配Deepseek，给hicache添加了对swa的支持，米属于是蹭到了优化

AlterDialog · 发表于 2026-5-27 15:46

CrayS1 发表于 2026-5-27 15:25
这个模型有人用过吗和DSv4 KM2.6相比咋样

写代码的话感觉都差不多，可能是我的项目难度不够吧，不过据说k2.6写前端好像特别强

aimbot · 发表于 2026-5-27 16:01

deepseek现在最大的问题就是api没有联网搜索
v4pro的知识库直到去年5月份
很多新的知识需要外挂搜索引擎
如果把这点补上感觉写代码能媲美gpt和cc了，毕竟价格优势在那里

ycjiang1337 · 发表于 2026-5-27 16:03

aimbot 发表于 2026-5-27 16:01
deepseek现在最大的问题就是api没有联网搜索
v4pro的知识库直到去年5月份
很多新的知识需要外挂搜索引擎

哪家的API都没有联网搜索啊，你自己用CherryStudio配一个不就行了？

—— 来自 HUAWEI SGT-AL50, Android 12, 鹅球 v3.4.97-alpha

忧郁的杰哥 · 发表于 2026-5-27 16:06

提示: 作者被禁止或删除内容自动屏蔽

AlterDialog · 发表于 2026-5-27 16:13

忧郁的杰哥发表于 2026-5-27 16:06
可不是嘛

这次如果不是搞降价打自己脸要找个理由园过去

这就有点尬黑了，你没发现定价和ds一模一样吗？sglang也是开源项目，那就是说如果ds不亏本那mimo基本也不会亏本

忧郁的杰哥 · 发表于 2026-5-27 16:16

提示: 作者被禁止或删除内容自动屏蔽

mitzvah · 发表于 2026-5-27 16:16

aimbot 发表于 2026-5-27 16:01
deepseek现在最大的问题就是api没有联网搜索
v4pro的知识库直到去年5月份
很多新的知识需要外挂搜索引擎

买个魔塔的mpc服务不就得了

mitzvah · 发表于 2026-5-27 16:21

AlterDialog 发表于 2026-5-27 16:13
这就有点尬黑了，你没发现定价和ds一模一样吗？sglang也是开源项目，那就是说如果ds不亏本那mimo基本也不 ...

deepseekv4 1MB kv缓存不到10GB 全人类现阶段只有它有这个能力，米模又不是没开源，kv缓存成本在那里，它要么暗中涨价要么....

aimbot · 发表于 2026-5-27 16:29

本帖最后由 aimbot 于 2026-5-27 16:35 编辑

ycjiang1337 发表于 2026-5-27 16:03
哪家的API都没有联网搜索啊，你自己用CherryStudio配一个不就行了？

—— 来自 HUAWEI SGT-AL50, Androi ...

cc没用过，gpt和gemini反代出来的api都有联网搜索的，agent我用的是astrbot

openai可以通过Responses API 的 web_search实现联网搜索
gemini我看astrbot的作者在设置里面就有给这个开关
查了一下gemini官方的文档，有个叫Grounding with Google Search的东西，也是可以在api里面设置开启的

ayanamilin · 发表于 2026-5-27 16:29

AlterDialog 发表于 2026-5-27 16:13
这就有点尬黑了，你没发现定价和ds一模一样吗？sglang也是开源项目，那就是说如果ds不亏本那mimo基本也不 ...

DSv4（SWA+C4/C120）计算量比 Mimo（SWA+full attention）低，成本理应更低。

ayanamilin · 发表于 2026-5-27 16:31

AlterDialog 发表于 2026-5-27 15:44
我知道了，“我们基于 SGLang HiCache完整支持SWA”，sglang为了适配Deepseek，给hicache添加了对swa的支 ...

SWA 又不是 DSv4 开始用的，GPT-OSS、Gema 等等都在用。SGLang 只是想适配 DSv4 的话也不需要对 HiCache 动刀。

villsian · 发表于 2026-5-27 16:34

Cortana 发表于 2026-5-27 12:46
降价了为什么就会多人用这个在权威榜单里还不如qwen小模型的路边一条ai？我看帖子里不是这个风向吧？
v4 ...

而ds响应速度又是公认的慢

这个结论是怎么得出来的，V4发布有一段时间了，最近有用API吗？你真的测过它的响应速度吗？

80后卢瑟 · 发表于 2026-5-27 16:36

AlterDialog 发表于 2026-5-27 15:44
我知道了，“我们基于 SGLang HiCache完整支持SWA”，sglang为了适配Deepseek，给hicache添加了对swa的支 ...

这个其实不太严格啦，这个其实 SWA 是 Gemma 之类的模型在用的。DS 用的是自己的混合模式。

不过SGLang 在实现的时候，在这里做了一个抽象，叫做UnifiedRadixTree + HiCache，这个抽象可以使用 SWA 或者 DeepSeek 的那种机制，但是缓存都可以利用到技术上类似的优化。

大概就是这样的：

UnifiedRadixTree
  - Full logical component
  - SWA component (device only)
  - DeepSeek V4 compressed component （new component）
- c4
- c4 indexer
- c128

HiCache
  - logical host full allocator
  - c4 host pool
  - c4 indexer host pool
  - c128 host pool

Runtime recovery
  - load compressed KV
  - replay tail
  - rebuild SWA + temp state

忧郁的杰哥 · 发表于 2026-5-27 16:36

提示: 作者被禁止或删除内容自动屏蔽

omnitoken · 发表于 2026-5-27 16:44

simonouozy 发表于 2026-5-27 13:08
响应速度和缓存技术关系性很低的，一般讨论v4的响应速度也是归因于多人用导致的排队
v4核心缓存技术并不 ...

你引用的那个人潜台词是mimo抄ds

至少这帖子里主流都这么认为吧

—— 来自鹅球 v3.3.96

simonouozy · 发表于 2026-5-27 17:10

omnitoken 发表于 2026-5-27 16:44
你引用的那个人潜台词是mimo抄ds

至少这帖子里主流都这么认为吧

开源的哪来的抄不抄()

，只是从体感响应延迟来讨论缓存技术是很奇怪的事情，就像你开个网页卡了先来句是l3缓存的问题

舞以 · 发表于 2026-5-27 17:35

不是抄，是对标吧

甚至不是对标了，在知乎的相关话题下面mimo已经是全面的ds上位了。
我米伟大无需多言

论坛助手,iPhone

80后卢瑟 · 发表于 2026-5-27 18:29

一算账还得看一下是不是真的省钱了

我的场景是大批量 OCR，根本没办法命中缓存，并且输入输出差不多长，用2.5非pro就能解决。就取均值 150 积分每token，新版Pro 380 亿积分也就相当于 2.5 亿 token，和之前的7亿token差的不是一般的大。

AlterDialog · 发表于 2026-5-27 19:44

忧郁的杰哥发表于 2026-5-27 16:16
DS不亏本基于它自己描述百万上下文的KV使用率为原来的八分之一

那小米也做到一样的定价靠sglang的这个 ...

那就是mimo参考了ds的方法自己实现呗，反正跟ds脱不开关系就是了。

		自动登录	找回密码
密码			立即注册

[生活] MiMo-V2.5 系列 API 永久降价，额度最高提升 8 倍

评分

评分

忧郁的杰哥忧郁的杰哥当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2011-6-8 头像被屏蔽	发表于 2026-5-27 11:47 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

忧郁的杰哥忧郁的杰哥当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2011-6-8 头像被屏蔽	发表于 2026-5-27 15:09 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

忧郁的杰哥忧郁的杰哥当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2011-6-8 头像被屏蔽	发表于 2026-5-27 16:06 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

忧郁的杰哥忧郁的杰哥当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2011-6-8 头像被屏蔽	发表于 2026-5-27 16:16 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

忧郁的杰哥忧郁的杰哥当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2011-6-8 头像被屏蔽	发表于 2026-5-27 16:36 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报