MiMo-V2.5 系列 API 永久降价，额度最高提升 8 倍

忧郁的杰哥 · 发表于 2026-5-27 20:08

提示: 作者被禁止或删除内容自动屏蔽

忧郁的杰哥 · 发表于 2026-5-27 20:09

提示: 作者被禁止或删除内容自动屏蔽

秦南心 · 发表于 2026-5-27 22:14

楼主怎么私了

Nanachi · 发表于 2026-5-28 00:50

spck 发表于 2026-5-27 09:43
你们看笑话的别高兴太早
坐等过几天网上大面积攻击ds岁月史书说小米逼着ds降价的
小米这套路玩太多，早都能 ...

小米：请叫我Token 价格屠夫-虎嗅网
https://www.huxiu.com/article/4861980.html?f=rss

押注2026年Token大涨价的人，短短一周迎来两次打脸。
5月22日，DeepSeek宣布DeepSeek V4 Pro永久降价；今天凌晨，小米MiMo-V2.5系列跟进降价，最高降幅达到99%。
与此同时，小米Token Plan计费体系同步优化，定价不变，可用量提升至原来的5至8倍。
没有出乎太多意料，海外Reddit、X平台以及各大开发者论坛上关于小米MiMo模型降价的讨论热度也是迅速飙升。

小米大模型永久降价99%，正面对标DeepSeek？-钛媒体官方网站
https://www.tmtpost.com/8004327.html

此前，DeepSeek宣布API降价，紧接着，小米也宣布其大模型永久降价，最高可达99%。
时间线上看，5月22日，DeepSeek宣布V4-Pro模型API价格永久降价75%，缓存命中输入低至每百万Tokens 0.025元人民币。
仅过了5天，5月27日，小米就祭出杀招：MiMo-V2.5系列API永久降价，最高降幅99%，Pro版缓存命中输入降到与DeepSeek相同的0.025元/百万Tokens，标准版甚至更低——0.02元/百万Tokens。
同一价位、甚至更低，前后脚宣布。这不是跟风，是实实在在的“对标”。

“价格屠夫”来了：小米MiMo大模型API永久降价最高达99% - 华尔街见闻
https://wallstreetcn.com/articles/3773246

5月27日，小米宣布MiMo-V2.5系列大模型API价格体系进行永久性调价，最高降幅度达99%，且不再区分上下文长度。
具体来看MiMo-V2.5-Pro：
百万tokens输入（缓存命中）只需要0.025元。
百万tokens输入（缓存未命中）3元。
百万tokens输出6元。
不仅如此，Token Plan方面，小米采取“加量不加价”策略，用户在Agent或Code场景下的可用 Token 数量将提升至原来的5-8倍，并把规则调整为“所见即所得”，简化了因换算导致的复杂计价逻辑。

----
价格屠夫来了！

AlterDialog · 发表于 2026-5-28 08:34

原来萝莉已经自己在x上说了这个价仍然在盈亏线上：

Behind the MiMo API Price Reduction:
The deepest price cut, up to 99%, is for Input (Cache Hit). The core reason is our inference framework now supports hierarchical KV cache optimization for SWA. Production inference engine tests show this optimization increases cached token capacity by 5x, equivalent to an 80% reduction in caching costs. Combined with Cache Read Overlap among multiple Full Attention modules in the Hybrid model, actual costs are further reduced.

Prices for Input (Cache Miss) and Output are also reduced by 60%-80%. This mainly benefits from the extreme 1:7 Full:SWA sparsity ratio brought by the model architecture (the prefill compute of the 70-layer MiMo-V2.5-Pro roughly equals a 10-layer GQA model). This kept our original inference costs well below the industry average, naturally leaving a 2x-3x profit margin in pricing. This price adjustment simply reflects our decision to pass these structural cost efficiencies directly to developers.

Operating at these newly reduced API prices, our production inference engine is running at near full capacity, and we can still essentially break even. We previously advised LLM companies not to "blindly cut prices" precisely because very few model architectures and inference optimizations can keep API costs from running at a loss. If more architectures that save compute and KV cache emerge, along with better inference Infra to drive down API costs, this will form an excellent virtuous cycle in the industry.

More crucially, affordable, high-performance model APIs will drive real, sustained, and at-scale inference demand. This upstream demand pulls forward the development of the entire AI infrastructure chain—including chips, servers, optical transceivers, PCBs, liquid cooling, power, energy storage, and data centers—serving as a strategic fulcrum for a systemic revaluation of AI hardware. In the long run, this injects more affordable and accessible compute into both training and inference pipelines, accelerating the parallel evolution of global AGI across multiple regions and technical routes.

For more technical details, we will release a detailed Blog post later.

mimo翻译：
MiMo API 降价背后的原因：
最深降幅高达99%的是输入（缓存命中）部分。核心原因在于我们的推理框架现在为 SWA（滑动窗口注意力）支持了分层 KV 缓存优化。生产推理引擎测试显示，此优化将缓存令牌容量提升了5倍，相当于缓存成本降低了80%。结合混合模型中多个全注意力模块的缓存读取重叠机制，实际成本进一步降低。

输入（缓存未命中）和输出价格也下调了60%-80%。这主要得益于模型架构带来的极致 1:7 全注意力：SWA 稀疏比（70层 MiMo-V2.5-Pro 的预填充计算量大致相当于一个10层 GQA 模型）。这使得我们原本的推理成本远低于行业平均水平，在定价上自然留下了2-3倍的利润空间。此次调价仅仅是我们决定将这些结构性成本优势直接让渡给开发者的体现。

在新降价后的 API 价格下运营，我们的生产推理引擎正接近满负荷运行，且我们基本上仍能维持收支平衡。我们此前建议大语言模型公司不要“盲目降价”，正是因为极少有模型架构和推理优化能够保证 API 成本不亏损。如果有更多能够节省计算和 KV 缓存的架构出现，并辅以更优的推理基础设施来降低 API 成本，这将在行业内形成一个极好的良性循环。

更关键的是，价格亲民、性能卓越的模型 API 将催生真实、持续且规模化的推理需求。这一上游需求将拉动整个 AI 基础设施链条的发展——包括芯片、服务器、光收发模块、PCB、液冷、电力、储能和数据中心——成为系统性重估 AI 硬件的战略支点。长远来看，这将为训练和推理流程注入更多经济、易得的算力，加速全球通用人工智能在不同地区和技术路线上并行演进。

更多技术细节，我们将在稍后发布详细的博客文章。

忧郁的杰哥 · 发表于 2026-5-28 08:39

提示: 作者被禁止或删除内容自动屏蔽

26458 · 发表于 2026-5-28 09:25

国外贴吧也就图一乐，真要学习技术还得来泥潭。肉眼鉴ai技术断档领先全宇宙

80后卢瑟 · 发表于 2026-5-28 12:56

忧郁的杰哥发表于 2026-5-27 20:08
请问下我如果用sglang加hicache来推理deepseek-v4-flash

能达到1+1=2的效果吗？

我甚至没看懂你的意思，HiCache 不就是 sglang 的一部分吗

80后卢瑟 · 发表于 2026-5-28 12:58

AlterDialog 发表于 2026-5-28 08:34
原来萝莉已经自己在x上说了这个价仍然在盈亏线上：

有些时候表态太快观点太突出就容易吃回旋镖

不过这就是这个公司的 PR 特色，习惯就好了。只是对于路人来说，真的败路人缘。现在已经是知乎上广受好评的 DeepSeek 的上位替代了，真的是受不了

忧郁的杰哥 · 发表于 2026-5-28 13:08

提示: 作者被禁止或删除内容自动屏蔽

80后卢瑟 · 发表于 2026-5-28 13:18

忧郁的杰哥发表于 2026-5-28 13:08
是的就是我现在用sglang 推理 deepseek-v4-flash 这个hicache能有哪些方面的提升？

我现在本地端用的 ...

HiCache 就是 multi-tier KV cache offloading，省成本用的

		自动登录	找回密码
密码			立即注册

忧郁的杰哥忧郁的杰哥当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2011-6-8 头像被屏蔽	发表于 2026-5-27 20:08 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

忧郁的杰哥忧郁的杰哥当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2011-6-8 头像被屏蔽	发表于 2026-5-27 20:09 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

忧郁的杰哥忧郁的杰哥当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2011-6-8 头像被屏蔽	发表于 2026-5-28 08:39 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

忧郁的杰哥忧郁的杰哥当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2011-6-8 头像被屏蔽	发表于 2026-5-28 13:08 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

[生活] MiMo-V2.5 系列 API 永久降价，额度最高提升 8 倍