正式版 v4 flash 已上线，pro 8月初｜DeepSeek v4讨论专楼

startraveller · 发表于 2026-6-5 00:32

明钼发表于 2026-6-4 20:21
同我一样。我在opencode的缓存命中率比pi的命中率高很多。我也想知道为什么 ...

pi默认的harness太简洁（lou）了，要自己研究加轮子

goranger · 发表于 2026-6-5 01:32

openclaw屎山代码，只有d老师能救

论坛助手,iPhone

serj005 · 发表于 2026-6-5 08:09

有鱼发表于 2026-6-4 21:51
我一直想搞一个适配dsv4系列超廉价1m上下文和廉价缓存的harness

reasonix就是这么个设计目标，确保固定前缀100%命中，不过现在新的go重写版缓存命中有问题，有时候降到70%多，老版本的长任务缓存命中率经常能上99%。

LeoDT · 发表于 2026-6-5 08:39

Bronzecraft 发表于 2026-6-4 20:17
从cc转到pi后发现缓存命中率下降了，大家有遇到类似的情况吗？

写代码吗？有装奇怪扩展吗？尤其是擅自改context的，pi本身是不动context原模原样发给模型的，该命中就会命中。另外想到的，如果用量不大，假设输出token不变，输入token少的命中率算出来确实是低的，但是总量上去后，命中率应该是差不多的。我记得用opencode的时候第一句话发出去就几十K输入了，挺可怕，现在用pi只有几K。

刚才去D老师那查了下，我这命中率稳定在93-95。

neptunehs · 发表于 2026-6-5 08:49

蹬了一下午5块其中有一块是promax一次回应的钱其他都是flash

差距真大这还是降价过的（而且问题没解决虽然没解决也正常

—— 来自 OnePlus PJX110, Android 14, 鹅球 v3.5.99

Bronzecraft · 发表于 2026-6-7 11:11

LeoDT 发表于 2026-6-5 08:39
写代码吗？有装奇怪扩展吗？尤其是擅自改context的，pi本身是不动context原模原样发给模型的，该命中就会 ...

对，主要是一些代码任务。
我刚又重新统计了下，用claude code每个session大概输入tokens在1400万到3000万之间，缓存命中率稳定98%到99%。切换到pi后每个session输入tokens在800万到100万之间，缓存命中率在93%到96%左右。
另外切换到pi后有个奇怪的现象，对话里常会有同一句话分三行重复输出，下一行比上一行输出多一点，最后一行输出完整语句。输入也是，一句输入总是给你分成三行。
不过我猜这应该是我powershell的原因，因为我有时候拖拽下窗口边缘，三行就合并成一行了。

LeoDT · 发表于 2026-6-7 12:47

Bronzecraft 发表于 2026-6-7 11:11
对，主要是一些代码任务。
我刚又重新统计了下，用claude code每个session大概输入tokens在1400万到3000 ...

98-99 这缓存率也有点太异常了吧，是不是侧面证明cc的废话很多过于浪费啊，每个session有效的输入输出算出来没多少了都。

我这里实施任务交给flash跑，消耗大概3000-4000，缓存率95。pro专门用来做规划，所以缓存率低一些91，消耗大概1000上下。这都是一天的统计不是每session的统计。

另外估计是使用习惯问题，我几乎不会有一个session上千万token的，而且严格区分规划和实施session。规划session的context很轻松就能上几十几百K了拿来跑tool call频繁的实施任务实在有些划不来，而且实施全走subagent，虽然总体来说拉低缓存率，但是对于context增长很快的实施任务来说是省钱的应该。

所以感觉单纯只看缓存率来评价还是有问题的，以D老师缓存机制来说，pi在不做任何context修改的情况下，是绝对命中的，不用担心是agent的问题。

andychen · 发表于 2026-6-7 14:02

LeoDT 发表于 2026-6-7 12:47
98-99 这缓存率也有点太异常了吧，是不是侧面证明cc的废话很多过于浪费啊，每个session有效的输入输出算 ...

缓存命中率主要看提示词设计和管理

绝大部分api提供商的缓存计算方式很简单，从开头开始看你的prompt和之前x时间内的prompt有多少重复，从第一个不重复的token开始往前所有的token都视为缓存命中，后面的则是未命中

也就是说如果要优化缓存利用率需要要尽量把重复的提示内容放在prompt的开头

LeoDT · 发表于 2026-6-7 14:53

andychen 发表于 2026-6-7 14:02
缓存命中率主要看提示词设计和管理

绝大部分api提供商的缓存计算方式很简单，从开头开始看你的prompt和 ...

不是在讨论命中原理，是在已经确定prompt不变的情况下，不同agent是否会影响所谓的命中率的问题。

我的对坛友使用cc为什么命中率可以那么高的分析是，cc废话太多（不管是tool call太啰嗦还是什么其它可能的原因），导致session的消耗大多数来源于更多轮的 tool call 产生的缓存消耗，坛友实际的例子也是4000万token消耗有99都是缓存，虽然是缓存但是换算一下这是不少钱啊。

另外有可能的原因是，在假设一个任务llm输出的token和用户输入的token量不变的情况下，越多轮的对话、tool call就会导致越高的命中率，即总消耗token中，每次重复的部分占了更大的比率，那么是否可以认为有效的token输出就是更少了呢? 我对cc没怎么研究过，不知道它内置了多少tool，是否所有tool都是在干活的，用户是否能看到所有tool call，至少pi是可以的，默认的tool也只有干活的tool没有所谓提升用户体验的tool。

其实就是简单数学题，假设初始对话后context 10k，下一轮输入1k，这一轮的命中是10/11，再输入1k，命中是11/12，这样一直加下去，轮数越多命中率就是越大，到了99/100那可不就是99命中。当然这是简单计算，实际使用中不可能是1k 1k的涨，不过计算方法不会变。

Anarkia · 发表于 2026-6-7 16:01

LeoDT 发表于 2026-6-7 14:53
不是在讨论命中原理，是在已经确定prompt不变的情况下，不同agent是否会影响所谓的命中率的问题。

我的 ...

没错，缓存命中率是个容易让人产生错觉的指标，并不是单纯越高越好
同样token总数的前提下我们当然希望缓存命中率能高
但是在已知deepseek缓存逻辑的情况下，99%的缓存命中率相对90%的缓存命中率可能并不是缓存效率高，而是有效token相近的前提下呼叫次数多了10倍，也就是你说的Claude Code废话太多tool call轮次太多

金轮法王 · 发表于 2026-6-7 16:05

我用claude code接deepseek v4pro写前段，一天花了2.5亿token，缓存命中率99.7。可能也跟我用openspec有关

—— 来自 Xiaomi 24129PN74C, Android 16, 鹅球 v3.5.99

svmkty · 发表于 2026-6-7 16:48

提示: 作者被禁止或删除内容自动屏蔽

13号 · 发表于 2026-6-7 17:04

听前面哥们的建议试了下 pi。好好用。我就需要个没有 mcp，没有奇怪的插件，可以加载 skill 的工具。 pi 里缺少撒东西，可以很快速的直接写个 extension，太好用了。

hugosol · 发表于 2026-6-7 17:15

Pi真的这么爽吗，工具都要自己写会不会很麻烦
我现在用opencode比较不爽的就是自带的移动端太烂了，试过折腾openchamber和paseo效果都不是很好，真的想自己写扩展了
还有git worktree也没有原生支持，现在用的ide对worktree的支持也不好，我在想用Pi能不能把这些东西都集成起来
不过这样造的轮子也太多了

overflowal · 发表于 2026-6-7 17:51

hugosol 发表于 2026-6-7 17:15
Pi真的这么爽吗，工具都要自己写会不会很麻烦
我现在用opencode比较不爽的就是自带的移动端太烂了，试过折 ...

你想有个开箱即用的体验的话你可以试试ohmypi，一个pi的强化版fork Re:Source

Van夫膜开 · 发表于 2026-6-7 18:10

pi非常适合自己定制化的一些专用领域的任务，干净，可以自己一点一点加约束，加设计哲学。
如果是纯vibe coding的话，还是claude code或者codex比较好

wuuuuuud · 发表于 2026-6-8 11:33

ds最近提速了吗？api上周峰值能到7-80的速度，平均60多，今天平均速度能上80了，峰值100多

—— 来自鹅球 v3.3.96-alpha

库德里尔 · 发表于 2026-6-8 13:04

reasonix@next版本现在能承担多强的开发应用？我稍微测了一下，上下文命中非常棒，但是复杂任务还没测。1.x版本支持webui了吗？

在原生支持类似--add-dir和/side之前我肯定不会抛弃codex……

—— 来自鹅球 v3.5.99

overflowal · 发表于 2026-6-8 13:08

wuuuuuud 发表于 2026-6-8 11:33
ds最近提速了吗？api上周峰值能到7-80的速度，平均60多，今天平均速度能上80了，峰值100多

—— 来自鹅球 ...

你是说flash吗，之前扩容后就提速了 Re:Source

haiuhfuwah · 发表于 2026-6-8 14:38

做海报的话有没有哪些agent推荐的？国内trae能做么？

真红之闪电 · 发表于 2026-6-8 15:40

为什么我觉得最近flash不好用了，输出内容非常少。
思维模式开到最大也不那么好用。

villsian · 发表于 2026-6-8 18:21

今天有掉缓存的吗？今天跑了几个任务，干出去30多块。。。肉疼

不知道是自己代码改出BUG了还是D老师出BUG了呀。

兔灾2号 · 发表于 2026-6-8 21:37

我用Cherrystudio挂载了api，但感觉还是怪怪的，原来的网页端对时间的把握很精准，但是用api的情况下，哪怕我开了网络搜索，只要我不说具体时间，api就默认现在是25年，对话里也有股微妙的弱智感

qwased · 发表于 2026-6-8 22:15

兔灾2号发表于 2026-6-8 21:37
我用Cherrystudio挂载了api，但感觉还是怪怪的，原来的网页端对时间的把握很精准，但是用api的情况下，哪怕 ...

你要在助手的提示词那里写上日期之类的变量以及你希望他扮演什么角色，接api默认是完全没有提示词的
网页有内置提示词

—— 来自 Xiaomi 2410DPN6CC, Android 16, 鹅球 v4.0.100-alpha

hugosol · 发表于 2026-6-8 23:39

这两天抽空折腾了一下pi和oh-my-pi，刚开始想着拿DeepSeekV4Flash写个plan mode，基本上需求再往下细化就会乱掉，omp里面稍微长点的讨论甚至直接忘掉前面讨论过内容，结论是flash完全没法用来写代码，感觉还是去年那种玩具模型的水平，只能一句话生成代码然后看抽卡结果

切回V4Pro感觉就好多了，总算找回和正常人类讨论的感觉

杀人鲸 · 发表于 2026-6-9 00:52

更新了，客户端更新到了2.1.5，只不过大概不是很重要的更新，所以没有弹出来提示，而是属于小版本的更新吧。

—— 来自 S1Fun

走来走去 · 发表于 2026-6-9 08:03

svmkty 发表于 2026-6-7 16:48
龙虾这玩意儿就是坑普通人的

龙虾纯废物，起码装个hermes吧， pi还没用过，今天试试

schneehertz · 发表于 2026-6-9 08:14

Bronzecraft 发表于 2026-6-7 11:11
对，主要是一些代码任务。
我刚又重新统计了下，用claude code每个session大概输入tokens在1400万到3000 ...

Windows的话用Windows terminal就不会有这问题

—— 来自鹅球 v3.5.99

ymm1030 · 发表于 2026-6-9 09:39

球球你们不要蹬了，昨天半夜偶遇智商占领高地的D导，给我写出了迄今为止最好的一个档

那种细腻情感，没有一丁点不是...而是...这种流口水句式的救赎感

不让用大写 · 发表于 2026-6-9 09:42

haiuhfuwah 发表于 2026-6-8 14:38
做海报的话有没有哪些agent推荐的？国内trae能做么？

图片吗？GPT image2 或者 nano banana

ycjiang1337 · 发表于 2026-6-9 11:06

兔灾2号发表于 2026-6-8 21:37
我用Cherrystudio挂载了api，但感觉还是怪怪的，原来的网页端对时间的把握很精准，但是用api的情况下，哪怕 ...

网页版有内置System Prompt

ayanamilin · 发表于 2026-6-9 11:07

DeepSeek开招土木老哥：自建吉瓦级数据中心

DeepSeek官网最新上线了“IDC设计规划工程师”这个岗位。IDC设计规划工程师，全称互联网数据中心设计规划工程师，属于算力基建、通信基建核心技术岗，负责数据中心从前期选址、方案、布局到施工图、落地配套的全流程规划设计，是机房建设前期核心技术负责人。

https://zhuanlan.zhihu.com/p/2047627975131243737

hugosol · 发表于 2026-6-10 02:11

oh-my-pi可玩性实在太高了，这两天正事一点没干一直在折腾extension

pi本体太素了，oh-my-pi虽然自带一堆有的没的（但你可以选择不用

），也可以用pi的方式来扩展，不过要把源码下给它看，没有pi自己查自己那么丝滑
Mario Zechner(Pi的作者)的哲学也挺有意思的，Pi没有plan mode没有subagent不是因为这些东西不重要，而是因为他认为现在agent还在发展中，他不知道最好的实现方式是怎样，所以他交由用户自己决定
不过我觉得Pi最天才的设计还是让它能读到自己的源代码，这功能就应该是所有agent的标配才对，现在回过头来看Claude Code和openCode之流还是太封闭了

高粱河车神 · 发表于 2026-6-10 08:35

近日，深圳河套学院AI训练平台项目团队，联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为有关团队，协同深智城AI算力平台，面向国产算力大模型训练开展联合攻关。依托昇腾910C国产AI算力集群，完成1.6万亿参数大模型DeepSeek-V4-Pro全参数后训练。

这个消息怎么看？

半江瑟瑟半江红 · 发表于 2026-6-10 08:52

高粱河车神发表于 2026-6-10 08:35
近日，深圳河套学院AI训练平台项目团队，联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为有关团队，协 ...

后训练而已，还任重而道远

—— 来自 HUAWEI SGU-AL10, Android 12, 鹅球 v3.5.99

tillnight · 发表于 2026-6-10 08:53

高粱河车神发表于 2026-6-10 08:35
近日，深圳河套学院AI训练平台项目团队，联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为有关团队，协 ...

形式大于实质，910c可以训练，但910c训练不大可能，这个华为自己都知道，也不会向客户推销训练用途。硬做当然不是不行，但头部其实心照不宣人人都有b200/300集群的情况下，硬来训练没有意义。
比较有意义的新闻是华为官方渠道消息950dt提前到三季度（8月）批量上市。这和ds发布v4时提前透露的（下半年950超节点上线）时间点对应上了。看来ds确实是首批用户。950dt组成的超节点的训练能力才是看点，因为大概率是类gpgpu架构，对cuda生态兼容性大幅提高，对头部厂商迁移训练和生态意义很大。一切顺利的话，会是真正意义上第一代可以大规模量产部署的国产训练卡（下半年估计30万张以上，或者10个以上万卡集群），后续模型迭代有机会实现全国产化，当然在各家默默持有的b300集群还能用的情况下，大概率主要还是做后训练和推理，但至少迈出关键一步了。

overflowal · 发表于 2026-6-10 09:02

高粱河车神发表于 2026-6-10 08:35
近日，深圳河套学院AI训练平台项目团队，联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为有关团队，协 ...

deepseek拿的估计是950dt这种，真用到预训练估计要下一代了 Re:Source

LeoDT · 发表于 2026-6-10 09:42

hugosol 发表于 2026-6-10 02:11
oh-my-pi可玩性实在太高了，这两天正事一点没干一直在折腾extension
pi本体太素了，oh-my-pi虽然自带一堆有 ...

用pi最烦恼的就是这个，经常想到要有个什么功能就好了然后就跑去搞扩展，结果搞回来主线任务完全记不得了。这也算是一种旷野之息吗？

pi这两个维护者都是话痨，天天发表一些奇怪的意见，但是我觉得算是在agentic coding领域少有的比较务实的那一派，跟最近在搞本地部署D老师的那个redis作者一样，话多但是别人真能做出来好东西。

hugosol · 发表于 2026-6-10 10:15

LeoDT 发表于 2026-6-10 09:42
用pi最烦恼的就是这个，经常想到要有个什么功能就好了然后就跑去搞扩展，结果搞回来主线任务完全记不得了 ...

Antirez开发Redis Arrays那个文章确实给我很大启发，他就是那种有了AI之后变得更强的强者，跟那些天天还在纠结程序员有哪些技能ai没法取代的人完全不一样

阿刚 · 发表于 2026-6-10 10:33

感觉不是专业的话Hermes体验已经很好了，至少互动记忆和基本操作比龙虾舒服

		自动登录	找回密码
密码			立即注册

[科技] 正式版 v4 flash 已上线，pro 8月初｜DeepSeek v4讨论专楼

本帖子中包含更多资源

评分

本帖子中包含更多资源

评分

svmkty svmkty 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2015-2-3 头像被屏蔽	发表于 2026-6-7 16:48 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报