Synopses6087 发表于 2026-3-26 20:30
华为吧,硬件百度,在 AI 上起大早赶晚集,芯片太菜把 DS4 耽误了
你理解的适配是什么?现在昇腾推理适配新模型全都是Day0支持
—— 来自 HUAWEI SGT-AL50, Android 12, 鹅球 v3.4.97-alpha
本帖最后由 GMJ 于 2026-3-27 14:02 编辑
valigarmanda 发表于 2026-3-1 17:44
因为这几家ai公司只有deepseek是一直发论文的,相当于开源了。而且ds的api定价简直就是免费送,一点也不 ...
大概做金融的看不上这点吧,对接的用户数量太多,维护起来又烦,还不如免费开放大家使用给数据,拿训练好的数据去金融市场杀一圈。
反正写文我只认D导!
昨天让D导又写了一篇,感觉笔力爆炸,不知道是因为好久没用了还是偷偷升级了
本帖最后由 ayanamilin 于 2026-3-27 14:19 编辑
ycjiang1337 发表于 2026-3-27 13:27
你理解的适配是什么?现在昇腾推理适配新模型全都是Day0支持
—— 来自 HUAWEI SGT-AL50, Android 12,...
你觉得 day0 指的是模型出来的当天就能自动支持吗
我借用vLLM 游凯超的一段话:
“或许用户已经习以为常,觉得一个模型首发支持vLLM是理所当然的。其实,对于vLLM来说,每一个day 0模型支持的背后,都是提前数周甚至数月的model integration工作。受限于开源项目的人手与资源的短缺,我们在day 0模型支持方面一直是艰难维持。更要命的是,模型在发布之前都是需要保密的,这极大地限制了我们从合作公司里借调人手与资源的可能性。”
烂炒,信这个还不如去信类脑烂炒帖
千千千千鸟 发表于 2026-3-27 14:28
烂炒,信这个还不如去信类脑烂炒帖
不是炒,只是还不够尽善尽美
—— 来自 OnePlus PJZ110, Android 16, 鹅球 v3.5.99
我最近写材料已经换成kimi了,不知道这个新版能不能让我换回ds
预期管理行为
忧郁的杰哥 发表于 2026-3-27 16:37
下一代还不出小参数的模型本地没法配置啊
祈祷别来个1T的V4 真没法部署了 ...
本地配置你就别指望ds了,这不是他要做的事
—— 来自 OPPO PKU110, Android 16, 鹅球 v3.5.99
ymm1030 发表于 2026-3-27 14:06
反正写文我只认D导!
昨天让D导又写了一篇,感觉笔力爆炸,不知道是因为好久没用了还是偷偷升级了 ...
D老师写文是真的顶,前前后后国内的几家都试过了,就D老师知道你真的想看什么,最近陆续给我写了三十多万字了
更新了1m上下文后,写文特别顶
酱油拌饭s 发表于 2026-3-27 19:09
D老师写文是真的顶,前前后后国内的几家都试过了,就D老师知道你真的想看什么,最近陆续给我写了三十多万 ...
现在还经常出现忘设定,有了1M上下文就没啥问题了
现在还没有1M的api吧?你们怎么写文的 Re:Source
最近业余用trae cn搞一些开发,官方的deepseek是最好的,其他的家的模型真是不好用
—— 来自 鹅球 v3.3.96
王兰花秀丽 发表于 2026-3-27 20:52
现在还没有1M的api吧?你们怎么写文的 Re:Source
不搞刘备不碰zz敏感话题就能在官网app上直接写
所以相对的v4 lite现在nsfw写作力还是个未知数希望能有3.1t那个等级
网页版的1m上下文用小说试了下发现并不是很可靠。
小说选用的是一本25年底才开始连载的网文,排除训练数据干扰。
全文150章,大概50万字,让ds概括前100章的内容,结果输出的概括里事件发生顺序和原文对不上,要么是大致时间对但是章节乱排,要么是事件时间节点前后调转。
让它限制概括只包含前100章,也给了章节标题格式确定分章有效,结果输出的内容有很多超出100章的剧情片段。
—— 来自 鹅球 v3.5.99
网页那个我猜是真的用上之前OCR论文给的方案了。长了之后分辨率会降低,表现为会开始分不清某段内容是assistant输出还是user输入,也分不清thinking和response的区别不知道中间要输出end of thinking。很像是一整块内容直接语义加算不带顺序信息搞出的结果。
期待值过头了,现在模型更看中agent能力,这块后训练肯定大有讲究,不知道ds有没有针对性的优化。
我的小虎鲸终于要升级了
才发现是3月1日的帖子。。。
你们真以为1m上下文等于理解上下文的内容啊,NGA这个讲得挺好的,建议看下是怎么工作的
https://ngabbs.com/read.php?tid=46408344
沙发果冻 发表于 2026-3-28 07:12
你们真以为1m上下文等于理解上下文的内容啊,NGA这个讲得挺好的,建议看下是怎么工作的
https://ngabbs.com ...
从编程的角度来看, 写小说的人对于 1M上下文的理解和使用是有点离谱的
他们的"拆书"要求,其实是 跨啦一下丢给 llm 一本 两百万字的书,在 1-2次提示内,就要完全总结所有细节,还不能错
这就相当于10-20w行的一个项目,丢给llm,要求一次性静态分析出所有code-flow... 数据结构生命期,还要求不错.
想太多了.
也不符合llm的用法
phorcys02 发表于 2026-3-28 09:12
从编程的角度来看, 写小说的人对于 1M上下文的理解和使用是有点离谱的
他们的"拆书"要求,其实是 跨啦一 ...
问题在于这就是很多人对1m上下文的理解,你看上面有些人的发言就懂了
astkaasa 发表于 2026-3-27 13:13
来了来了
这条消息本身也是一周前的了
deepseek相对其他实验室更偏重研究一些,我觉得他们在训练技术上取得显著突破前不会发新模型
本帖最后由 秦南心 于 2026-3-28 09:34 编辑
沙发果冻 发表于 2026-3-28 09:18
问题在于这就是很多人对1m上下文的理解,你看上面有些人的发言就懂了
就是nb啊,我把模拟长生路这本书拆成5份,每份上下文下面问解谜流程、问角色关系、问地图变迁、问主角成长过程、问境界划分等等,对于这种不讲人物交互关系纯讲升级和世界观的书,拆书完全够我“看完”这本书了
这nga帖子全文也没讲ds v4 lite什么表现,根本就不懂装懂嘛
沙发果冻 发表于 2026-3-28 07:12
你们真以为1m上下文等于理解上下文的内容啊,NGA这个讲得挺好的,建议看下是怎么工作的
https://ngabbs.com ...
有不同的实现办法。
Deepseek 在v3.2上用了DSA但没有提供更长的上下文长度只是对输入token降价,GLM5使用该技术实现了1M上下文。
主流方法是DCA。
ayanamilin 发表于 2026-3-27 14:15
你觉得 day0 指的是模型出来的当天就能自动支持吗
我借用vLLM 游凯超的一段话:
到目前为止各家已经发了很多个模型,包括DS之前的3.2,没有任何一个模型传出过所谓“被适配拖了后腿”的消息
—— 来自 HUAWEI SGT-AL50, Android 12, 鹅球 v3.4.97-alpha
好像昨晚12点后官网和app炸了到现在还没恢复,不知道是不是大的要来了
羊寢 发表于 2026-3-30 07:35
好像昨晚12点后官网和app炸了到现在还没恢复,不知道是不是大的要来了
小红书半夜各种哀嚎
玩rp的这些人都不睡觉的吗?一直刷到凌晨
羊寢 发表于 2026-3-27 21:30
不搞刘备不碰zz敏感话题就能在官网app上直接写
所以相对的v4 lite现在nsfw写作力还是个未知数希望能有3.1 ...
所以刘备该怎么搞
—— 来自 S1Fun
是不是v4要来,已经崩了8个小时了
流缨 发表于 2026-3-30 08:20
小红书半夜各种哀嚎
玩rp的这些人都不睡觉的吗?一直刷到凌晨
你不让人家🦌完怎么睡得着(
感觉day0支持这个词也要被营销搞坏了
炸了怎么办,我也不知道
真红之闪电 发表于 2026-3-30 08:26
所以刘备该怎么搞
—— 来自 S1Fun
刘备用api在酒馆或者chatbox上写,相比较chatbox还是更推荐酒馆,毕竟整个用户生态比较成熟了