找回密码
 立即注册
搜索
楼主: 绕指流光

[科技] FT:DeepSeek下周发|已发,转为v4讨论楼

  [复制链接]
     
发表于 2026-3-27 13:27 来自手机 | 显示全部楼层
Synopses6087 发表于 2026-3-26 20:30
华为吧,硬件百度,在 AI 上起大早赶晚集,芯片太菜把 DS4 耽误了

你理解的适配是什么?现在昇腾推理适配新模型全都是Day0支持

—— 来自 HUAWEI SGT-AL50, Android 12, 鹅球 v3.4.97-alpha
回复

使用道具 举报

     
发表于 2026-3-27 14:01 | 显示全部楼层
本帖最后由 GMJ 于 2026-3-27 14:02 编辑
valigarmanda 发表于 2026-3-1 17:44
因为这几家ai公司只有deepseek是一直发论文的,相当于开源了。而且ds的api定价简直就是免费送,一点也不 ...

大概做金融的看不上这点吧,对接的用户数量太多,维护起来又烦,还不如免费开放大家使用给数据,拿训练好的数据去金融市场杀一圈。            
        
        
   

回复

使用道具 举报

     
发表于 2026-3-27 14:06 | 显示全部楼层
反正写文我只认D导!
昨天让D导又写了一篇,感觉笔力爆炸,不知道是因为好久没用了还是偷偷升级了
回复

使用道具 举报

     
发表于 2026-3-27 14:15 | 显示全部楼层
本帖最后由 ayanamilin 于 2026-3-27 14:19 编辑
ycjiang1337 发表于 2026-3-27 13:27
你理解的适配是什么?现在昇腾推理适配新模型全都是Day0支持

—— 来自 HUAWEI SGT-AL50, Android 12,  ...

你觉得 day0 指的是模型出来的当天就能自动支持吗

我借用vLLM 游凯超的一段话:

“或许用户已经习以为常,觉得一个模型首发支持vLLM是理所当然的。其实,对于vLLM来说,每一个day 0模型支持的背后,都是提前数周甚至数月的model integration工作。受限于开源项目的人手与资源的短缺,我们在day 0模型支持方面一直是艰难维持。更要命的是,模型在发布之前都是需要保密的,这极大地限制了我们从合作公司里借调人手与资源的可能性。”
回复

使用道具 举报

     
发表于 2026-3-27 14:28 | 显示全部楼层
烂炒,信这个还不如去信类脑烂炒帖
回复

使用道具 举报

     
发表于 2026-3-27 15:16 来自手机 | 显示全部楼层
千千千千鸟 发表于 2026-3-27 14:28
烂炒,信这个还不如去信类脑烂炒帖

不是炒,只是还不够尽善尽美

—— 来自 OnePlus PJZ110, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

发表于 2026-3-27 15:24 | 显示全部楼层
我最近写材料已经换成kimi了,不知道这个新版能不能让我换回ds
回复

使用道具 举报

     
发表于 2026-3-27 16:24 | 显示全部楼层
预期管理行为
回复

使用道具 举报

头像被屏蔽
     
发表于 2026-3-27 16:37 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2026-3-27 16:43 来自手机 | 显示全部楼层
忧郁的杰哥 发表于 2026-3-27 16:37
下一代还不出小参数的模型  本地没法配置啊

祈祷别来个1T的V4   真没法部署了 ...

本地配置你就别指望ds了,这不是他要做的事

—— 来自 OPPO PKU110, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

头像被屏蔽
     
发表于 2026-3-27 16:45 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2026-3-27 18:16 | 显示全部楼层
我只想看幻方发出来超长上下文怎么实现的论文
堪称魔法,御三家的超长上下文模型想用上都得花大钱
回复

使用道具 举报

     
发表于 2026-3-27 19:09 来自手机 | 显示全部楼层
ymm1030 发表于 2026-3-27 14:06
反正写文我只认D导!
昨天让D导又写了一篇,感觉笔力爆炸,不知道是因为好久没用了还是偷偷升级了 ...

D老师写文是真的顶,前前后后国内的几家都试过了,就D老师知道你真的想看什么,最近陆续给我写了三十多万字了
回复

使用道具 举报

发表于 2026-3-27 19:17 来自手机 | 显示全部楼层
更新了1m上下文后,写文特别顶
回复

使用道具 举报

     
发表于 2026-3-27 19:19 来自手机 | 显示全部楼层
酱油拌饭s 发表于 2026-3-27 19:09
D老师写文是真的顶,前前后后国内的几家都试过了,就D老师知道你真的想看什么,最近陆续给我写了三十多万 ...

现在还经常出现忘设定,有了1M上下文就没啥问题了
回复

使用道具 举报

     
发表于 2026-3-27 20:52 | 显示全部楼层
现在还没有1M的api吧?你们怎么写文的        Re:Source
回复

使用道具 举报

     
发表于 2026-3-27 21:03 来自手机 | 显示全部楼层
最近业余用trae cn搞一些开发,官方的deepseek是最好的,其他的家的模型真是不好用

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

发表于 2026-3-27 21:13 | 显示全部楼层
现在那个超长上下文的只上了网页吧,要用只能嗯用了,我宁愿ds哥把这个实验性模型的api先端出来解解渴
回复

使用道具 举报

     
发表于 2026-3-27 21:30 来自手机 | 显示全部楼层
王兰花秀丽 发表于 2026-3-27 20:52
现在还没有1M的api吧?你们怎么写文的        Re:Source

不搞刘备不碰zz敏感话题就能在官网app上直接写
所以相对的v4 lite现在nsfw写作力还是个未知数希望能有3.1t那个等级
回复

使用道具 举报

     
发表于 2026-3-27 23:50 来自手机 | 显示全部楼层
网页版的1m上下文用小说试了下发现并不是很可靠。
小说选用的是一本25年底才开始连载的网文,排除训练数据干扰。
全文150章,大概50万字,让ds概括前100章的内容,结果输出的概括里事件发生顺序和原文对不上,要么是大致时间对但是章节乱排,要么是事件时间节点前后调转。
让它限制概括只包含前100章,也给了章节标题格式确定分章有效,结果输出的内容有很多超出100章的剧情片段。

—— 来自 鹅球 v3.5.99
回复

使用道具 举报

发表于 2026-3-28 00:29 来自手机 | 显示全部楼层
网页那个我猜是真的用上之前OCR论文给的方案了。长了之后分辨率会降低,表现为会开始分不清某段内容是assistant输出还是user输入,也分不清thinking和response的区别不知道中间要输出end of thinking。很像是一整块内容直接语义加算不带顺序信息搞出的结果。
回复

使用道具 举报

     
发表于 2026-3-28 00:58 来自手机 | 显示全部楼层
期待值过头了,现在模型更看中agent能力,这块后训练肯定大有讲究,不知道ds有没有针对性的优化。
回复

使用道具 举报

     
发表于 2026-3-28 04:44 | 显示全部楼层
我的小虎鲸终于要升级了
回复

使用道具 举报

发表于 2026-3-28 06:19 | 显示全部楼层
才发现是3月1日的帖子。。。
回复

使用道具 举报

     
发表于 2026-3-28 07:12 来自手机 | 显示全部楼层
你们真以为1m上下文等于理解上下文的内容啊,NGA这个讲得挺好的,建议看下是怎么工作的
https://ngabbs.com/read.php?tid=46408344
回复

使用道具 举报

     
发表于 2026-3-28 09:12 | 显示全部楼层
沙发果冻 发表于 2026-3-28 07:12
你们真以为1m上下文等于理解上下文的内容啊,NGA这个讲得挺好的,建议看下是怎么工作的
https://ngabbs.com ...

从编程的角度来看, 写小说的人对于 1M上下文的理解和使用是有点离谱的

他们的"拆书"要求,其实是 跨啦一下丢给 llm 一本 两百万字的书,在 1-2次提示内,就要完全总结所有细节,还不能错

这就相当于10-20w行的一个项目,丢给llm,要求一次性静态分析出所有code-flow... 数据结构生命期,还要求不错.

想太多了.
也不符合llm的用法
回复

使用道具 举报

     
发表于 2026-3-28 09:18 来自手机 | 显示全部楼层
phorcys02 发表于 2026-3-28 09:12
从编程的角度来看, 写小说的人对于 1M上下文的理解和使用是有点离谱的

他们的"拆书"要求,其实是 跨啦一 ...

问题在于这就是很多人对1m上下文的理解,你看上面有些人的发言就懂了
回复

使用道具 举报

     
发表于 2026-3-28 09:26 来自手机 | 显示全部楼层

这条消息本身也是一周前的了
deepseek相对其他实验室更偏重研究一些,我觉得他们在训练技术上取得显著突破前不会发新模型
回复

使用道具 举报

     
发表于 2026-3-28 09:32 | 显示全部楼层
本帖最后由 秦南心 于 2026-3-28 09:34 编辑
沙发果冻 发表于 2026-3-28 09:18
问题在于这就是很多人对1m上下文的理解,你看上面有些人的发言就懂了

就是nb啊,我把模拟长生路这本书拆成5份,每份上下文下面问解谜流程、问角色关系、问地图变迁、问主角成长过程、问境界划分等等,对于这种不讲人物交互关系纯讲升级和世界观的书,拆书完全够我“看完”这本书了

这nga帖子全文也没讲ds v4 lite什么表现,根本就不懂装懂嘛
回复

使用道具 举报

     
发表于 2026-3-28 09:49 | 显示全部楼层
沙发果冻 发表于 2026-3-28 07:12
你们真以为1m上下文等于理解上下文的内容啊,NGA这个讲得挺好的,建议看下是怎么工作的
https://ngabbs.com ...

有不同的实现办法。
Deepseek 在v3.2上用了DSA但没有提供更长的上下文长度只是对输入token降价,GLM5使用该技术实现了1M上下文。
主流方法是DCA。
回复

使用道具 举报

     
发表于 2026-3-28 12:17 来自手机 | 显示全部楼层
ayanamilin 发表于 2026-3-27 14:15
你觉得 day0 指的是模型出来的当天就能自动支持吗

我借用vLLM 游凯超的一段话:

到目前为止各家已经发了很多个模型,包括DS之前的3.2,没有任何一个模型传出过所谓“被适配拖了后腿”的消息

—— 来自 HUAWEI SGT-AL50, Android 12, 鹅球 v3.4.97-alpha
回复

使用道具 举报

发表于 2026-3-28 13:42 | 显示全部楼层
nga那个帖子简直闹麻了
或者说无法理解他们对llm的性幻想

论坛助手,iPhone
回复

使用道具 举报

     
发表于 2026-3-30 07:35 来自手机 | 显示全部楼层
好像昨晚12点后官网和app炸了到现在还没恢复,不知道是不是大的要来了
回复

使用道具 举报

     
发表于 2026-3-30 08:20 | 显示全部楼层
羊寢 发表于 2026-3-30 07:35
好像昨晚12点后官网和app炸了到现在还没恢复,不知道是不是大的要来了

小红书半夜各种哀嚎
玩rp的这些人都不睡觉的吗?一直刷到凌晨
回复

使用道具 举报

     
发表于 2026-3-30 08:26 | 显示全部楼层
羊寢 发表于 2026-3-27 21:30
不搞刘备不碰zz敏感话题就能在官网app上直接写
所以相对的v4 lite现在nsfw写作力还是个未知数希望能有3.1 ...

所以刘备该怎么搞

—— 来自 S1Fun
回复

使用道具 举报

发表于 2026-3-30 08:36 来自手机 | 显示全部楼层
是不是v4要来,已经崩了8个小时了
回复

使用道具 举报

     
发表于 2026-3-30 08:41 来自手机 | 显示全部楼层
流缨 发表于 2026-3-30 08:20
小红书半夜各种哀嚎
玩rp的这些人都不睡觉的吗?一直刷到凌晨

你不让人家🦌完怎么睡得着(
回复

使用道具 举报

     
发表于 2026-3-30 08:44 来自手机 | 显示全部楼层
感觉day0支持这个词也要被营销搞坏了
回复

使用道具 举报

     
发表于 2026-3-30 08:47 | 显示全部楼层
炸了怎么办,我也不知道
回复

使用道具 举报

     
发表于 2026-3-30 09:20 来自手机 | 显示全部楼层
真红之闪电 发表于 2026-3-30 08:26
所以刘备该怎么搞

—— 来自 S1Fun

刘备用api在酒馆或者chatbox上写,相比较chatbox还是更推荐酒馆,毕竟整个用户生态比较成熟了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2026-6-18 19:31 , Processed in 0.219212 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表