FT：DeepSeek下周发｜已发，转为v4讨论楼 - 第5页 - 归墟 - Stage1st

子虚乌有 发表于 2026-4-2 07:35

起这种标题一般就是下周复下周

SmterC 发表于 2026-4-2 07:37

已经成了下周专楼了

—— 来自 vivo V2307A, Android 16, 鹅球 v3.5.99-alpha

我特么吹爆 发表于 2026-4-2 08:09

下周……
想起：贾跃亭

lionheart 发表于 2026-4-2 08:23

前几天网页端被灰度到一次，多段思考中间夹杂分段工具调用，思考过程简洁，正文输出比较快

羊寢发表于 2026-4-2 09:02

本帖最后由羊寢于 2026-4-2 09:03 编辑

erliuer 发表于 2026-4-2 01:29
请教一下，用ds网页端写文和接入api写文差别大不大？

主要区别还是网页版道德底线太高，api就没有这种负担(但我不知道api的zz甲如何，毕竟没试过zz相关的内容输出)
写作能力的话如果是以前两边是没有差别，但目前网页版在灰测v4l所以有概率撞到，看人说v4l写文好像是有点蠢。目前api上面还是3.2

羊寢发表于 2026-4-2 12:43

今天说是在灰度svg，现在感觉是确实很多东西都还没测完，怕不是要等到下个月才能正式更新

哈里-谢顿 发表于 2026-4-2 18:10

https://mp.weixin.qq.com/s/bYZrKp48Y7EpsU8_vd6TcQ

就在DeepSeek V4山雨欲来的前夜，晚点LatePost的更新爆了不少料：

- 最近半年，DeepSeek的核心员工，包括DeepSeek第一代模型作者王炳宣、DeepSeek-OCR系列作者魏浩然、DeepSeek-R1作者郭达雅、Janus-Pro贡献者阮翀等人，都被各家大厂给挖走了，更不用说已经在小米做出了成果的前研究员罗福莉；

- 尽管如此，DeepSeek依然不怎么卷，同行的每周工作时间都奔着80小时去了，DeepSeek的大多数员工还是遵循着早上不打卡、下午6-7点走人的规律，因为老板梁文锋相信一个人每天高质量输出的时间不会超过8小时，加班疲劳产生的昏庸判断，反而会浪费宝贵的算力资源；

- 搞AI和做量化之间的关系其实相当紧密，2016年，DeepMind的创始人哈萨比斯就组建过量化团队，希望能为刚刚脱离Google的公司创收，结果没赚到钱，而幻方则是倒过来的，也是在同一年开始用GPU的深度学习算力去干实盘交易，成功让梁文锋以30岁的年纪实现财富自由，再才组建了DeepSeek；

- 2023年的时候，梁文锋小范围见过一些投资人，但提出的构想类似OpenAI和微软的投资协议，投资方需要接受一个回报上限，这在投资者看来是没道理的，所以见完一轮之后，没有任何机构愿意投DeepSeek，而在大模型火了之后，梁文锋把和投资人建联的通道直接关闭了；

- 在公司里，梁文锋参与最多的是基模架构工作，然后就是充当不同团队之间的粘合剂，DeepSeek内部鼓励交叉协作，一个团队的周会也会向其他团队开放，这种开放组织很容易被规模扩张给破坏，所以DeepSeek对于核心团队的增加相当谨慎；

- 去年以来，外部世界发生巨变，既有DeepSeek-V3/R1的一炮走红，也有竞争烈度的大幅升级，DeepSeek没有加入任何战局，依然在自己重视的效率优化（注意力机制）、架构改进（mHC）和非主流探索（OCR）上面努力，梁文锋甚至招进了一些神经科学和脑科学背景的顾问，对人脑原理兴趣大增；

- 这也意味着DeepSeek错过了去年最重要的两条主线，一个是AI Coding，这里不只有商业价值的爆发，还引发了以龙虾为代表的Agentic应用形态，DeepSeek-V3.2完全被其他国产模型盖过了风头，另一个是多模态生成，从GPT-4o到Nano Banana再到Seedance 2.0，全都颠覆性的创造了海量增长，但梁文锋认为多模态「不是智能的主线」；

- 外界期待DeepSeek每次出手都能像去年年初那样石破天惊，这可能有些强人所难，也未必是梁文锋的目标，而他也需要稳定团队抗拒财富诱惑的心力，猎头给DeepSeek员工开出2-3倍的薪水，而且这还是建立在DeepSeek本身工资就不低的前提下，确实也有员工做出了跳槽去参与更确定性的、持续参与业界最强模型工作的选择；

- 留下的人当然还是占了大多数，他们习惯了相对宽松的研究氛围，也愿意做非竞争驱动的探索，在DeepSeek的价值体系里，原创的排序是要比最强更靠前的，它们本质上并不冲突，有时候实现了原创也就自然实现了最强，但在进入Agentic版本后，工程能力变得更重要了，而这正好进入了DeepSeek没有过多投入的地方；

- 于是梁文锋也比较少见的做出了应变回应，最近一段时间，他开始启动了对公司的估值，这意味着可以给团队更有刺激性的财富预期，同时也开始招揽模型策略产品经理，明确要求深度使用过Claude Code、OpenClaw、Manus；

- 坚持该坚持的，改变该改变的，至于什么是该坚持的、什么是该改变的，这个判断还是得由梁文锋来拿捏，「奇迹之所以是奇迹，就是因为它不常发生，是小概率事件。在中国这个崇尚竞争和结果说话的环境里，敢于追求独特目标的 DeepSeek 的存在本身，是一个令人惊喜的小概率事件。」

#DeepSeek不打卡也不加班##DeepSeekV4或将在4月发布#

Azcarlo 发表于 2026-4-2 18:33

晚点的文
V4 发布前的 DeepSeek：特质、组织和梁文锋的独特目标
https://mp.weixin.qq.com/s/bYZrKp48Y7EpsU8_vd6TcQ
梁老板的公司真是科研狗的理想之地，正常上下班没有强制kpi，有点子就给你调资源。
甚至还有尝试做类脑方向研究的你敢信。
我就不期待DS以后发的模型性能多强了，更在意梁老板有没有怪点子和花活给大伙整。

— from Xiaomi 23127PN0CC, Android 16, S1 Next Goose v3.5.99

a4ac7 发表于 2026-4-2 18:34

哈里-谢顿发表于 2026-4-2 18:10
https://mp.weixin.qq.com/s/bYZrKp48Y7EpsU8_vd6TcQ

就在DeepSeek V4山雨欲来的前夜，晚点LatePost的更新 ...

没打卡不加班，这还说什么呢，祝DS这样的公司越办越好了

—— 来自 HUAWEI PLA-AL10, Android 12, 鹅球 v3.5.99

脸宽发表于 2026-4-2 18:49

真有钱烧啊，现在没感觉目前的deepseek能赢利啊，我还寻思着这次v4会不会有coding plan来着 Re:Source

忧郁的杰哥 发表于 2026-4-2 18:56

龙骑士尹志平 发表于 2026-4-2 19:08

研究人脑是不是被陈天桥带歪了

有鱼发表于 2026-4-2 19:10

有鱼发表于 2026-4-2 19:12

哈里-谢顿 发表于 2026-4-2 19:13

龙骑士尹志平发表于 2026-4-2 19:08
研究人脑是不是被陈天桥带歪了

研究人脑是从计算机开始就有的路线

不过现在人类对大脑研究都只能说很浅，不好说会有啥结果

哈里-谢顿 发表于 2026-4-2 19:14

有鱼发表于 2026-4-2 19:12
虽然总结很不错，但是为啥唐突出现了文中没有提到的罗福莉？

这是阑夕的总结，应该是私货

wlbthh 发表于 2026-4-2 19:18

不容易，压力下好好生活好好发展就挺厉害挺能耐的

—— 来自 Xiaomi 23049RAD8C, Android 13, 鹅球 v3.5.99

oldttt 发表于 2026-4-2 19:20

a4ac7 发表于 2026-4-2 18:34
没打卡不加班，这还说什么呢，祝DS这样的公司越办越好了

—— 来自 HUAWEI PLA-AL10, Android 12, 鹅球...

+1
跟那些打着研发旗号一副全心投入假装不知道上下班节假日一到下班点就下楼坐上车语音给各种人派活的虚伪人士相比天壤之别

—— 来自 S1Fun

有鱼发表于 2026-4-2 19:22

villsian 发表于 2026-4-2 22:14

看来是给预期做了一些降温。

企业氛围和公司文化真不错，有做出好产品的基因。

希望能顶住压力，持续的发光发热。

多模态什么的都不重要啦，便宜大碗的1M上下文快来吧。

御坂MKII 发表于 2026-4-2 22:21

不加班（2c 业务相关除外

德尔惠净水器 发表于 2026-4-2 22:41

以前有没有多次搜索，今晚用的时候才发现

weironx 发表于 2026-4-2 23:06

现在动不动90个网页，是上下文变大的原因吗

御坂MKII 发表于 2026-4-2 23:11

weironx 发表于 2026-4-2 23:06
现在动不动90个网页，是上下文变大的原因吗

这个倒应该是工作流变了的原因，属于 agent 能力的一部分

羊寢发表于 2026-4-3 00:08

话说今晚看到有人测了二次元nsfw知识，说是目前国模里面数据库最全的，不知道sfw方面是否也一样

羊寢发表于 2026-4-3 00:18

本帖最后由羊寢于 2026-4-3 00:28 编辑

德尔惠净水器发表于 2026-4-2 22:41
以前有没有多次搜索，今晚用的时候才发现

看了一下确实现在都是多步搜索了，而且之前灰测能不能灰到都是纯看脸，现在应该是是大面积铺开了，下周可能真有希望？虽然我是希望能等一周……下周我玩不了

试了一下忽然会算9.11-9.80了

杀人鲸 发表于 2026-4-3 01:04

weironx 发表于 2026-4-2 23:06
现在动不动90个网页，是上下文变大的原因吗

我嘞了个去，我总算是体验到了那些灰度测试的哥们才体验到的东西，真的开始全面铺开了吗？那也太好了。

—— 来自 S1Fun

crow_wine 发表于 2026-4-3 01:17

我体验的感觉变厉害了，
就是有种常见数学能直接算出来的感觉，比如输出里面很自然的就说道了15分钟70次大概就是每13秒一次的频率。
还有上下文有时候变得很大，搜索巨多的网页

最重要的是，写文，或者给出写作指导好强啊，写得很有感情，很真诚，没有那种八股的感觉

—— 来自 HUAWEI ALN-AL00, Android 12, 鹅球 v3.5.99-alpha

7do 发表于 2026-4-3 01:26

所以ds是真的在搞ai，不只是大语言模型了

— from S1 Next Goose v3.5.99

Litccc 发表于 2026-4-3 01:39

v4l写文确实可以，没gemini那么极端，也不像claude那样冷淡，还得是⏰自己的大模型

yoki42 发表于 2026-4-3 07:37

所以其实是拿炒股的钱来养团队的吧

—— 来自鹅球 v3.5.99

Rowen233 发表于 2026-4-3 09:24

Gemma 都上新了

绝地潜兵 发表于 2026-4-3 09:26

羊寢发表于 2026-4-3 00:08
话说今晚看到有人测了二次元nsfw知识，说是目前国模里面数据库最全的，不知道sfw方面是否也一样 ...

二刺猿nsfw咋测啊?

neptunehs 发表于 2026-4-3 09:29

Rowen233 发表于 2026-4-3 09:24
Gemma 都上新了

但看数值没啥优势的感觉啊
做梦中的gemini风格的支持画画也果断没有
而且居然有思维链了 gemma3明明是没有思维链却效果还行的最后独苗

—— 来自 OnePlus PJX110, Android 14, 鹅球 v3.5.99

Rowen233 发表于 2026-4-3 09:35

neptunehs 发表于 2026-4-3 09:29
但看数值没啥优势的感觉啊
做梦中的gemini风格的支持画画也果断没有
而且居然有思维链了 gemma3明明是没 ...

主要强在用30b参数打100b模型

neptunehs 发表于 2026-4-3 09:50

本帖最后由 neptunehs 于 2026-4-3 09:51 编辑

Rowen233 发表于 2026-4-3 09:35
主要强在用30b参数打100b模型

qwen3.5的27b也能打80b 只能说属于正统进化
没有惊喜

但还是能用的 gemma3当时就是属于没有惊喜却异常好用
但没有gemini式出图我还是失望啊（拖

—— 来自 OnePlus PJX110, Android 14, 鹅球 v3.5.99

奥柏伦亲王 发表于 2026-4-3 09:54

下周一定

梅林的三角裤 发表于 2026-4-3 10:08

虽然酒馆里多轮对话之后ds就不太行，容易复读。但是单轮对话对于中文文风的理解和把控很到位，gemini比起来就很平。

论坛助手,iPhone

羊寢发表于 2026-4-3 10:08

本帖最后由羊寢于 2026-4-3 10:12 编辑

绝地潜兵发表于 2026-4-3 09:26
二刺猿nsfw咋测啊?

我只看到别人发的ds回答截图没看到具体提示词，不过推测是借口自己想屏蔽pixiv某些图，然后引导ds去介绍这些图片以及tag，ds会把这些tag上常见的角色神态什么的都描述出来，算是擦边提问，不过不知道回答完会不会撤回
诱导ai回答这种问题其实比较依赖提示词，一般人试成功的概率不大，建议还是等正式版上线了用api玩

mitzvah 发表于 2026-4-3 10:11

neptunehs 发表于 2026-4-3 09:50
qwen3.5的27b也能打80b 只能说属于正统进化
没有惊喜

27b 打爆得是qwen3 coder next这个80b

这个80b模型能力极强的，算是无思维链的的开源模型中顶尖的

页: 1 2 3 4 [5] 6 7 8 9 10 11 12 13 14

Stage1st's Archiver