子虚乌有 发表于 2026-4-2 07:35

起这种标题一般就是下周复下周

SmterC 发表于 2026-4-2 07:37

已经成了下周专楼了

—— 来自 vivo V2307A, Android 16, 鹅球 v3.5.99-alpha

我特么吹爆 发表于 2026-4-2 08:09

下周……
想起:贾跃亭

lionheart 发表于 2026-4-2 08:23

前几天网页端被灰度到一次,多段思考中间夹杂分段工具调用,思考过程简洁,正文输出比较快

羊寢 发表于 2026-4-2 09:02

本帖最后由 羊寢 于 2026-4-2 09:03 编辑

erliuer 发表于 2026-4-2 01:29
请教一下,用ds网页端写文和接入api写文差别大不大?

主要区别还是网页版道德底线太高,api就没有这种负担(但我不知道api的zz甲如何,毕竟没试过zz相关的内容输出)
写作能力的话如果是以前两边是没有差别,但目前网页版在灰测v4l所以有概率撞到,看人说v4l写文好像是有点蠢。目前api上面还是3.2

羊寢 发表于 2026-4-2 12:43

今天说是在灰度svg,现在感觉是确实很多东西都还没测完,怕不是要等到下个月才能正式更新

哈里-谢顿 发表于 2026-4-2 18:10

https://mp.weixin.qq.com/s/bYZrKp48Y7EpsU8_vd6TcQ

就在DeepSeek V4山雨欲来的前夜,晚点LatePost的更新爆了不少料:

- 最近半年,DeepSeek的核心员工,包括DeepSeek第一代模型作者王炳宣、DeepSeek-OCR系列作者魏浩然、DeepSeek-R1作者郭达雅、Janus-Pro贡献者阮翀等人,都被各家大厂给挖走了,更不用说已经在小米做出了成果的前研究员罗福莉;

- 尽管如此,DeepSeek依然不怎么卷,同行的每周工作时间都奔着80小时去了,DeepSeek的大多数员工还是遵循着早上不打卡、下午6-7点走人的规律,因为老板梁文锋相信一个人每天高质量输出的时间不会超过8小时,加班疲劳产生的昏庸判断,反而会浪费宝贵的算力资源;

- 搞AI和做量化之间的关系其实相当紧密,2016年,DeepMind的创始人哈萨比斯就组建过量化团队,希望能为刚刚脱离Google的公司创收,结果没赚到钱,而幻方则是倒过来的,也是在同一年开始用GPU的深度学习算力去干实盘交易,成功让梁文锋以30岁的年纪实现财富自由,再才组建了DeepSeek;

- 2023年的时候,梁文锋小范围见过一些投资人,但提出的构想类似OpenAI和微软的投资协议,投资方需要接受一个回报上限,这在投资者看来是没道理的,所以见完一轮之后,没有任何机构愿意投DeepSeek,而在大模型火了之后,梁文锋把和投资人建联的通道直接关闭了;

- 在公司里,梁文锋参与最多的是基模架构工作,然后就是充当不同团队之间的粘合剂,DeepSeek内部鼓励交叉协作,一个团队的周会也会向其他团队开放,这种开放组织很容易被规模扩张给破坏,所以DeepSeek对于核心团队的增加相当谨慎;

- 去年以来,外部世界发生巨变,既有DeepSeek-V3/R1的一炮走红,也有竞争烈度的大幅升级,DeepSeek没有加入任何战局,依然在自己重视的效率优化(注意力机制)、架构改进(mHC)和非主流探索(OCR)上面努力,梁文锋甚至招进了一些神经科学和脑科学背景的顾问,对人脑原理兴趣大增;

- 这也意味着DeepSeek错过了去年最重要的两条主线,一个是AI Coding,这里不只有商业价值的爆发,还引发了以龙虾为代表的Agentic应用形态,DeepSeek-V3.2完全被其他国产模型盖过了风头,另一个是多模态生成,从GPT-4o到Nano Banana再到Seedance 2.0,全都颠覆性的创造了海量增长,但梁文锋认为多模态「不是智能的主线」;

- 外界期待DeepSeek每次出手都能像去年年初那样石破天惊,这可能有些强人所难,也未必是梁文锋的目标,而他也需要稳定团队抗拒财富诱惑的心力,猎头给DeepSeek员工开出2-3倍的薪水,而且这还是建立在DeepSeek本身工资就不低的前提下,确实也有员工做出了跳槽去参与更确定性的、持续参与业界最强模型工作的选择;

- 留下的人当然还是占了大多数,他们习惯了相对宽松的研究氛围,也愿意做非竞争驱动的探索,在DeepSeek的价值体系里,原创的排序是要比最强更靠前的,它们本质上并不冲突,有时候实现了原创也就自然实现了最强,但在进入Agentic版本后,工程能力变得更重要了,而这正好进入了DeepSeek没有过多投入的地方;

- 于是梁文锋也比较少见的做出了应变回应,最近一段时间,他开始启动了对公司的估值,这意味着可以给团队更有刺激性的财富预期,同时也开始招揽模型策略产品经理,明确要求深度使用过Claude Code、OpenClaw、Manus;

- 坚持该坚持的,改变该改变的,至于什么是该坚持的、什么是该改变的,这个判断还是得由梁文锋来拿捏,「奇迹之所以是奇迹,就是因为它不常发生,是小概率事件。在中国这个崇尚竞争和结果说话的环境里,敢于追求独特目标的 DeepSeek 的存在本身,是一个令人惊喜的小概率事件。」

#DeepSeek不打卡也不加班##DeepSeekV4或将在4月发布#

Azcarlo 发表于 2026-4-2 18:33

晚点的文
V4 发布前的 DeepSeek:特质、组织和梁文锋的独特目标
https://mp.weixin.qq.com/s/bYZrKp48Y7EpsU8_vd6TcQ
梁老板的公司真是科研狗的理想之地,正常上下班没有强制kpi,有点子就给你调资源。
甚至还有尝试做类脑方向研究的你敢信。
我就不期待DS以后发的模型性能多强了,更在意梁老板有没有怪点子和花活给大伙整。


— from Xiaomi 23127PN0CC, Android 16, S1 Next Goose v3.5.99

a4ac7 发表于 2026-4-2 18:34

哈里-谢顿 发表于 2026-4-2 18:10
https://mp.weixin.qq.com/s/bYZrKp48Y7EpsU8_vd6TcQ

就在DeepSeek V4山雨欲来的前夜,晚点LatePost的更新 ...

没打卡不加班,这还说什么呢,祝DS这样的公司越办越好了

—— 来自 HUAWEI PLA-AL10, Android 12, 鹅球 v3.5.99

脸宽 发表于 2026-4-2 18:49

真有钱烧啊,现在没感觉目前的deepseek能赢利啊,我还寻思着这次v4会不会有coding plan来着    Re:Source

忧郁的杰哥 发表于 2026-4-2 18:56

龙骑士尹志平 发表于 2026-4-2 19:08

研究人脑是不是被陈天桥带歪了

有鱼 发表于 2026-4-2 19:10

有鱼 发表于 2026-4-2 19:12

哈里-谢顿 发表于 2026-4-2 19:13

龙骑士尹志平 发表于 2026-4-2 19:08
研究人脑是不是被陈天桥带歪了

研究人脑是从计算机开始就有的路线

不过现在人类对大脑研究都只能说很浅,不好说会有啥结果

哈里-谢顿 发表于 2026-4-2 19:14

有鱼 发表于 2026-4-2 19:12
虽然总结很不错,但是为啥唐突出现了文中没有提到的罗福莉?

这是阑夕的总结,应该是私货

wlbthh 发表于 2026-4-2 19:18

不容易,压力下好好生活好好发展就挺厉害挺能耐的

—— 来自 Xiaomi 23049RAD8C, Android 13, 鹅球 v3.5.99

oldttt 发表于 2026-4-2 19:20

a4ac7 发表于 2026-4-2 18:34
没打卡不加班,这还说什么呢,祝DS这样的公司越办越好了

—— 来自 HUAWEI PLA-AL10, Android 12, 鹅球...

+1
跟那些打着研发旗号一副全心投入假装不知道上下班节假日 一到下班点就下楼坐上车语音给各种人派活的虚伪人士相比 天壤之别

—— 来自 S1Fun

有鱼 发表于 2026-4-2 19:22

villsian 发表于 2026-4-2 22:14

看来是给预期做了一些降温。

企业氛围和公司文化真不错,有做出好产品的基因。

希望能顶住压力,持续的发光发热。

多模态什么的都不重要啦,便宜大碗的1M上下文快来吧。

御坂MKII 发表于 2026-4-2 22:21

不加班(2c 业务相关除外

德尔惠净水器 发表于 2026-4-2 22:41


以前有没有多次搜索,今晚用的时候才发现

weironx 发表于 2026-4-2 23:06

现在动不动90个网页,是上下文变大的原因吗

御坂MKII 发表于 2026-4-2 23:11

weironx 发表于 2026-4-2 23:06
现在动不动90个网页,是上下文变大的原因吗

这个倒应该是工作流变了的原因,属于 agent 能力的一部分

羊寢 发表于 2026-4-3 00:08

话说今晚看到有人测了二次元nsfw知识,说是目前国模里面数据库最全的,不知道sfw方面是否也一样

羊寢 发表于 2026-4-3 00:18

本帖最后由 羊寢 于 2026-4-3 00:28 编辑

德尔惠净水器 发表于 2026-4-2 22:41
以前有没有多次搜索,今晚用的时候才发现

看了一下确实现在都是多步搜索了,而且之前灰测能不能灰到都是纯看脸,现在应该是是大面积铺开了,下周可能真有希望?虽然我是希望能等一周……下周我玩不了

试了一下忽然会算9.11-9.80了

杀人鲸 发表于 2026-4-3 01:04

weironx 发表于 2026-4-2 23:06
现在动不动90个网页,是上下文变大的原因吗

我嘞了个去,我总算是体验到了那些灰度测试的哥们才体验到的东西,真的开始全面铺开了吗?那也太好了。

—— 来自 S1Fun

crow_wine 发表于 2026-4-3 01:17

我体验的感觉变厉害了,
就是有种常见数学能直接算出来的感觉,比如输出里面很自然的就说道了15分钟70次大概就是每13秒一次的频率。
还有上下文有时候变得很大,搜索巨多的网页

最重要的是,写文,或者给出写作指导好强啊,写得很有感情,很真诚,没有那种八股的感觉

—— 来自 HUAWEI ALN-AL00, Android 12, 鹅球 v3.5.99-alpha

7do 发表于 2026-4-3 01:26

所以ds是真的在搞ai,不只是大语言模型了

— from S1 Next Goose v3.5.99

Litccc 发表于 2026-4-3 01:39

v4l写文确实可以,没gemini那么极端,也不像claude那样冷淡,还得是⏰自己的大模型

yoki42 发表于 2026-4-3 07:37

所以其实是拿炒股的钱来养团队的吧

—— 来自 鹅球 v3.5.99

Rowen233 发表于 2026-4-3 09:24

Gemma 都上新了

绝地潜兵 发表于 2026-4-3 09:26

羊寢 发表于 2026-4-3 00:08
话说今晚看到有人测了二次元nsfw知识,说是目前国模里面数据库最全的,不知道sfw方面是否也一样 ...

二刺猿nsfw咋测啊?

neptunehs 发表于 2026-4-3 09:29

Rowen233 发表于 2026-4-3 09:24
Gemma 都上新了

但看数值没啥优势的感觉啊
做梦中的gemini风格的支持画画也果断没有
而且居然有思维链了 gemma3明明是没有思维链却效果还行的最后独苗

—— 来自 OnePlus PJX110, Android 14, 鹅球 v3.5.99

Rowen233 发表于 2026-4-3 09:35

neptunehs 发表于 2026-4-3 09:29
但看数值没啥优势的感觉啊
做梦中的gemini风格的支持画画也果断没有
而且居然有思维链了 gemma3明明是没 ...

主要强在用30b参数打100b模型

neptunehs 发表于 2026-4-3 09:50

本帖最后由 neptunehs 于 2026-4-3 09:51 编辑

Rowen233 发表于 2026-4-3 09:35
主要强在用30b参数打100b模型

qwen3.5的27b也能打80b 只能说属于正统进化
没有惊喜

但还是能用的 gemma3当时就是属于没有惊喜却异常好用
但没有gemini式出图我还是失望啊(拖

—— 来自 OnePlus PJX110, Android 14, 鹅球 v3.5.99

奥柏伦亲王 发表于 2026-4-3 09:54

下周一定

梅林的三角裤 发表于 2026-4-3 10:08

虽然酒馆里多轮对话之后ds就不太行,容易复读。但是单轮对话对于中文文风的理解和把控很到位,gemini比起来就很平。

论坛助手,iPhone

羊寢 发表于 2026-4-3 10:08

本帖最后由 羊寢 于 2026-4-3 10:12 编辑

绝地潜兵 发表于 2026-4-3 09:26
二刺猿nsfw咋测啊?

我只看到别人发的ds回答截图没看到具体提示词,不过推测是借口自己想屏蔽pixiv某些图,然后引导ds去介绍这些图片以及tag,ds会把这些tag上常见的角色神态什么的都描述出来,算是擦边提问,不过不知道回答完会不会撤回
诱导ai回答这种问题其实比较依赖提示词,一般人试成功的概率不大,建议还是等正式版上线了用api玩

mitzvah 发表于 2026-4-3 10:11

neptunehs 发表于 2026-4-3 09:50
qwen3.5的27b也能打80b 只能说属于正统进化
没有惊喜


27b 打爆得是qwen3 coder next这个80b


这个80b模型能力极强的,算是无思维链的的开源模型中顶尖的
页: 1 2 3 4 [5] 6 7 8 9 10 11 12 13 14
查看完整版本: FT:DeepSeek下周发|已发,转为v4讨论楼