FT：DeepSeek下周发｜已发，转为v4讨论楼

有鱼 · 发表于 2026-4-29 16:37

多模态要效果理想的话，估计得从头重新训练吧

看v4世代能不能端出来旗舰级多模态模型了

论坛助手,iPhone

overflowal · 发表于 2026-4-29 16:41

Geronimo 发表于 2026-4-29 16:35
我也有资格，不过我没有二次元图图。
拍了个饼干倒是认出来了。
---

你这明显也不像它老板啊，而且梁圣在互联网上的照片可能就几张

Re:Source

Rowen233 · 发表于 2026-4-29 16:53

Geronimo 发表于 2026-4-29 16:35
我也有资格，不过我没有二次元图图。
拍了个饼干倒是认出来了。
---

感觉这图是没触发识图，只是OCR识别出文字了

王兰花秀丽 · 发表于 2026-4-29 16:55

目前看起来更像是外挂了一个识别tag的模型，并不是原生多模态，不过能解决有没有的问题也不错

overflowal · 发表于 2026-4-29 17:15

怎么还没灰度到我，太慢了吧

ml1642879 · 发表于 2026-4-29 17:18

Surlert 发表于 2026-4-29 16:26
一般

原来我的头像是龙背上的破鞋吗

Re:Source · Xiaomi 15

卡修_Kasio · 发表于 2026-4-29 17:21

试了下，没问题，思考链是纯识别出来的

—— 来自 OPPO PLG110, Android 16, 鹅球 v3.5.99

Onelooker · 发表于 2026-4-29 17:25

v4p api挂了个网页翻译, 翻几个网页就走了两毛, 这么耗的吗

有鱼 · 发表于 2026-4-29 17:27

只是翻译网页的话，肯定是用v4f，又便宜又快

论坛助手,iPhone

serj005 · 发表于 2026-4-29 17:28

有鱼发表于 2026-4-29 17:27
只是翻译网页的话，肯定是用v4f，又便宜又快

论坛助手,iPhone

不是v4f吗

Lorraine_Kinney · 发表于 2026-4-29 17:28

好像app已经推了，但我没有灰度到

有鱼 · 发表于 2026-4-29 17:29

hai

还真有了

论坛助手,iPhone

overflowal · 发表于 2026-4-29 17:30

Onelooker 发表于 2026-4-29 17:25
v4p api挂了个网页翻译, 翻几个网页就走了两毛, 这么耗的吗

翻译很难命中缓存，也就是你就是硬吃正价 Re:Source

1224700457 · 发表于 2026-4-29 17:54

现在识图进化到生图难不难？

—— 来自 HUAWEI ADY-AL10, Android 12, 鹅球 v3.5.99-alpha

overflowal · 发表于 2026-4-29 18:16

1224700457 发表于 2026-4-29 17:54
现在识图进化到生图难不难？

—— 来自 HUAWEI ADY-AL10, Android 12, 鹅球 v3.5.99-alpha ...

可以做，但是效果没法做到顶尖。
所以一般还是限定输出单模态的。openai也是这么搞的。这方面还欠一个先驱

oopsoops · 发表于 2026-4-29 18:36

没有被灰度到的人有难了

论坛助手,iPhone

狭义文具爱好者 · 发表于 2026-4-29 18:38

生图反而是真不急的，首先头部闭源image-2和香蕉真不贵，用量也没那么大，然后nsfw，本地因为硬件在那出品也不能指望立刻脱胎换骨，二次元nsfw还有线上的nai呢

sellboy · 发表于 2026-4-29 18:58

deepseek提供视觉功能了也未必是传统实现方案的，到时候看论文，说不定那个路线是可以比较容易实现逆输出的。

秦南心 · 发表于 2026-4-29 19:03

OCR那个论文有说靠LLM本身的能力实现视觉，不知道是不是应用在这个上面

Nanachi · 发表于 2026-4-29 19:18

Onelooker 发表于 2026-4-29 17:25
v4p api挂了个网页翻译, 翻几个网页就走了两毛, 这么耗的吗

翻译的话用flash关thinking就好

论坛助手,iPhone

比利的微笑 · 发表于 2026-4-29 19:19

已经开放使用了？

杀人鲸 · 发表于 2026-4-29 19:26

比利的微笑发表于 2026-4-29 19:19
已经开放使用了？

灰度测试罢了，不是所有人都有，看了一下我自己的，就没有。

—— 来自 S1Fun

INDIASH · 发表于 2026-4-29 19:31

本帖最后由 INDIASH 于 2026-4-29 19:35 编辑

Geronimo 发表于 2026-4-29 16:35
我也有资格，不过我没有二次元图图。
拍了个饼干倒是认出来了。
---

左边的人：东亚男性，戴眼镜，穿蓝色西装外套，打白色衬衫，面带自信、略带笑容的表情。这与梁文锋（DeepSeek的创始人兼CEO/实际领导者）的公开露面高度吻合。

拿1165楼里的图试了下，还是能识别出来的
应该是衣服问题

Freewolf · 发表于 2026-4-29 19:32

我也灰度到了，目前用起来还很猪比，可能和之前v4l灰度一样拿了个小模型测试

passgan · 发表于 2026-4-29 19:34

Nanachi 发表于 2026-4-29 19:18
翻译的话用flash关thinking就好

论坛助手,iPhone

thinking怎么关

serj005 · 发表于 2026-4-29 19:35

有个问题想问一下，现在的网页版快速模式和专家模式到底是啥模型？
感觉既没flash这么快又没pro这么聪明，专家和快速我好像也用不出什么差别。

sellboy · 发表于 2026-4-29 19:41

serj005 发表于 2026-4-29 19:35
有个问题想问一下，现在的网页版快速模式和专家模式到底是啥模型？
感觉既没flash这么快又没pro这么聪明， ...

快速模式V4f-high
专家模式V4p-high
思维链比调用API开max短一些。

Freewolf · 发表于 2026-4-29 19:54

数据库里都炼了些什么奇奇怪怪的东西

杀人鲸 · 发表于 2026-4-29 19:55

我嘞了个去，也真的是气笑了，我朋友居然就正好刷到测试资格了，好气呀！

—— 来自 S1Fun

ArthurDent · 发表于 2026-4-29 19:57

本帖最后由 ArthurDent 于 2026-4-29 20:05 编辑

1/3有点菜

—— 来自 Xiaomi 2112123AC, Android 13, 鹅球 v3.5.99

zerona · 发表于 2026-4-29 20:08

ArthurDent 发表于 2026-4-29 19:57
1/3有点菜

瑟瑟那个对了？

Nanachi · 发表于 2026-4-29 20:14

passgan 发表于 2026-4-29 19:34
thinking怎么关

看你用的什么软件调用api，调用时thinking type disabled就行

论坛助手,iPhone

秦南心 · 发表于 2026-4-29 20:17

蠢蠢的，认不太出动画人物，但让它做中学图形题还可以

有鱼 · 发表于 2026-4-29 20:20

这个多模态模型大概率是个实验性的小模型，如果可行的话才会合并进主线里

多模态确实方便很多，截图比复制容易多了

论坛助手,iPhone

a4ac7 · 发表于 2026-4-29 20:21

有了识图，我随手写的带图笔记可以让DS整理文档了

—— 来自 HUAWEI PLA-AL10, Android 12, 鹅球 v3.5.99

御坂MKII · 发表于 2026-4-29 20:23

看来训练数据不多，上面回答伊蕾娜明显就是纯编的

yudms1 · 发表于 2026-4-29 20:24

被推送了识图模式，能力很难评，能够认得一些地标建筑，知道热门二游人物，但是推理能力还比较弱，远不如纯语言模型。

zerona · 发表于 2026-4-29 20:26

yudms1 发表于 2026-4-29 20:24
被推送了识图模式，能力很难评，能够认得一些地标建筑，知道热门二游人物，但是推理能力还比较弱，远不如纯 ...

真人的图如何？看看幻方的数据主要向哪个方向的。

ArthurDent · 发表于 2026-4-29 20:31

zerona 发表于 2026-4-29 20:08
瑟瑟那个对了？

就认出来个

—— 来自 Xiaomi 2112123AC, Android 13, 鹅球 v3.5.99

水原薰 · 发表于 2026-4-29 20:31

看有识图去试了下，分别是v和二游还有动画人物，三个全错一个都没认出来，这识别率完全用不了吧

		自动登录	找回密码
密码			立即注册

[科技] FT：DeepSeek下周发｜已发，转为v4讨论楼

评分

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源