FT：DeepSeek下周发｜已发，转为v4讨论楼 - 第33页 - 归墟 - Stage1st

yudms1 发表于 2026-4-29 20:36

水原薰发表于 2026-4-29 20:31
看有识图去试了下，分别是v和二游还有动画人物，三个全错一个都没认出来，这识别率完全用不了吧 ...

确实，我给了张lapwing的图它硬说是银狼，笑死，不过空间推理还可以，让它识别图里有几个人，看推理过程，把人物方位和衣服特征识别很准

sdefrfg1 发表于 2026-4-29 20:46

不知道用opus plan然后用v4执行效果怎么样，毕竟v4比sonnet还便宜不少

论坛助手,iPhone

水原薰 发表于 2026-4-29 20:49

yudms1 发表于 2026-4-29 20:36
确实，我给了张lapwing的图它硬说是银狼，笑死，不过空间推理还可以，让它识别图里有几个人，看推理过程 ...

还别说，去试了下，真实场景命中率确实挺高的，特殊场景百分百命中，路上的建筑物和普通风景识别率低一点，看来之前是方向没找对，二刺猿属实不行

zerona 发表于 2026-4-29 20:52

水原薰发表于 2026-4-29 20:49
还别说，去试了下，真实场景命中率确实挺高的，特殊场景百分百命中，路上的建筑物和普通风景识别率低一点 ...

其实最后生成真人也不是不行……

一般市民 发表于 2026-4-29 20:52

看回复，描述图片细节还可以，不认识人物大概就是训练数据不足。

ayanamilin 发表于 2026-4-29 21:05

viperasi 发表于 2026-4-29 15:24
这工具感觉跟iterm2有冲突，每次输入字符整个缓冲区都重渲染，闪的眼镜疼，用自带的终端就没事
环境： m ...

我在 windows terminal 上用 Gemini cli 也遇到过这个问题

巨魔已被忠诚 发表于 2026-4-29 22:01

图源数据库质量，训练度，决定识图结果，智障不是意料之中么。
而且v4训练还用老黄的一部分，推理是部署在950上面的。如果识图功能也是，那么成本也会降吧，意义就是纯国产ai部署 Re:Source

nxmonitor 发表于 2026-4-29 22:27

本帖最后由 nxmonitor 于 2026-4-29 22:30 编辑

这些提到的基本是知识库问题，加了联网搜索马上就会好的，这合并进主要模型估计对kimi之类是重大打击

L-JoeW 发表于 2026-4-29 22:44

玩爽了，写了十几万字的小说才用了一两块钱

serj005 发表于 2026-4-30 00:04

多模态以前用得少,不知道该怎么测试它的能力，让它答手机截图的各个位置有什么都挺准的，唯一一个问题是把右上角51%的电池电量一直看成是5%
https://p.sda1.dev/32/abc02149c083eff393c913dde854d1f6/image.jpg

ZBY901026 发表于 2026-4-30 01:12

多模态还蛮重要的我都拿来当ocr用
还能一键总结 Re:Source

UncleDracula 发表于 2026-4-30 01:57

今天才注意到copilot6月1号要改计费了，然后D老师优惠到5月31号

杀人鲸 发表于 2026-4-30 03:24

UncleDracula 发表于 2026-4-30 01:57
今天才注意到copilot6月1号要改计费了，然后D老师优惠到5月31号

其实甚至说不定都要考虑一下会不会有无限续杯大法。虽然这很离谱，但是在D老师的身上，那又好像没什么奇怪的，毕竟梁圣就是这样的男人。

—— 来自 S1Fun

sellboy 发表于 2026-4-30 07:07

我觉得deepseekl可能本来打算等跑一个月，出了成本计算文再打折。
然后发现V4p的机子没跑满没说服力，就先打折了。

真红之闪电 发表于 2026-4-30 08:01

其实还可以的

—— 来自 S1Fun

overflowal 发表于 2026-4-30 08:31

你们怎么都灰度到了，就我没灰度？ Re:Source

ymm1030 发表于 2026-4-30 09:12

ArthurDent 发表于 2026-4-29 20:31
就认出来个

—— 来自 Xiaomi 2112123AC, Android 13, 鹅球 v3.5.99

绷，结果把妮娅认成芙莉莲了啊

ArthurDent 发表于 2026-4-30 09:52

ymm1030 发表于 2026-4-30 09:12
绷，结果把妮娅认成芙莉莲了啊

是阿光
当然我传的特征不是那么明显，但自己都说了黄头发还认成芙就很

—— 来自 Xiaomi 2112123AC, Android 13, 鹅球 v3.5.99

谎称发表于 2026-4-30 10:22

每次灰度都没我…… Re:Source

黄泉川此方 发表于 2026-4-30 13:15

是啊，我灰度呢

御姐贾 发表于 2026-4-30 13:19

本帖最后由御姐贾于 2026-4-30 13:21 编辑

我朋友灰度到了，让D指导给他搭配今日穿搭，要么一身黑，要么红配绿，一顿彩虹屁，乐死我了
我都不知道他个大老爷们啥时候还买了个亮紫的镜框

来自 S1Fun

qz66618 发表于 2026-4-30 18:59

https://github.com/deepseek-ai/Thinking-with-Visual-Primitives 视觉模型的技术报告出来了

ayanamilin 发表于 2026-4-30 19:34

尽管近年来多模态大型语言模型（MLLM）在弥合“感知鸿沟”（例如，通过高分辨率裁剪或图像思维）方面取得了长足进步，但它们在处理复杂的结构推理时仍然面临挑战。我们将这一瓶颈称为“指点鸿沟”（reference gap）：自然语言过于模糊，无法精确地指向密集的空间布局，这常常导致逻辑崩溃和思维过程中的错觉。本项目引入了一种范式转变。我们的模型不再仅仅是“看得更清楚”，而是学习“边指点边推理”。通过将空间标记（点和边界框）作为最小的思维单元直接插入推理轨迹，我们将抽象的语言概念锚定到具体的物理坐标上。

主要亮点

[*]通过指点来协助推理（point-to-reason synergy）：模仿人类的认知行为（例如用手指计数或描绘迷宫），我们的框架将视觉基元（visual primitive）提升为最小的思维单元，有效地解决了复杂结构推理中的参照差距。
[*]极致的视觉token效率：基于 DeepSeek-V4-Flash 的架构，我们将每 4 个视觉token的 KV 缓存压缩为一个条目，从而大幅降低token的消耗，同时保持认知深度。
[*]前沿竞争力表现：尽管模型规模较小，图像标记预算也显著低于其他模型，但我们的模型在具有挑战性的计数和空间推理基准测试中，性能与GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 等前沿模型不相上下。（需要注意的是，此处报告的分数仅涵盖与本文研究重点直接相关的部分评估维度，因此并不能代表模型的整体能力。）

案例：用户给定一张包含咖啡机和相关制作材料的图片，根据这张图片就可以给出拿铁的详细制作流程（选择咖啡机程序 -> 用蒸汽棒准备奶泡 -> 倒入杯内混合）

ayanamilin 发表于 2026-4-30 19:39

本帖最后由 ayanamilin 于 2026-4-30 19:47 编辑

通过仓库可以判断此视觉模型项目沿用了 Janus 这个代号

ayanamilin 发表于 2026-4-30 19:45

tech report 里举了很多数数、空间理解、走迷宫、路径追踪等案例，但我觉得最有趣的是这个案例：解释这张图片的笑点

overflowal 发表于 2026-4-30 19:49

看来他们很有自信，甚至不打算把这个视觉模型开源，要直接加到下一个版本里 Re:Source

ayanamilin 发表于 2026-4-30 20:01

不过有一说一，这些展示的效果并不是独一无二的，御三家还有国内几大家的模型应该都能做到。DS 的亮点在于小规模模型（v4flash）和很少的token用量就实现了这样的效果。

nxmonitor 发表于 2026-4-30 20:52

识图的成本打下来也是很厉害的，真这样至少国内几家短时间内都要受很大打击

巨魔已被忠诚 发表于 2026-4-30 20:58

方向走的是视觉识别，还更偏向真实场景，非艺术作品。生产环境下部署有优势。 Re:Source

Rowen233 发表于 2026-5-1 10:49

速报：论文和GitHub库被删了（也可能是隐藏了）
是发太早了吗

andychen 发表于 2026-5-1 10:55

ayanamilin 发表于 2026-4-30 20:01
不过有一说一，这些展示的效果并不是独一无二的，御三家还有国内几大家的模型应该都能做到。DS 的亮点在于 ...

v4的token使用是比较浪费的，在我这比v3.2和各个海外模型都要高

ds的技术路径是更高效的进行推理，这既能支撑自家的模型使用更多的token，也大幅压低了算力成本。我们算力受限，这方面的研究对我们很关键。从这方面来说特别开源的后端推理架构实际上也是很关键的技术，只是距离普通人很远，媒体报道也少

目前v4主要的问题是token使用量大带来的时间成本开支，感觉后续还是需要提高token利用效率。不过从之前发布的spciale来看他们可能也会选择通过更多token使用推进模型性能，目前海外大厂那些所谓的内部尖端模型大概率就是这么干的

overflowal 发表于 2026-5-1 10:59

论文撤掉了，不知道为啥 Re:Source

Rowen233 发表于 2026-5-1 12:35

鸿蒙原生有类似cherry Studio的用API的App吗

holylight2020 发表于 2026-5-1 13:02

我现在工作流都是opus4.7/4.6配合各种skill写计划，然后和v4互相交流定版。opus写出实施计划后交给v4pro执行，effort开到最大，爽蹬

论坛助手,iPhone

Tomek 发表于 2026-5-1 13:06

本帖最后由 Tomek 于 2026-5-1 13:07 编辑

Rowen233 发表于 2026-5-1 12:35
鸿蒙原生有类似cherry Studio的用API的App吗

Cherry Studio和Chatbox不都有鸿蒙版本吗，啊好像只有电脑的鸿蒙6有这俩

—— 来自 HUAWEI VYG-AL00, Android 12上的 S1Next-鹅版 v2.5.4

madnesshare 发表于 2026-5-1 13:11

目前只有视觉，没有音频的吗？

overflowal 发表于 2026-5-1 13:46

madnesshare 发表于 2026-5-1 13:11
目前只有视觉，没有音频的吗？

音频现在做进去性价比比较低，可能有资源了才会做 Re:Source

ycjiang1337 发表于 2026-5-1 14:21

overflowal 发表于 2026-5-1 10:59
论文撤掉了，不知道为啥 Re:Source

一般这种都是因为发现有错误需要修改

有鱼发表于 2026-5-2 11:13

pointer243 发表于 2026-5-2 13:59

本帖最后由 pointer243 于 2026-5-2 16:07 编辑

问个跟deepseek无关的问题，cherry studio怎么修改快捷短语的内容？还是得新建一条新的

找到了，在设定里

页: 23 24 25 26 27 28 29 30 31 32 [33] 34 35 36 37 38 39 40 41 42

Stage1st's Archiver