yudms1 发表于 2026-4-29 20:36

水原薰 发表于 2026-4-29 20:31
看有识图去试了下,分别是v和二游还有动画人物,三个全错一个都没认出来,这识别率完全用不了吧 ...

确实,我给了张lapwing的图它硬说是银狼,笑死,不过空间推理还可以,让它识别图里有几个人,看推理过程,把人物方位和衣服特征识别很准

sdefrfg1 发表于 2026-4-29 20:46

不知道用opus plan然后用v4执行效果怎么样,毕竟v4比sonnet还便宜不少

论坛助手,iPhone

水原薰 发表于 2026-4-29 20:49

yudms1 发表于 2026-4-29 20:36
确实,我给了张lapwing的图它硬说是银狼,笑死,不过空间推理还可以,让它识别图里有几个人,看推理过程 ...

还别说,去试了下,真实场景命中率确实挺高的,特殊场景百分百命中,路上的建筑物和普通风景识别率低一点,看来之前是方向没找对,二刺猿属实不行

zerona 发表于 2026-4-29 20:52

水原薰 发表于 2026-4-29 20:49
还别说,去试了下,真实场景命中率确实挺高的,特殊场景百分百命中,路上的建筑物和普通风景识别率低一点 ...

其实最后生成真人也不是不行……

一般市民 发表于 2026-4-29 20:52

看回复,描述图片细节还可以,不认识人物大概就是训练数据不足。

ayanamilin 发表于 2026-4-29 21:05

viperasi 发表于 2026-4-29 15:24
这工具感觉跟iterm2有冲突,每次输入字符整个缓冲区都重渲染,闪的眼镜疼, 用自带的终端就没事
环境: m ...

我在 windows terminal 上用 Gemini cli 也遇到过这个问题

巨魔已被忠诚 发表于 2026-4-29 22:01

图源数据库质量,训练度,决定识图结果,智障不是意料之中么。
而且v4训练还用老黄的一部分,推理是部署在950上面的。如果识图功能也是,那么成本也会降吧,意义就是纯国产ai部署    Re:Source

nxmonitor 发表于 2026-4-29 22:27

本帖最后由 nxmonitor 于 2026-4-29 22:30 编辑

这些提到的基本是知识库问题,加了联网搜索马上就会好的,这合并进主要模型估计对kimi之类是重大打击

L-JoeW 发表于 2026-4-29 22:44

玩爽了,写了十几万字的小说才用了一两块钱

serj005 发表于 2026-4-30 00:04

多模态以前用得少,不知道该怎么测试它的能力,让它答手机截图的各个位置有什么都挺准的,唯一一个问题是把右上角51%的电池电量一直看成是5%
https://p.sda1.dev/32/abc02149c083eff393c913dde854d1f6/image.jpg

ZBY901026 发表于 2026-4-30 01:12

多模态还蛮重要的 我都拿来当ocr用
还能一键总结    Re:Source

UncleDracula 发表于 2026-4-30 01:57

今天才注意到copilot6月1号要改计费了,然后D老师优惠到5月31号

杀人鲸 发表于 2026-4-30 03:24

UncleDracula 发表于 2026-4-30 01:57
今天才注意到copilot6月1号要改计费了,然后D老师优惠到5月31号

其实甚至说不定都要考虑一下会不会有无限续杯大法。虽然这很离谱,但是在D老师的身上,那又好像没什么奇怪的,毕竟梁圣就是这样的男人。

—— 来自 S1Fun

sellboy 发表于 2026-4-30 07:07

我觉得deepseekl可能本来打算等跑一个月,出了成本计算文再打折。
然后发现V4p的机子没跑满没说服力,就先打折了。

真红之闪电 发表于 2026-4-30 08:01

其实还可以的



—— 来自 S1Fun

overflowal 发表于 2026-4-30 08:31

你们怎么都灰度到了,就我没灰度?    Re:Source

ymm1030 发表于 2026-4-30 09:12

ArthurDent 发表于 2026-4-29 20:31
就认出来个

—— 来自 Xiaomi 2112123AC, Android 13, 鹅球 v3.5.99

绷,结果把妮娅认成芙莉莲了啊

ArthurDent 发表于 2026-4-30 09:52

ymm1030 发表于 2026-4-30 09:12
绷,结果把妮娅认成芙莉莲了啊

是阿光
当然我传的特征不是那么明显,但自己都说了黄头发还认成芙就很

—— 来自 Xiaomi 2112123AC, Android 13, 鹅球 v3.5.99

谎称 发表于 2026-4-30 10:22

每次灰度都没我……    Re:Source

黄泉川此方 发表于 2026-4-30 13:15

是啊,我灰度呢

御姐贾 发表于 2026-4-30 13:19

本帖最后由 御姐贾 于 2026-4-30 13:21 编辑

我朋友灰度到了,让D指导给他搭配今日穿搭,要么一身黑,要么红配绿,一顿彩虹屁,乐死我了
我都不知道他个大老爷们啥时候还买了个亮紫的镜框

来自 S1Fun

qz66618 发表于 2026-4-30 18:59

https://github.com/deepseek-ai/Thinking-with-Visual-Primitives 视觉模型的技术报告出来了

ayanamilin 发表于 2026-4-30 19:34

尽管近年来多模态大型语言模型(MLLM)在弥合“感知鸿沟”(例如,通过高分辨率裁剪或图像思维)方面取得了长足进步,但它们在处理复杂的结构推理时仍然面临挑战。我们将这一瓶颈称为“指点鸿沟”(reference gap):自然语言过于模糊,无法精确地指向密集的空间布局,这常常导致逻辑崩溃和思维过程中的错觉。本项目引入了一种范式转变。我们的模型不再仅仅是“看得更清楚”,而是学习“边指点边推理”。通过将空间标记(点和边界框)作为最小的思维单元直接插入推理轨迹,我们将抽象的语言概念锚定到具体的物理坐标上。

主要亮点

[*]通过指点来协助推理(point-to-reason synergy):模仿人类的认知行为(例如用手指计数或描绘迷宫),我们的框架将视觉基元(visual primitive)提升为最小的思维单元,有效地解决了复杂结构推理中的参照差距。
[*]极致的视觉token效率:基于 DeepSeek-V4-Flash 的架构,我们将每 4 个视觉token的 KV 缓存压缩为一个条目,从而大幅降低token的消耗,同时保持认知深度。
[*]前沿竞争力表现:尽管模型规模较小,图像标记预算也显著低于其他模型,但我们的模型在具有挑战性的计数和空间推理基准测试中,性能与GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 等前沿模型不相上下。(需要注意的是,此处报告的分数仅涵盖与本文研究重点直接相关的部分评估维度,因此并不能代表模型的整体能力。)


案例:用户给定一张包含咖啡机和相关制作材料的图片,根据这张图片就可以给出拿铁的详细制作流程(选择咖啡机程序 -> 用蒸汽棒准备奶泡 -> 倒入杯内混合)

ayanamilin 发表于 2026-4-30 19:39

本帖最后由 ayanamilin 于 2026-4-30 19:47 编辑

通过仓库可以判断此视觉模型项目沿用了 Janus 这个代号

ayanamilin 发表于 2026-4-30 19:45

tech report 里举了很多数数、空间理解、走迷宫、路径追踪等案例,但我觉得最有趣的是这个案例:解释这张图片的笑点


overflowal 发表于 2026-4-30 19:49

看来他们很有自信,甚至不打算把这个视觉模型开源,要直接加到下一个版本里    Re:Source

ayanamilin 发表于 2026-4-30 20:01

不过有一说一,这些展示的效果并不是独一无二的,御三家还有国内几大家的模型应该都能做到。DS 的亮点在于小规模模型(v4flash)和很少的token用量就实现了这样的效果。

nxmonitor 发表于 2026-4-30 20:52

识图的成本打下来也是很厉害的,真这样至少国内几家短时间内都要受很大打击

巨魔已被忠诚 发表于 2026-4-30 20:58

方向走的是视觉识别,还更偏向真实场景,非艺术作品。生产环境下部署有优势。    Re:Source

Rowen233 发表于 2026-5-1 10:49

速报:论文和GitHub库被删了(也可能是隐藏了)
是发太早了吗

andychen 发表于 2026-5-1 10:55

ayanamilin 发表于 2026-4-30 20:01
不过有一说一,这些展示的效果并不是独一无二的,御三家还有国内几大家的模型应该都能做到。DS 的亮点在于 ...

v4的token使用是比较浪费的,在我这比v3.2和各个海外模型都要高

ds的技术路径是更高效的进行推理,这既能支撑自家的模型使用更多的token,也大幅压低了算力成本。我们算力受限,这方面的研究对我们很关键。从这方面来说特别开源的后端推理架构实际上也是很关键的技术,只是距离普通人很远,媒体报道也少

目前v4主要的问题是token使用量大带来的时间成本开支,感觉后续还是需要提高token利用效率。不过从之前发布的spciale来看他们可能也会选择通过更多token使用推进模型性能,目前海外大厂那些所谓的内部尖端模型大概率就是这么干的

overflowal 发表于 2026-5-1 10:59

论文撤掉了,不知道为啥    Re:Source

Rowen233 发表于 2026-5-1 12:35

鸿蒙原生有类似cherry Studio的用API的App吗

holylight2020 发表于 2026-5-1 13:02

我现在工作流都是opus4.7/4.6配合各种skill写计划,然后和v4互相交流定版。opus写出实施计划后交给v4pro执行,effort开到最大,爽蹬

论坛助手,iPhone

Tomek 发表于 2026-5-1 13:06

本帖最后由 Tomek 于 2026-5-1 13:07 编辑

Rowen233 发表于 2026-5-1 12:35
鸿蒙原生有类似cherry Studio的用API的App吗

Cherry Studio和Chatbox不都有鸿蒙版本吗,啊好像只有电脑的鸿蒙6有这俩

—— 来自 HUAWEI VYG-AL00, Android 12上的 S1Next-鹅版 v2.5.4

madnesshare 发表于 2026-5-1 13:11

目前只有视觉,没有音频的吗?

overflowal 发表于 2026-5-1 13:46

madnesshare 发表于 2026-5-1 13:11
目前只有视觉,没有音频的吗?

音频现在做进去性价比比较低,可能有资源了才会做    Re:Source

ycjiang1337 发表于 2026-5-1 14:21

overflowal 发表于 2026-5-1 10:59
论文撤掉了,不知道为啥    Re:Source

一般这种都是因为发现有错误需要修改

有鱼 发表于 2026-5-2 11:13

pointer243 发表于 2026-5-2 13:59

本帖最后由 pointer243 于 2026-5-2 16:07 编辑

问个跟deepseek无关的问题,cherry studio怎么修改快捷短语的内容?还是得新建一条新的

找到了,在设定里
页: 23 24 25 26 27 28 29 30 31 32 [33] 34 35 36 37 38 39 40 41 42
查看完整版本: FT:DeepSeek下周发|已发,转为v4讨论楼