水原薰 发表于 2026-4-29 20:31
看有识图去试了下,分别是v和二游还有动画人物,三个全错一个都没认出来,这识别率完全用不了吧 ...
确实,我给了张lapwing的图它硬说是银狼,笑死,不过空间推理还可以,让它识别图里有几个人,看推理过程,把人物方位和衣服特征识别很准
不知道用opus plan然后用v4执行效果怎么样,毕竟v4比sonnet还便宜不少
论坛助手,iPhone
yudms1 发表于 2026-4-29 20:36
确实,我给了张lapwing的图它硬说是银狼,笑死,不过空间推理还可以,让它识别图里有几个人,看推理过程 ...
还别说,去试了下,真实场景命中率确实挺高的,特殊场景百分百命中,路上的建筑物和普通风景识别率低一点,看来之前是方向没找对,二刺猿属实不行
水原薰 发表于 2026-4-29 20:49
还别说,去试了下,真实场景命中率确实挺高的,特殊场景百分百命中,路上的建筑物和普通风景识别率低一点 ...
其实最后生成真人也不是不行……
看回复,描述图片细节还可以,不认识人物大概就是训练数据不足。
viperasi 发表于 2026-4-29 15:24
这工具感觉跟iterm2有冲突,每次输入字符整个缓冲区都重渲染,闪的眼镜疼, 用自带的终端就没事
环境: m ...
我在 windows terminal 上用 Gemini cli 也遇到过这个问题
图源数据库质量,训练度,决定识图结果,智障不是意料之中么。
而且v4训练还用老黄的一部分,推理是部署在950上面的。如果识图功能也是,那么成本也会降吧,意义就是纯国产ai部署 Re:Source
本帖最后由 nxmonitor 于 2026-4-29 22:30 编辑
这些提到的基本是知识库问题,加了联网搜索马上就会好的,这合并进主要模型估计对kimi之类是重大打击
玩爽了,写了十几万字的小说才用了一两块钱
多模态以前用得少,不知道该怎么测试它的能力,让它答手机截图的各个位置有什么都挺准的,唯一一个问题是把右上角51%的电池电量一直看成是5%
https://p.sda1.dev/32/abc02149c083eff393c913dde854d1f6/image.jpg
多模态还蛮重要的 我都拿来当ocr用
还能一键总结 Re:Source
今天才注意到copilot6月1号要改计费了,然后D老师优惠到5月31号
UncleDracula 发表于 2026-4-30 01:57
今天才注意到copilot6月1号要改计费了,然后D老师优惠到5月31号
其实甚至说不定都要考虑一下会不会有无限续杯大法。虽然这很离谱,但是在D老师的身上,那又好像没什么奇怪的,毕竟梁圣就是这样的男人。
—— 来自 S1Fun
我觉得deepseekl可能本来打算等跑一个月,出了成本计算文再打折。
然后发现V4p的机子没跑满没说服力,就先打折了。
其实还可以的
—— 来自 S1Fun
你们怎么都灰度到了,就我没灰度? Re:Source
ArthurDent 发表于 2026-4-29 20:31
就认出来个
—— 来自 Xiaomi 2112123AC, Android 13, 鹅球 v3.5.99
绷,结果把妮娅认成芙莉莲了啊
ymm1030 发表于 2026-4-30 09:12
绷,结果把妮娅认成芙莉莲了啊
是阿光
当然我传的特征不是那么明显,但自己都说了黄头发还认成芙就很
—— 来自 Xiaomi 2112123AC, Android 13, 鹅球 v3.5.99
每次灰度都没我…… Re:Source
是啊,我灰度呢
本帖最后由 御姐贾 于 2026-4-30 13:21 编辑
我朋友灰度到了,让D指导给他搭配今日穿搭,要么一身黑,要么红配绿,一顿彩虹屁,乐死我了
我都不知道他个大老爷们啥时候还买了个亮紫的镜框
来自 S1Fun
https://github.com/deepseek-ai/Thinking-with-Visual-Primitives 视觉模型的技术报告出来了
尽管近年来多模态大型语言模型(MLLM)在弥合“感知鸿沟”(例如,通过高分辨率裁剪或图像思维)方面取得了长足进步,但它们在处理复杂的结构推理时仍然面临挑战。我们将这一瓶颈称为“指点鸿沟”(reference gap):自然语言过于模糊,无法精确地指向密集的空间布局,这常常导致逻辑崩溃和思维过程中的错觉。本项目引入了一种范式转变。我们的模型不再仅仅是“看得更清楚”,而是学习“边指点边推理”。通过将空间标记(点和边界框)作为最小的思维单元直接插入推理轨迹,我们将抽象的语言概念锚定到具体的物理坐标上。
主要亮点
[*]通过指点来协助推理(point-to-reason synergy):模仿人类的认知行为(例如用手指计数或描绘迷宫),我们的框架将视觉基元(visual primitive)提升为最小的思维单元,有效地解决了复杂结构推理中的参照差距。
[*]极致的视觉token效率:基于 DeepSeek-V4-Flash 的架构,我们将每 4 个视觉token的 KV 缓存压缩为一个条目,从而大幅降低token的消耗,同时保持认知深度。
[*]前沿竞争力表现:尽管模型规模较小,图像标记预算也显著低于其他模型,但我们的模型在具有挑战性的计数和空间推理基准测试中,性能与GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 等前沿模型不相上下。(需要注意的是,此处报告的分数仅涵盖与本文研究重点直接相关的部分评估维度,因此并不能代表模型的整体能力。)
案例:用户给定一张包含咖啡机和相关制作材料的图片,根据这张图片就可以给出拿铁的详细制作流程(选择咖啡机程序 -> 用蒸汽棒准备奶泡 -> 倒入杯内混合)
本帖最后由 ayanamilin 于 2026-4-30 19:47 编辑
通过仓库可以判断此视觉模型项目沿用了 Janus 这个代号
tech report 里举了很多数数、空间理解、走迷宫、路径追踪等案例,但我觉得最有趣的是这个案例:解释这张图片的笑点
看来他们很有自信,甚至不打算把这个视觉模型开源,要直接加到下一个版本里 Re:Source
不过有一说一,这些展示的效果并不是独一无二的,御三家还有国内几大家的模型应该都能做到。DS 的亮点在于小规模模型(v4flash)和很少的token用量就实现了这样的效果。
识图的成本打下来也是很厉害的,真这样至少国内几家短时间内都要受很大打击
方向走的是视觉识别,还更偏向真实场景,非艺术作品。生产环境下部署有优势。 Re:Source
速报:论文和GitHub库被删了(也可能是隐藏了)
是发太早了吗
ayanamilin 发表于 2026-4-30 20:01
不过有一说一,这些展示的效果并不是独一无二的,御三家还有国内几大家的模型应该都能做到。DS 的亮点在于 ...
v4的token使用是比较浪费的,在我这比v3.2和各个海外模型都要高
ds的技术路径是更高效的进行推理,这既能支撑自家的模型使用更多的token,也大幅压低了算力成本。我们算力受限,这方面的研究对我们很关键。从这方面来说特别开源的后端推理架构实际上也是很关键的技术,只是距离普通人很远,媒体报道也少
目前v4主要的问题是token使用量大带来的时间成本开支,感觉后续还是需要提高token利用效率。不过从之前发布的spciale来看他们可能也会选择通过更多token使用推进模型性能,目前海外大厂那些所谓的内部尖端模型大概率就是这么干的
论文撤掉了,不知道为啥 Re:Source
鸿蒙原生有类似cherry Studio的用API的App吗
我现在工作流都是opus4.7/4.6配合各种skill写计划,然后和v4互相交流定版。opus写出实施计划后交给v4pro执行,effort开到最大,爽蹬
论坛助手,iPhone
本帖最后由 Tomek 于 2026-5-1 13:07 编辑
Rowen233 发表于 2026-5-1 12:35
鸿蒙原生有类似cherry Studio的用API的App吗
Cherry Studio和Chatbox不都有鸿蒙版本吗,啊好像只有电脑的鸿蒙6有这俩
—— 来自 HUAWEI VYG-AL00, Android 12上的 S1Next-鹅版 v2.5.4
目前只有视觉,没有音频的吗?
madnesshare 发表于 2026-5-1 13:11
目前只有视觉,没有音频的吗?
音频现在做进去性价比比较低,可能有资源了才会做 Re:Source
overflowal 发表于 2026-5-1 10:59
论文撤掉了,不知道为啥 Re:Source
一般这种都是因为发现有错误需要修改
本帖最后由 pointer243 于 2026-5-2 16:07 编辑
问个跟deepseek无关的问题,cherry studio怎么修改快捷短语的内容?还是得新建一条新的
找到了,在设定里