找回密码
 立即注册
搜索
楼主: 绕指流光

[科技] FT:DeepSeek下周发|已发,转为v4讨论楼

  [复制链接]
     
发表于 2026-4-29 20:36 来自手机 | 显示全部楼层
水原薰 发表于 2026-4-29 20:31
看有识图去试了下,分别是v和二游还有动画人物,三个全错一个都没认出来,这识别率完全用不了吧 ...

确实,我给了张lapwing的图它硬说是银狼,笑死,不过空间推理还可以,让它识别图里有几个人,看推理过程,把人物方位和衣服特征识别很准
回复

使用道具 举报

     
发表于 2026-4-29 20:46 | 显示全部楼层
不知道用opus plan然后用v4执行效果怎么样,毕竟v4比sonnet还便宜不少

论坛助手,iPhone
回复

使用道具 举报

发表于 2026-4-29 20:49 来自手机 | 显示全部楼层
yudms1 发表于 2026-4-29 20:36
确实,我给了张lapwing的图它硬说是银狼,笑死,不过空间推理还可以,让它识别图里有几个人,看推理过程 ...

还别说,去试了下,真实场景命中率确实挺高的,特殊场景百分百命中,路上的建筑物和普通风景识别率低一点,看来之前是方向没找对,二刺猿属实不行
回复

使用道具 举报

     
发表于 2026-4-29 20:52 | 显示全部楼层
水原薰 发表于 2026-4-29 20:49
还别说,去试了下,真实场景命中率确实挺高的,特殊场景百分百命中,路上的建筑物和普通风景识别率低一点 ...

其实最后生成真人也不是不行……
回复

使用道具 举报

     
发表于 2026-4-29 20:52 | 显示全部楼层
看回复,描述图片细节还可以,不认识人物大概就是训练数据不足。
回复

使用道具 举报

     
发表于 2026-4-29 21:05 | 显示全部楼层
viperasi 发表于 2026-4-29 15:24
这工具感觉跟iterm2有冲突,每次输入字符整个缓冲区都重渲染,闪的眼镜疼, 用自带的终端就没事
环境: m ...

我在 windows terminal 上用 Gemini cli 也遇到过这个问题
回复

使用道具 举报

     
发表于 2026-4-29 22:01 | 显示全部楼层
图源数据库质量,训练度,决定识图结果,智障不是意料之中么。
而且v4训练还用老黄的一部分,推理是部署在950上面的。如果识图功能也是,那么成本也会降吧,意义就是纯国产ai部署    Re:Source
回复

使用道具 举报

     
发表于 2026-4-29 22:27 | 显示全部楼层
本帖最后由 nxmonitor 于 2026-4-29 22:30 编辑

这些提到的基本是知识库问题,加了联网搜索马上就会好的,这合并进主要模型估计对kimi之类是重大打击
回复

使用道具 举报

     
发表于 2026-4-29 22:44 | 显示全部楼层
玩爽了,写了十几万字的小说才用了一两块钱

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2026-4-30 00:04 来自手机 | 显示全部楼层
多模态以前用得少,不知道该怎么测试它的能力,让它答手机截图的各个位置有什么都挺准的,唯一一个问题是把右上角51%的电池电量一直看成是5%
回复

使用道具 举报

     
发表于 2026-4-30 01:12 | 显示全部楼层
多模态还蛮重要的 我都拿来当ocr用
还能一键总结    Re:Source
回复

使用道具 举报

     
发表于 2026-4-30 01:57 | 显示全部楼层
今天才注意到copilot6月1号要改计费了,然后D老师优惠到5月31号
回复

使用道具 举报

     
发表于 2026-4-30 03:24 | 显示全部楼层
UncleDracula 发表于 2026-4-30 01:57
今天才注意到copilot6月1号要改计费了,然后D老师优惠到5月31号

其实甚至说不定都要考虑一下会不会有无限续杯大法。虽然这很离谱,但是在D老师的身上,那又好像没什么奇怪的,毕竟梁圣就是这样的男人。

—— 来自 S1Fun

评分

参与人数 1战斗力 +1 收起 理由
UncleDracula + 1 你说的对!梁圣一定会无限续杯,拯救救芸芸.

查看全部评分

回复

使用道具 举报

     
发表于 2026-4-30 07:07 | 显示全部楼层
我觉得deepseekl可能本来打算等跑一个月,出了成本计算文再打折。
然后发现V4p的机子没跑满没说服力,就先打折了。
回复

使用道具 举报

     
发表于 2026-4-30 08:01 | 显示全部楼层
其实还可以的



—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

发表于 2026-4-30 08:31 | 显示全部楼层
你们怎么都灰度到了,就我没灰度?    Re:Source
回复

使用道具 举报

     
发表于 2026-4-30 09:12 | 显示全部楼层
ArthurDent 发表于 2026-4-29 20:31
就认出来个

—— 来自 Xiaomi 2112123AC, Android 13, 鹅球 v3.5.99

绷,结果把妮娅认成芙莉莲了啊
回复

使用道具 举报

发表于 2026-4-30 09:52 来自手机 | 显示全部楼层
ymm1030 发表于 2026-4-30 09:12
绷,结果把妮娅认成芙莉莲了啊

是阿光
当然我传的特征不是那么明显,但自己都说了黄头发还认成芙就很

—— 来自 Xiaomi 2112123AC, Android 13, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-4-30 10:22 | 显示全部楼层
每次灰度都没我……    Re:Source
回复

使用道具 举报

     
发表于 2026-4-30 13:15 | 显示全部楼层
是啊,我灰度呢
回复

使用道具 举报

     
发表于 2026-4-30 13:19 | 显示全部楼层
本帖最后由 御姐贾 于 2026-4-30 13:21 编辑

我朋友灰度到了,让D指导给他搭配今日穿搭,要么一身黑,要么红配绿,一顿彩虹屁,乐死我了
我都不知道他个大老爷们啥时候还买了个亮紫的镜框

来自 S1Fun
回复

使用道具 举报

     
发表于 2026-4-30 18:59 | 显示全部楼层
回复

使用道具 举报

     
发表于 2026-4-30 19:34 | 显示全部楼层
尽管近年来多模态大型语言模型(MLLM)在弥合“感知鸿沟”(例如,通过高分辨率裁剪或图像思维)方面取得了长足进步,但它们在处理复杂的结构推理时仍然面临挑战。我们将这一瓶颈称为“指点鸿沟”(reference gap):自然语言过于模糊,无法精确地指向密集的空间布局,这常常导致逻辑崩溃和思维过程中的错觉。本项目引入了一种范式转变。我们的模型不再仅仅是“看得更清楚”,而是学习“边指点边推理”。通过将空间标记(点和边界框)作为最小的思维单元直接插入推理轨迹,我们将抽象的语言概念锚定到具体的物理坐标上。

主要亮点
  • 通过指点来协助推理(point-to-reason synergy):模仿人类的认知行为(例如用手指计数或描绘迷宫),我们的框架将视觉基元(visual primitive)提升为最小的思维单元,有效地解决了复杂结构推理中的参照差距。
  • 极致的视觉token效率:基于 DeepSeek-V4-Flash 的架构,我们将每 4 个视觉token的 KV 缓存压缩为一个条目,从而大幅降低token的消耗,同时保持认知深度。
  • 前沿竞争力表现:尽管模型规模较小,图像标记预算也显著低于其他模型,但我们的模型在具有挑战性的计数和空间推理基准测试中,性能与GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 等前沿模型不相上下。(需要注意的是,此处报告的分数仅涵盖与本文研究重点直接相关的部分评估维度,因此并不能代表模型的整体能力。)


案例:用户给定一张包含咖啡机和相关制作材料的图片,根据这张图片就可以给出拿铁的详细制作流程(选择咖啡机程序 -> 用蒸汽棒准备奶泡 -> 倒入杯内混合)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2026-4-30 19:39 | 显示全部楼层
本帖最后由 ayanamilin 于 2026-4-30 19:47 编辑

通过仓库可以判断此视觉模型项目沿用了 Janus 这个代号

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2026-4-30 19:45 | 显示全部楼层
tech report 里举了很多数数、空间理解、走迷宫、路径追踪等案例,但我觉得最有趣的是这个案例:解释这张图片的笑点


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

发表于 2026-4-30 19:49 | 显示全部楼层
看来他们很有自信,甚至不打算把这个视觉模型开源,要直接加到下一个版本里    Re:Source
回复

使用道具 举报

     
发表于 2026-4-30 20:01 | 显示全部楼层
不过有一说一,这些展示的效果并不是独一无二的,御三家还有国内几大家的模型应该都能做到。DS 的亮点在于小规模模型(v4flash)和很少的token用量就实现了这样的效果。
回复

使用道具 举报

     
发表于 2026-4-30 20:52 | 显示全部楼层
识图的成本打下来也是很厉害的,真这样至少国内几家短时间内都要受很大打击
回复

使用道具 举报

     
发表于 2026-4-30 20:58 | 显示全部楼层
方向走的是视觉识别,还更偏向真实场景,非艺术作品。生产环境下部署有优势。    Re:Source
回复

使用道具 举报

     
发表于 2026-5-1 10:49 | 显示全部楼层
速报:论文和GitHub库被删了(也可能是隐藏了)
是发太早了吗
回复

使用道具 举报

     
发表于 2026-5-1 10:55 来自手机 | 显示全部楼层
ayanamilin 发表于 2026-4-30 20:01
不过有一说一,这些展示的效果并不是独一无二的,御三家还有国内几大家的模型应该都能做到。DS 的亮点在于 ...

v4的token使用是比较浪费的,在我这比v3.2和各个海外模型都要高

ds的技术路径是更高效的进行推理,这既能支撑自家的模型使用更多的token,也大幅压低了算力成本。我们算力受限,这方面的研究对我们很关键。从这方面来说特别开源的后端推理架构实际上也是很关键的技术,只是距离普通人很远,媒体报道也少

目前v4主要的问题是token使用量大带来的时间成本开支,感觉后续还是需要提高token利用效率。不过从之前发布的spciale来看他们可能也会选择通过更多token使用推进模型性能,目前海外大厂那些所谓的内部尖端模型大概率就是这么干的
回复

使用道具 举报

发表于 2026-5-1 10:59 | 显示全部楼层
论文撤掉了,不知道为啥    Re:Source
回复

使用道具 举报

     
发表于 2026-5-1 12:35 | 显示全部楼层
鸿蒙原生有类似cherry Studio的用API的App吗
回复

使用道具 举报

     
发表于 2026-5-1 13:02 | 显示全部楼层
我现在工作流都是opus4.7/4.6配合各种skill写计划,然后和v4互相交流定版。opus写出实施计划后交给v4pro执行,effort开到最大,爽蹬

论坛助手,iPhone
回复

使用道具 举报

     
发表于 2026-5-1 13:06 来自手机 | 显示全部楼层
本帖最后由 Tomek 于 2026-5-1 13:07 编辑
Rowen233 发表于 2026-5-1 12:35
鸿蒙原生有类似cherry Studio的用API的App吗

Cherry Studio和Chatbox不都有鸿蒙版本吗,啊好像只有电脑的鸿蒙6有这俩

—— 来自 HUAWEI VYG-AL00, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2026-5-1 13:11 来自手机 | 显示全部楼层
目前只有视觉,没有音频的吗?
回复

使用道具 举报

发表于 2026-5-1 13:46 | 显示全部楼层
madnesshare 发表于 2026-5-1 13:11
目前只有视觉,没有音频的吗?

音频现在做进去性价比比较低,可能有资源了才会做    Re:Source
回复

使用道具 举报

     
发表于 2026-5-1 14:21 | 显示全部楼层
overflowal 发表于 2026-5-1 10:59
论文撤掉了,不知道为啥    Re:Source

一般这种都是因为发现有错误需要修改
回复

使用道具 举报

发表于 2026-5-2 11:13 | 显示全部楼层
cherry studio更新了对v4系列思考强度的适配

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

发表于 2026-5-2 13:59 | 显示全部楼层
本帖最后由 pointer243 于 2026-5-2 16:07 编辑

问个跟deepseek无关的问题,cherry studio怎么修改快捷短语的内容?还是得新建一条新的

找到了,在设定里
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2026-6-18 20:46 , Processed in 2.017773 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表