FT：DeepSeek下周发｜已发，转为v4讨论楼 - 第47页 - 归墟 - Stage1st

小川彩 发表于 2026-6-17 15:47

本帖最后由小川彩于 2026-6-17 15:50 编辑

问楼友一个问题，现在公司内部要开发一个agent，前端到时候估计是网页，需要支持多用户多对话和配置一些环境变量，后端的agent需要支持mcp/tool calling/skills/subagent or multiagent，然后会接自有的openai llm api
不想自己从头开发的话用什么比较好？我理解前端功能大体上估计是要vibe一个垃圾页面，后端agent选什么比较好？oh-my-pi吗？还是其他的？codex？cc？

论坛助手,iPhone

真红之闪电 发表于 2026-6-17 16:17

zephyrus99 发表于 2026-6-17 08:21
感觉上，厂商们又需要找方向了
现在每个月都出版本，然后号称能力如何如何。但是对于我这种普通用户来说， ...

跑跑深度研究就知道，确实比之前他家的模型好。反正这两天不能用我又回 4.6 了。我没做代码，Claude 只跑决策，能用的两天基本上跑满了

—— 来自 S1Fun

阿刚发表于 2026-6-17 16:19

4f不行啊，对话虽然有活人感但是智力感觉不是很高的样子，理解能力反而下降了

有鱼发表于 2026-6-17 17:04

Anarkia 发表于 2026-6-17 17:13

本帖最后由 Anarkia 于 2026-6-17 17:23 编辑

小川彩发表于 2026-6-17 15:47
问楼友一个问题，现在公司内部要开发一个agent，前端到时候估计是网页，需要支持多用户多对话和配置一些环 ...
你的agent是要拿来干什么的？不能光是说要支持这些功能，得弄明白为什么要支持
codex cc pi这些local coding agent说到底ReAct模式不神奇，它们的强大是站在shell命令行+本地文件读写这个巨人的肩膀上，本地tool call能实现无比多的可能性
鉴于你要支持网页加多用户部署，这很可能是个服务器/云端部署的agent，那这个agent为了实现你们想要的功能首先要问它的业务场景有没有准备好的tool和mcp供它调用

如果后端真的只需要对服务器本地文件操作，就是个内部coding agent需求，那codex有mcp模式可能可以试试，但至少得在前面做一个task queue，然后还有权限之类的

但我觉得大概率你们其实需要的是一个类似LangGraph（现在有很多别的选项了）这样的orchestration框架

小川彩 发表于 2026-6-17 17:23

本帖最后由小川彩于 2026-6-17 17:25 编辑

Anarkia 发表于 2026-6-17 17:13
你的agent是要拿来干什么的？不能光是说要支持这些功能，得弄明白为什么要支持
codex cc pi这些local codi ...

简单来说是个分析agent 一些代码的执行都有远端mcp代劳主要是一些workflow化/human in the loop/rag召回已有分析参考文档的工作
和ai聊完感觉可能分发本地打包好的脚本给同事更合适起一个本地的网页然后同事自己配置相关的环境变量，然后agent走半固定流程进行分析？那样的话感觉langchain/langgraph是不是更合适一些最多是把code编写的部分插一个pi之类的？

论坛助手,iPhone

lowezack 发表于 2026-6-17 17:31

小川彩发表于 2026-6-17 17:23
简单来说是个分析agent 一些代码的执行都有远端mcp代劳主要是一些workflow化/human in the loop/rag召回 ...

接opencode，他的前端和内核交互是通过http做的，我感觉你可以直接拿来用的

Anarkia 发表于 2026-6-17 17:40

本帖最后由 Anarkia 于 2026-6-17 17:43 编辑

小川彩发表于 2026-6-17 17:23
简单来说是个分析agent 一些代码的执行都有远端mcp代劳主要是一些workflow化/human in the loop/rag召回 ...
我想的是如果你需要的是一套通用能力，那起一个repo，里面塞上通用skill、mcp等设置，做到repo clone下来pi就能直接用，让大家自己装pi是不是就可以？pi甚至可以覆盖system prompt。你说要装新功能了，其实就是写一个新的skill，让大家pull一下就好
实话说部署一个agent比一般人想的要麻烦很多，比如多用户情况下要不要按用户数建workspace？coding agent一般默认workspace就是它一个agent在搞，多用户情况下你不可能一套文件库几个人同时调用操作，要分沙箱，隔离，队列等等，很麻烦的
不如各自一个pi，共享skill repo，各自本地跑

LeoDT 发表于 2026-6-17 17:43

小川彩发表于 2026-6-17 17:23
简单来说是个分析agent 一些代码的执行都有远端mcp代劳主要是一些workflow化/human in the loop/rag召回 ...

看上去主要问题就是多用户，有写入功能agent还要做多用户会比较混乱，现成的东西可能不多。分发本地版是个选择，不过还是看是否真的需要处理用户自由输入的模式。

今天Astro的开发团队发了个agent开发框架Flue(https://flueframework.com/)，看上去挺适合相对固定流程的agent开发，应该是比langchain要更high level一点，而且本身基于pi，基本的harness功能都有。

小川彩 发表于 2026-6-17 17:44

嗯和ai以及同事讨论过，基本是走最多是我配置好本地agent，然后可能套个前端然后打包分发，同事本地使用的路子
现在主要是在想agent的选择，通用能力其实是不需要的，代码执行有内部的远端mcp服务器提交执行，本地只需要编写。然后就是分析和用rag mcp召回一些参考文档了，正在看opencode/pi 或者是langgraph/langchain自己攒

论坛助手,iPhone

hugosol 发表于 2026-6-17 17:58

学院派的做法是用LangChain/LangGraph之类的框架，但最近好像比较流行直接拿pi的core层状态机来用，理由是AI时代大家都不喜欢太重的框架了，封装得不好的话别人宁可自己重新造轮子都不会用你的东西

simonouozy 发表于 2026-6-17 18:03

ai时代自己造轮子的成本可能比用别人的低，实际上也就是复制了训练数据里的最佳实践，本地也有实现的上下文来用于后续维护

德尔惠净水器 发表于 2026-6-18 10:01

今天用 app 端快速模式的思考链比以前多了很多

wandeeees 发表于 2026-6-18 10:10

难道今天下午就要复刻之前的V4更新来更新V4.1了吗

neptunehs 发表于 2026-6-18 10:23

opencode的免费ds4f啥时候更新呢

—— 来自 OnePlus PJX110, Android 14, 鹅球 v3.5.99

novem 发表于 2026-6-18 11:28

又刷出来识别图模式了，会和之前不一样吗

misuzu0723 发表于 2026-6-18 11:36

感觉v4p速度更快了？今天试了下有80token /s

—— 来自鹅球 v3.3.96-alpha

绝地潜兵 发表于 2026-6-18 12:23

开放识图模式了，思考变成了GLM的自检模式，比莫名其妙的扮演好用多了

zerona 发表于 2026-6-18 13:20

绝地潜兵发表于 2026-6-18 12:23
开放识图模式了，思考变成了GLM的自检模式，比莫名其妙的扮演好用多了

api 能用识图了吗？网页端还是受限了点。

love4aids 发表于 2026-6-18 13:25

api是不是现在还不能识图，官方文档也没提

羊寢发表于 2026-6-18 13:40

试了下识图，发现有点左右不分，给它一张左眼被头发遮住的角色图，它说角色的右眼被头发遮住

绝地潜兵 发表于 2026-6-18 14:14

zerona 发表于 2026-6-18 13:20
api 能用识图了吗？网页端还是受限了点。

我用的网页版，API没有试

villsian 发表于 2026-6-18 14:19

识图模式很强，看了思考过程，细节捕捉到位。

→熙← 发表于 2026-6-18 14:26

api急需识图

overflowal 发表于 2026-6-18 14:29

梁圣球球了，赶紧api放出来吧

80后卢瑟 发表于 2026-6-18 15:57

如何评价 DeepSeek 的识图模式？
https://www.zhihu.com/question/2032903059739767247/answer/2050938785878300365

tillnight 发表于 2026-6-18 16:21

试了下上次灰测中比较糟糕的二次元，明显知识量还是比较少，但更离谱的是思维链里直接在穷举式搜索，最后说自己脑雾了。唯一比较好的地方是思考了很久发现不知道就说不知道，没有瞎掰。
这识图模式目前看来给图让他找出处能力很弱，但是分析图片中的内容元素的能力还是可以的。

zerona 发表于 2026-6-18 17:14

tillnight 发表于 2026-6-18 16:21
试了下上次灰测中比较糟糕的二次元，明显知识量还是比较少，但更离谱的是思维链里直接在穷举式搜索，最后说 ...

如果给它连到一些资料站呢？

德尔惠净水器 发表于 2026-6-18 18:40

识图模式的 cot 好长

goranger 发表于 2026-6-18 20:34

目前来看感觉识图模式不是靠喂图炼出来的，而是真的在根据“看”到的图片去匹配世界知识来猜

论坛助手,iPhone

舞以发表于 2026-6-18 20:47

我试了两次，cot还是老样子，估计没灰度到我吧

论坛助手,iPhone

villsian 发表于 2026-6-18 21:07

这个识图模式，感觉基于画面捕捉的操作和功能要变天啦，不需要多大的知识储备，只需要把细节识别到位就行了。

杀人鲸 发表于 2026-6-18 21:32

舞以发表于 2026-6-18 20:47
我试了两次，cot还是老样子，估计没灰度到我吧

论坛助手,iPhone

朋友，你说的是识图还是新的思考练呀？

半江瑟瑟半江红 发表于 2026-6-18 22:28

d指导这个识图有点东西，我从我家窗户往外拍了张照片，确定没有任何招牌泄露地点情况下把照片截屏发给它，居然能推理出来城市……

—— 来自 HUAWEI SGU-AL10, Android 12, 鹅球 v3.5.99

千千千千鸟 发表于 2026-6-18 22:31

半江瑟瑟半江红发表于 2026-6-18 22:28
d指导这个识图有点东西，我从我家窗户往外拍了张照片，确定没有任何招牌泄露地点情况下把照片截屏发给它， ...

有没有可能是手机拍照图片属性里有定位信息。

sellboy 发表于 2026-6-18 22:31

网页版识图也没有联网搜索，新事物没法印证只能猜，可以联网搜索的api的识图认知能力肯定远比网页版要强。

杀人鲸 发表于 2026-6-18 22:35

说起来，朋友们，我不确定你们到底发现了那个什么更新提示没有。
我是发现版本号虽然没有提示，但系统商城里面是可以升级到218的。

—— 来自 S1Fun

彰彰发表于 2026-6-18 23:07

扔了一张天空加铁塔图给他，他能认出省份。扔了一张凌家滩遗址公园的图给他，他认成了殷墟的了。都是没有特别明显图文特色的图。虽然他认错了，但他深度思考里的推理过程很是有趣。还可以让他帮忙搭配衣服，买东西了。真好

—— 来自 S1Fun

goranger 发表于 2026-6-19 00:12

看隔壁帖子，基于世界模型的认知和海量资料的llm两条路

论坛助手,iPhone

御坂MKII 发表于 2026-6-19 05:11

api 是不是没更新多模态

页: 37 38 39 40 41 42 43 44 45 46 [47] 48 49 50 51

Stage1st's Archiver