henvelleng 发表于 2026-4-6 17:19
web的话也遇到过问题,比如我ui喜欢用blazor,改一个样式,如果我直接给ai下命令,说出具体的样式,那么a ...
这就是所谓harness engineering的领域了,web的做法是让AI启动个浏览器,自己截图排查。
最重要的是要让这种负反馈调节有闭环吧
赤星ビスコ 发表于 2026-4-6 16:31
我现在做法是先生成测试用例,人工review或者补充测试用例,再生成e2e,再跑e2e。
我是个web服务,e2e比 ...
感谢回复
你用下来和AI契合度比较好的e2e工具有推荐吗
这边用pytest+selenium比较多
Jet.Black 发表于 2026-4-6 17:18
用AI debug有时候比写代码更强,设个断点,当场瞬间读取各种变量堆栈内存,找到问题。
...
有的设备能用断点,有的连断点都不能用,因为会导致设备停机,调试的时候是通过状态机来的
henvelleng 发表于 2026-4-6 17:19
web的话也遇到过问题,比如我ui喜欢用blazor,改一个样式,如果我直接给ai下命令,说出具体的样式,那么a ...
测试驱动开发,先拆解成各种测试, development integration test, e2e test。 然后就能形成闭环了。
ui ux测试不懂,应该也能脚本实现
henvelleng 发表于 2026-4-6 17:34
有的设备能用断点,有的连断点都不能用,因为会导致设备停机,调试的时候是通过状态机来的 ...
Ai分析debug log, cpu trace, crash dump也很强的。
我总觉得比起写代码,ai更适合调试。
赤星ビスコ 发表于 2026-4-6 17:26
这就是所谓harness engineering的领域了,web的做法是让AI启动个浏览器,自己截图排查。
最重要的是要让 ...
css覆盖以后的样式和组件库很可能是一样的,可能ai连组件动画都给你仿得89不离十,有一点区别,但又大差不差,但很显然是不能任由ai这么搞的,或者css覆盖本身就和组件库原本的底层机制冲突,造成动画bug
Jet.Black 发表于 2026-4-6 17:40
Ai分析debug log, cpu trace, crash dump也很强的。
我总觉得比起写代码,ai更适合调试。 ...
绝大多数需要实机反复调试的问题,我就说吧,基本都是竞态问题。也许以后ai会懂得查示波器吧
henvelleng 发表于 2026-4-6 17:44
绝大多数需要实机反复调试的问题,我就说吧,基本都是竞态问题。也许以后ai会懂得查示波器吧 ...
示波器算啥,以后逻辑分析仪也得上ai。
kaics 发表于 2026-4-6 17:33
感谢回复
你用下来和AI契合度比较好的e2e工具有推荐吗
这边用pytest+selenium比较多...
我是用的playwright,通过cdp驱动可以让ai拿dom结构比较方便。有个小技巧是让ai生成代码的时候都带上data-testid,找元素会方便很多
henvelleng 发表于 2026-4-6 17:40
css覆盖以后的样式和组件库很可能是一样的,可能ai连组件动画都给你仿得89不离十,有一点区别,但又大差 ...
这个确实没什么好方法本身css规则复杂,又强依赖浏览器渲染
走不通ai自动反馈的流程也只能人工修
OpenAI在harness engineering里提到:由于LLM的注意力涣散的问题,AGENTS.md需要精简,只做目录,相关文档放在docs/中。AI除了有工具、环境(bash、代码执行、沙箱),还能看到日志、指标、UI界面。有个定期运行的“doc-gardening”Agent,专门扫描那些过时的文档,发起修复。
我理解就是教会AI像人类一样思考和行动。
当然,太过细节的经验或技术感觉可能不用特意去学,就像以前的提示词工程一样,大模型进化速度太快了,过了半年这些知识就都过时了。
—— 来自 鹅球 v3.5.99
elxy 发表于 2026-4-6 17:59
OpenAI在harness engineering里提到:由于LLM的注意力涣散的问题,AGENTS.md需要精简,只做目录,相关文档 ...
这些奇淫技巧存在,本质还是模型不够强大,等模型足够强了直接用就行了。
ai时代,学太多这些没必要,人通常也没ai学的快。
本帖最后由 泰坦失足 于 2026-4-6 18:10 编辑
现在最大问题是左脚踩右脚的环境还不够完善.
比如ai写GUI/渲染图片/latex老是出问题, 我说你每次改完后自己渲染下看看. 很快就能收束到合格的版本.
Agent浏览器也是一圈看下来, 准备试试vercel-labs/agent-browser. 现在的什么Antigravity调用Chrome, OpenAI Altas,各个小厂的AI驱动浏览器, 都没法看. Codex等工具最擅长的还是用CLI和世界交互
henvelleng 发表于 2026-4-6 16:34
有一小段时间确实不review ai写的代码,后来发现绝对不行,ai犯的低级错误能把人牙都笑掉,而且调试过程中 ...
claude的模型尤其擅长copy&paste代码,然后下一次有逻辑改动的时候,必然不记得把复制的相同代码改掉。类似这种坑到处都是,但凡写的代码规模大一点,交流起来肯定首先是这些踩坑经验。只有卖课的才会把ai编程说得很完美。
楼主还在那里装很早就开始编程,那要是真的是个资深的专业程序员,会不知道其实做软件其实写新功能代码不是全部?
其实有效交流是分享踩坑经验。感觉楼主一个踩坑经验都说不出来,只会很空洞的说ai真厉害真厉害
现在一般是多模型混用牛逼的模型规划次一点的写代码这样效率最高
ai 写代码产出太快,实际技术债累积速度比人类代码快了几个数量级,主因是 ai 不会有这是我负责的模块不好好维护重用重构以后我要吃瘪这种想法。代码质量完全看操作的人对产出代码体系的了解程度,越到后期感觉越吃瘪,虽然几乎所有代码都 review,但是 我不少 case 是到问题出现后才发现有问题。 比起这个 我更好奇用 openclaw 写炒股代码那些兄弟,写出来真的敢用么
dada 发表于 2026-4-6 18:34
ai 写代码产出太快,实际技术债累积速度比人类代码快了几个数量级,主因是 ai 不会有这是我负责的模块不好 ...
测试够多还好吧,ai时代,测试反而比代码更重要些。
总之要有个自动测试,自动写ticket,自动找到责任人的bug管理系统。
kaics 发表于 2026-4-6 15:57
其实我一直在尝试把vibe coding全流程自动化和skill化
目前做下来从方案设计到代码实现,review,单元测试 ...
没实际做过,仅供参考。
自动化测试可以规范一下你的接口目录,和规范,写代码的时候按照要求来。感觉这块只能从设计和框架上做提示词约束和检查。
前端测试可以用浏览器工具吧,我看反重力是有这个内置工具的,记得python有个浏览器测试库来着,全用接口操作浏览器和分析页面,模拟点击啥的,你可以封装成mcp。估计这种东西应该有别人造好的轮子。
萧观澜 发表于 2026-4-6 11:20
个人想搞claud code有什么渠道啊,我有国内行的visa卡。是不是还是找虚拟卡去开最靠谱 ...
一般的代码deepseek就行。
前几天用元宝的deepseek写了个论坛:
https://www.dark.edu.kg/bbs.php
前后端加文档加示例贴几乎全是ai写的,我就手动改了两个include路径错误…
7uly 发表于 2026-4-6 18:20
claude的模型尤其擅长copy&paste代码,然后下一次有逻辑改动的时候,必然不记得把复制的相同代码改掉。类 ...
这其实是两个阶段的问题,如果需要review的话,用SDD的情况下,ai生成design和task是足够详细到让你知道会不会复制代码,在这个时候review就能修改,不需要等AI生成代码
如果已经放弃review每一次plan,有技术债也是正常的演化吧,相比于每一次的代码质量,最终结果的可控以及交付的功能更为重要。而且相比于重复的代码,AI更典型的是不必要的冗余设计,或者是缺乏大局观的局部修复,这种其实更难处理
赤星ビスコ 发表于 2026-4-6 18:44
这其实是两个阶段的问题,如果需要review的话,用SDD的情况下,ai生成design和task是足够详细到让你知道 ...
重复代码不难搞吧,在没有Ai 之前,很多静态代码分析工具都能检测重复代码。
Jet.Black 发表于 2026-4-6 18:40
测试够多还好吧,ai时代,测试反而比代码更重要些。
总之要有个自动测试,自动写ticket,自动找到责任人 ...
仔细想想,现在的心智负担不是出在某个功能是不是正常上,而是需求一变化,或者某个被大量服务依赖的点有改动的情况下,人很痛苦,因为人负责的范围远大于以前的开发模式,对项目的整体把握是不如原先的。如果是类脚本类功能还能靠测试解决,有不少是无法有完整测试的。比如我最近在修改某个模型推理使用的底层数据结构,这个就横跨了3-4个项目,加上模型推理这个功能总能跑出来,但是关键是核对推理数据是否和改动前一致。原先的模式上,个人大概也就负责一段,比如负责推理引擎的兄弟只需要改自己使用的数据路径就行了,对自己负责内容非常熟悉的情况下也是可以判断出改动的变动范围的。现在痛苦的事,负责了前后几乎整个流程,而且都没以前那么熟悉,那如何判断AI给的重构方案是正确的呢,这种不确定性让自己的心智负担很重。我现在的状态基本都是实现某个功能的时候快如闪电,到中后期改的时候疯狂偿还技术债务或者要大量时间补偿自己对几个项目情况的理解(类似原来开情况沟通会,只是需要和AI沟通,多次确认)
Jet.Black 发表于 2026-4-6 18:47
重复代码不难搞吧,在没有Ai 之前,很多静态代码分析工具都能检测重复代码。 ...
对,无论是重复的代码,还是重复模式的代码,AI都能很好的检测出来
相比而言,之前遇到一个场景,大概是两个表单状态不一致,AI用很复杂的方式来合并成统一的状态。但实际上只要重新触发下状态同步就行。我看到的时候顺手让AI改了,但我知道我看不到的地方肯定还有很多
dada 发表于 2026-4-6 18:58
仔细想想,现在的心智负担不是出在某个功能是不是正常上,而是需求一变化,或者某个被大量服务依赖的点有 ...
人类学东西不大可能比AI更快,直接让AI总结理解可能更加实际。
软件开发一直都是一项社会活动,技术占的比例其实没有想象那么大,
以后技术活动AI全权负责,人就可以专心搞政治了。
字节的trae有人用过么 入门的话合适么?
elxy 发表于 2026-4-6 17:59
OpenAI在harness engineering里提到:由于LLM的注意力涣散的问题,AGENTS.md需要精简,只做目录,相关文档 ...
这个就还是注意力管理和捞针上的问题。现在的情况也还没那么乐观,注意力涣散和召回率低同时存在
dada 发表于 2026-4-6 18:58
仔细想想,现在的心智负担不是出在某个功能是不是正常上,而是需求一变化,或者某个被大量服务依赖的点有 ...
跨模块的话不应该是喊他们也顺便看一眼吗
我们现在就是如果是 demo 的随便你用 ai 拉屎。如果要写正式的代码,拉屎的人可以跨模块,但是 review 仍然要又各个模块的人分别 approve
本帖最后由 爱未来 于 2026-4-6 22:18 编辑
我都是用豆包写代码,图个方便。但是豆包蠢的挂相,经常反复改十几版都不能用,还每一版都告诉我是终极版、最终版、绝无报错
爱未来 发表于 2026-4-6 22:16
我都是用豆包写代码,图个方便。但是豆包蠢的挂相,经常反复改十几版都不能用,还每一版都告诉我是终极版、 ...
我还在用vscode + trae 插件,感觉里面ds 3.1 都比豆包好。
haiuhfuwah 发表于 2026-4-6 21:52
字节的trae有人用过么 入门的话合适么?
好用啊,国内版等于免费,很适合外行,国际版要钱,但是有外国的模型。
—— 来自 HONOR PGT-AN10, Android 16, 鹅球 v3.5.99-alpha
处理屎山代码还是不行,好几个几千行的无框架js
我也不懂原流程,直接把用户需求给它,次次错,连正常显示都不行
用的本地部署的minimax2.5 / qwen3.5+cc+gsd
最后只好让它一个个细分需求改,我来当监工
看X上老外抱怨用了agent 之后比以前更累了只能说深有同感。
一个feature做完plan写完spec 启动执行之后,就得开新窗口做另一个feature,这个开始执行以后又得去验收另一个的结果。
结果是人脑一直在执行切换上下文的高耗能操作,一天下来精疲力尽。感慨曾经降噪耳机一戴沉浸式coding心流一整天的日子一去不复返了
AEmpire 发表于 2026-4-6 11:04
看X上老外抱怨用了agent 之后比以前更累了只能说深有同感。
一个feature做完plan写完spec 启动执行之后, ...
不过资本本来就要把人的最大劳动力压榨出来,想通过ai偷懒本来就想多了
harness我觉得噱头大于价值
SOP这种标准操作流程的概念又不是现在重新发明的
我觉得现在说辞也反映了头部也觉得位子不稳想多卖概念:我卖的肉是最好的,但是你只有遵照我的方法这么吃才够味
agent编程对抗幻觉,指望从根节点一个.md出发,所有下游agent都能执行到位很不现实。我觉得可以借鉴很多现实要素和体系结构的存储分级管理,让所有内容不必只是放进一个串联的agent组的上下文而是并联协同
对话框操作的“新开一个对话(清空/压缩上下文)”,“对同样一个问题开两个对话两种AI交叉验证”,这些人的操作背后的逻辑后面agent得自己会的
反正现在这个趋势就是要求人人坐上驾驶室的位置会开高达了,慢慢练吧
各位大佬说了那么多,有适合小白入门的教程分享下吗,不要卖课的
Awanano 发表于 2026-4-7 06:13
harness我觉得噱头大于价值
SOP这种标准操作流程的概念又不是现在重新发明的
我觉得现在说辞也反映了头部也 ...
我觉得harness最有价值的是给ai能力以及调试和验证,无非看怎么来创建这样的环境
Anthropic用harness 开发c编译器选题非常讨巧,c编译器有大量现成的testcase和benchmark ,还能和现有编译器的产物链接。一般开发很难这么明确的场景和验证手段
友誼的綠葉 发表于 2026-4-7 07:26
各位大佬说了那么多,有适合小白入门的教程分享下吗,不要卖课的
下个codex cli或者opencode,然后再安装openspec吧。这些全是免费与开源的。剩下的问ai应该就可以了吧
借楼问一个问题,augment code带的提示词增强功能,有没有啥平替方案
软件开发的困难向来就不在程序员与程序的这对关系上。。
吹 AI 的永远想不明白这一点。
我们公司现在主要问题还是为了安全保密之类的考虑不允许使用外部模型,自己部署的又惨不忍睹,所以实际没啥提效。
等哪天领导想开了,规模采购外部模型的时候,估计就是大规模裁员的时候了。