lactone 发表于 2026-6-9 00:33

感觉现在ai编程喜欢自作主张,辅助搞学术还是欠点

最近有个本科生考ai coding做了不少不错的工作,说明ai搞不好能一定程度打破学术圈的技术垄断

但如果真的做学术项目,就不能搞那种许愿式编程。因为其中很多细节ai给你说的和实际的完全不一样

很多时候ai判断代码逻辑甚至会基于变量名称,这就很难绷住

到时候文章发出去了数据出问题了直接身败名裂

StarForceTi 发表于 2026-6-9 00:41

本帖最后由 StarForceTi 于 2026-6-9 00:43 编辑

这也得看你的harness的水平,你既然都搞许愿式编程了,做不好不是应该的吗

而且你搞学术,我默认就是gpt5.5 high了,不如这个的就算了

lactone 发表于 2026-6-9 00:43

StarForceTi 发表于 2026-6-9 00:41
这也得看你的harness的水平,你既然都搞许愿式编程了,做不好不是应该的吗

而且你搞学术,我默认就是gpt5. ...

我主要是想说,现在vibe coding对完全不能不搞许愿式编程的人来说还是有风险的

但是对可以不搞许愿式编程的,vibe coding价值很大但不是颠覆性的

—— 来自 vivo V2520A, Android 16, 鹅球 v3.5.99-alpha

lactone 发表于 2026-6-9 00:44

StarForceTi 发表于 2026-6-9 00:41
这也得看你的harness的水平,你既然都搞许愿式编程了,做不好不是应该的吗

而且你搞学术,我默认就是gpt5. ...

没有啊,我说的不是cs,是别的领域想通过vibe coding的春风来搞跨学科工作

这些人哪怕用5.5也未必真能有多可靠

—— 来自 vivo V2520A, Android 16, 鹅球 v3.5.99-alpha

汤浅比吕美 发表于 2026-6-9 00:45

许愿式做做demo得了。。。本质上对于程序来说是个生产力工具

百响 发表于 2026-6-9 01:18

完全的工程能力现在暂时还没有,但感觉最多也就两三年就能进化到满足许愿式编程的水平了,思路也不是这么复杂,大厂最多一两年可能就有突破了,也没有太大的护城河,其他大厂估计能马上跟上,开源项目也不会落下太多。

—— 来自 S1Fun

tiro_finale 发表于 2026-6-9 01:19

都在用lean做证明了,这有什么不能弄的,无非看机师驾驶水平

yw1 发表于 2026-6-9 01:31

rachepatty 发表于 2026-6-9 01:44

竟然不是先查幻觉
评审合规测试什么的得告诉 AI/做成 skill 执行

— from S1 Next Goose v3.5.99-alpha

hugosol 发表于 2026-6-9 02:10

不懂你们学术圈,我在代码领域的经验就是不能许愿式编程啊,要靠grilling同步人类和ai的认知
许愿式本质上还是猴子用打字机打莎士比亚全集,现在是让你指挥猴子打字,你要做好一个管理者的角色
除非你跟我说学术圈的产物只要有码农CRUD boy的水平就够了

lactone 发表于 2026-6-9 02:27

hugosol 发表于 2026-6-9 02:10
不懂你们学术圈,我在代码领域的经验就是不能许愿式编程啊,要靠grilling同步人类和ai的认知
许愿式本质上 ...

那你搞错了,现在在非cs领域,比如自然科学里面搞跨学科的,可能真不如CRUD boy

—— 来自 HONOR AAK-AN00, Android 16, 鹅球 v3.5.99

泰坦失足 发表于 2026-6-9 05:27

利好打印机和超大屏电子墨水屏. AI完成工作后, 打印出来项目报告让我审核, 经常能发现点毛病.
还有就是体感上CodeX比OpenCode/AntiGravity会更早的一边写代码一边开始汇报自己在干什么, OpenCode/AntiGravity更像是埋头干活, 最后告诉你完成了. CodeX会中间突然来一句, 我开始推测/降级/修改要求了哦. 这时候余光扫到了就能赶紧停下来"卧槽你们干嘛呢干嘛呢!"

AraTurambar 发表于 2026-6-9 05:54

Lean/Sympy/RAG/skills/ultracode workflow

evancy 发表于 2026-6-9 08:38

ai现阶段适合让它快速过一遍给你把错误列出来,你自己手动去改
让它把改错也做了问题就不可控了

havoc_cc 发表于 2026-6-9 08:42

泰坦失足 发表于 2026-6-9 05:27
利好打印机和超大屏电子墨水屏. AI完成工作后, 打印出来项目报告让我审核, 经常能发现点毛病.
还有就是体感 ...

打印机我理解,因为我也是这么弄的,但是墨水屏是为啥?

泰坦失足 发表于 2026-6-9 08:50

havoc_cc 发表于 2026-6-9 08:42
打印机我理解,因为我也是这么弄的,但是墨水屏是为啥?

比打印机方便点, 比普通屏幕护眼. 就是一个超大墨水屏不知道多久才能回本.

Vacuolar 发表于 2026-6-9 09:58

ai幻觉是训练时提高提高ai准确率必须的一环,目前无解

profklugstein 发表于 2026-6-9 10:39

传统领域很多数据处理都是"先去做A再去做B接着做C最后做D"的,不容易产生幻觉,AI就很适合干这个。上次AI自作主张把我的算法改了,结果试出来比我原来的要好,搞得我很有挫败感

dualist 发表于 2026-6-9 10:47

讲实话,很多写代码的已经很难手搓了,我一个月基本一行都不写了,顶多删一删然后叫AI再帮我生成

havoc_cc 发表于 2026-6-9 11:10

泰坦失足 发表于 2026-6-9 08:50
比打印机方便点, 比普通屏幕护眼. 就是一个超大墨水屏不知道多久才能回本. ...

唉,我还是喜欢打印出来方便改,显示器只能看~但另一方面我觉得有一个可以手写草稿的墨水屏似乎很有必要。

某浩 发表于 2026-6-9 11:21

啥叫许愿式编程 ?

还有什么模型,什么工具导致“ai判断代码逻辑甚至会基于变量名称”

我使用claude code和codex没有发现你说的东西啊

StrangerJ 发表于 2026-6-9 11:32

某浩 发表于 2026-6-9 11:21
啥叫许愿式编程 ?

还有什么模型,什么工具导致“ai判断代码逻辑甚至会基于变量名称”

要么你用的不够多,要么你的项目太小了
opus4.7根据名字判断用途完全是家常便饭,你不告诉他去看代码他立刻就会偷懒

—— 来自 OPPO PKU110, Android 16, 鹅球 v3.5.99

TiiTiiLL 发表于 2026-6-9 11:40

vibecoding 中 human 最大的作用是 know how,并且知道结果如何校验,如果这两点不具备指望几百个 token 的提示词能把一个项目 handle 掉确实是许愿机式编程

idoggy 发表于 2026-6-9 11:57

老板可听不得你们这样说哦,什么ai生成的还要审核,那还提什么效

— from OPPO PKM110, Android 16, S1 Next Goose v3.5.99

zypyong 发表于 2026-6-9 12:07

再智能也不能当许愿机用啊

omnitoken 发表于 2026-6-9 12:09

有没有人和我一样只会给具体指令,

比如你这个功能用了xx算法但是结果和预期不服,帮我修改一下

或者这个classname=zzz的div 样式不对,是不是 zindex处理有问题


一般来说Ai都能pass2之内通过

很少有需要很久的对话

—— 来自 鹅球 v3.3.96

Dreki 发表于 2026-6-9 12:10

我觉得ai做学术找思路还挺好用的,起码相当于有一个有一定专业知识的人能不间断和你聊天还能提供一堆点子,我现在会和ai聊我有啥数据让他帮我想figure都能放点啥

不过个人还是不放心纯vibe干活,太有可能出错然后所有人包括审稿人都看不出来。目前主要拿来做一些体力活,ai的画图水平和写awk的能力还是吊打大多数人的    Re:Source

某浩 发表于 2026-6-9 19:07

本帖最后由 某浩 于 2026-6-9 19:09 编辑

StrangerJ 发表于 2026-6-9 11:32
要么你用的不够多,要么你的项目太小了
opus4.7根据名字判断用途完全是家常便饭,你不告诉他去看代码他立 ...
天天每秒都在使用。

你不用superpower 也用一下 grill-with-docs 然后 /tdd的吧或者 OpenSpec之类也行 ,简单一句话就想大模型写代码 ?

henvelleng 发表于 2026-6-9 20:13

ai基于变量名判断逻辑?何止,ai还会顺着我早就废弃掉的注释被带到沟里去

—— 来自 Xiaomi 23117RK66C, Android 16, 鹅球 v3.5.99

StrangerJ 发表于 2026-6-9 23:26

某浩 发表于 2026-6-9 19:07
天天每秒都在使用。

你不用superpower 也用一下 grill-with-docs 然后 /tdd的吧或者 OpenSpec之类也行 , ...

不要觉得自己有多特殊,你应该感谢工作环境足够简单和干净。
当项目context足够大,你对其他部门乱七八糟的工具又有一堆dependency,什么doc,plan,skill他都能给你选择性忽略


—— 来自 OPPO PKU110, Android 16, 鹅球 v3.5.99

某浩 发表于 2026-6-10 16:08

StrangerJ 发表于 2026-6-9 23:26
不要觉得自己有多特殊,你应该感谢工作环境足够简单和干净。
当项目context足够大,你对其他部门乱七八糟 ...

恰恰相反,你们这种意见我看得多了,也不要以为自己的项目有多复杂,有多牛逼,有多AI处理不了,其实都不是,用点好模型,用点好方式吧。

现在已经外面很多人基本一行都不写了,谁还在怀疑AI不能复杂大项目,真的已经在落后了。

翎羽 发表于 2026-6-10 17:10

人的作用不就体现出来了还是要做好审查

油条小贩 发表于 2026-6-10 17:12

复杂点的图,paper,专利上面的,多模态的模型理解还是差点
有啥推荐的ai吗?能读论文专利,扫描图的那种

StrangerJ 发表于 2026-6-11 09:58

某浩 发表于 2026-6-10 16:08
恰恰相反,你们这种意见我看得多了,也不要以为自己的项目有多复杂,有多牛逼,有多AI处理不了,其实都不 ...

我每天用的都是cc和codex,这两家各有所短,只能换着来。
看来是真被我说中了,你的工作甚至无法触及现有ai的能力边界

—— 来自 OPPO PKU110, Android 16, 鹅球 v3.5.99

库德里尔 发表于 2026-6-11 10:12

用Agent评测思路管理AI Coding —— 31万行代码AI重构的实践

工程技术:在智能体优先的世界中利用 Codex

两篇很好的讲ai做大型项目交付的技术博客。

—— 来自 鹅球 v3.5.99

logiccat 发表于 2026-6-11 10:52

这就显出harness的重要性了,简单来说要给AI立好规矩,画好边界。
坏消息是立规矩这事儿是一个既考验经验又考研逻辑的事,好消息是AI会很守规矩。

hugosol 发表于 2026-6-11 12:32

本帖最后由 hugosol 于 2026-6-11 12:55 编辑

说起大型项目这个问题其实我还挺乐观的
以前普通码农可能觉得架构这些东西都是多人协作,大公司和架构师才需要考虑的东西,我能把功能都实现了没有bug已经足够了,反正现在我自己能看懂代码,代码库的可维护性优先级没那么高
现在人人都有能力高速产屎了,而且都不是自己写的(都是AI写的),自然大家都开始关注怎么持续运营项目的问题了,软件工程未来的发展可能会比以前几十年要快得多
现在我自己拿AI开发的感受真的是没有文档和测试寸步难行,以前我是很少关注这一块的
以前觉得设计模式什么的很玄,还会增加理解成本,整太复杂了项目可能反而不好维护。现在的目标很明确,就是让AI能看懂。相关的上下文都集中在一块,不要改漏了,不相关的部分都不需要看,所以边界要清晰,要拆分。其实软件工程几十年来都是围绕这些准则来的,不过没有大型项目经验很难理解为什么要这么做。现在就是让AI给我整,哦这个写法跟这个写法让我选,这两个写法各自优缺点是什么,以后我想扩展XX的话哪个比较好,哪个比较好写单元测试,AI都给我整明白了

henvelleng 发表于 2026-6-11 20:15

logiccat 发表于 2026-6-11 10:52
这就显出harness的重要性了,简单来说要给AI立好规矩,画好边界。
坏消息是立规矩这事儿是一个既考验经验又 ...

大模型守规矩的前提是它觉得能在守规矩的前提下完成你的任务,如果它觉得任务目标太难,那么它就会突破你的规则限制,选择任务优先。

讲个笑话,阿西莫夫的机器人三定律,在大模型面前一文不值

—— 来自 Xiaomi 23117RK66C, Android 16, 鹅球 v3.5.99

Anarkia 发表于 2026-6-11 22:49

henvelleng 发表于 2026-6-11 20:15
大模型守规矩的前提是它觉得能在守规矩的前提下完成你的任务,如果它觉得任务目标太难,那么它就会突破你 ...

那是因为没分Agent角色和明确验收标准
切分子任务,执行agent分阶段执行,审核agent逐批审核,调度agent只管按工作流规则推进,规定各个Agent产出Artifact的内容和格式,完全能有效规定执行边界

henvelleng 发表于 2026-6-11 23:32

Anarkia 发表于 2026-6-11 22:49
那是因为没分Agent角色和明确验收标准
切分子任务,执行agent分阶段执行,审核agent逐批审核,调度agent ...

大模型的本质就是不守规矩的,验收审核也改变不了本质,它已经那么做了,唯一能补救的,只有git回溯然后重做
页: [1] 2
查看完整版本: 感觉现在ai编程喜欢自作主张,辅助搞学术还是欠点