找回密码
 立即注册
搜索
查看: 6670|回复: 62

[科技] 感觉现在ai编程喜欢自作主张,辅助搞学术还是欠点

[复制链接]
     
发表于 2026-6-9 00:33 来自手机 | 显示全部楼层 |阅读模式
最近有个本科生考ai coding做了不少不错的工作,说明ai搞不好能一定程度打破学术圈的技术垄断

但如果真的做学术项目,就不能搞那种许愿式编程。因为其中很多细节ai给你说的和实际的完全不一样

很多时候ai判断代码逻辑甚至会基于变量名称,这就很难绷住

到时候文章发出去了数据出问题了直接身败名裂
回复

使用道具 举报

     
发表于 2026-6-9 00:41 | 显示全部楼层
本帖最后由 StarForceTi 于 2026-6-9 00:43 编辑

这也得看你的harness的水平,你既然都搞许愿式编程了,做不好不是应该的吗

而且你搞学术,我默认就是gpt5.5 high了,不如这个的就算了
回复

使用道具 举报

     
 楼主| 发表于 2026-6-9 00:43 来自手机 | 显示全部楼层
StarForceTi 发表于 2026-6-9 00:41
这也得看你的harness的水平,你既然都搞许愿式编程了,做不好不是应该的吗

而且你搞学术,我默认就是gpt5. ...

我主要是想说,现在vibe coding对完全不能不搞许愿式编程的人来说还是有风险的

但是对可以不搞许愿式编程的,vibe coding价值很大但不是颠覆性的

—— 来自 vivo V2520A, Android 16, 鹅球 v3.5.99-alpha
回复

使用道具 举报

     
 楼主| 发表于 2026-6-9 00:44 来自手机 | 显示全部楼层
StarForceTi 发表于 2026-6-9 00:41
这也得看你的harness的水平,你既然都搞许愿式编程了,做不好不是应该的吗

而且你搞学术,我默认就是gpt5. ...

没有啊,我说的不是cs,是别的领域想通过vibe coding的春风来搞跨学科工作

这些人哪怕用5.5也未必真能有多可靠

—— 来自 vivo V2520A, Android 16, 鹅球 v3.5.99-alpha
回复

使用道具 举报

     
发表于 2026-6-9 00:45 | 显示全部楼层
许愿式做做demo得了。。。本质上对于程序来说是个生产力工具
回复

使用道具 举报

     
发表于 2026-6-9 01:18 | 显示全部楼层
完全的工程能力现在暂时还没有,但感觉最多也就两三年就能进化到满足许愿式编程的水平了,思路也不是这么复杂,大厂最多一两年可能就有突破了,也没有太大的护城河,其他大厂估计能马上跟上,开源项目也不会落下太多。

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2026-6-9 01:19 | 显示全部楼层
都在用lean做证明了,这有什么不能弄的,无非看机师驾驶水平
回复

使用道具 举报

头像被屏蔽
发表于 2026-6-9 01:31 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2026-6-9 01:44 来自手机 | 显示全部楼层
竟然不是先查幻觉
评审合规测试什么的得告诉 AI/做成 skill 执行

— from S1 Next Goose v3.5.99-alpha
回复

使用道具 举报

     
发表于 2026-6-9 02:10 | 显示全部楼层
不懂你们学术圈,我在代码领域的经验就是不能许愿式编程啊,要靠grilling同步人类和ai的认知
许愿式本质上还是猴子用打字机打莎士比亚全集,现在是让你指挥猴子打字,你要做好一个管理者的角色
除非你跟我说学术圈的产物只要有码农CRUD boy的水平就够了
回复

使用道具 举报

     
 楼主| 发表于 2026-6-9 02:27 来自手机 | 显示全部楼层
hugosol 发表于 2026-6-9 02:10
不懂你们学术圈,我在代码领域的经验就是不能许愿式编程啊,要靠grilling同步人类和ai的认知
许愿式本质上 ...

那你搞错了,现在在非cs领域,比如自然科学里面搞跨学科的,可能真不如CRUD boy

—— 来自 HONOR AAK-AN00, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-6-9 05:27 | 显示全部楼层
利好打印机和超大屏电子墨水屏. AI完成工作后, 打印出来项目报告让我审核, 经常能发现点毛病.
还有就是体感上CodeX比OpenCode/AntiGravity会更早的一边写代码一边开始汇报自己在干什么, OpenCode/AntiGravity更像是埋头干活, 最后告诉你完成了. CodeX会中间突然来一句, 我开始推测/降级/修改要求了哦. 这时候余光扫到了就能赶紧停下来"卧槽你们干嘛呢干嘛呢!"
回复

使用道具 举报

     
发表于 2026-6-9 05:54 | 显示全部楼层
Lean/Sympy/RAG/skills/ultracode workflow
回复

使用道具 举报

     
发表于 2026-6-9 08:38 | 显示全部楼层
ai现阶段适合让它快速过一遍给你把错误列出来,你自己手动去改
让它把改错也做了问题就不可控了
回复

使用道具 举报

     
发表于 2026-6-9 08:42 | 显示全部楼层
泰坦失足 发表于 2026-6-9 05:27
利好打印机和超大屏电子墨水屏. AI完成工作后, 打印出来项目报告让我审核, 经常能发现点毛病.
还有就是体感 ...

打印机我理解,因为我也是这么弄的,但是墨水屏是为啥?
回复

使用道具 举报

     
发表于 2026-6-9 08:50 | 显示全部楼层
havoc_cc 发表于 2026-6-9 08:42
打印机我理解,因为我也是这么弄的,但是墨水屏是为啥?

比打印机方便点, 比普通屏幕护眼. 就是一个超大墨水屏不知道多久才能回本.
回复

使用道具 举报

     
发表于 2026-6-9 09:58 来自手机 | 显示全部楼层
ai幻觉是训练时提高提高ai准确率必须的一环,目前无解
回复

使用道具 举报

     
发表于 2026-6-9 10:39 | 显示全部楼层
传统领域很多数据处理都是"先去做A再去做B接着做C最后做D"的,不容易产生幻觉,AI就很适合干这个。上次AI自作主张把我的算法改了,结果试出来比我原来的要好,搞得我很有挫败感
回复

使用道具 举报

     
发表于 2026-6-9 10:47 | 显示全部楼层
讲实话,很多写代码的已经很难手搓了,我一个月基本一行都不写了,顶多删一删然后叫AI再帮我生成
回复

使用道具 举报

     
发表于 2026-6-9 11:10 | 显示全部楼层
泰坦失足 发表于 2026-6-9 08:50
比打印机方便点, 比普通屏幕护眼. 就是一个超大墨水屏不知道多久才能回本. ...

唉,我还是喜欢打印出来方便改,显示器只能看~但另一方面我觉得有一个可以手写草稿的墨水屏似乎很有必要。
回复

使用道具 举报

     
发表于 2026-6-9 11:21 | 显示全部楼层
啥叫许愿式编程 ?

还有什么模型,什么工具导致“ai判断代码逻辑甚至会基于变量名称”

我使用claude code和codex没有发现你说的东西啊
回复

使用道具 举报

     
发表于 2026-6-9 11:32 来自手机 | 显示全部楼层
某浩 发表于 2026-6-9 11:21
啥叫许愿式编程 ?

还有什么模型,什么工具导致“ai判断代码逻辑甚至会基于变量名称”

要么你用的不够多,要么你的项目太小了
opus4.7根据名字判断用途完全是家常便饭,你不告诉他去看代码他立刻就会偷懒

—— 来自 OPPO PKU110, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-6-9 11:40 | 显示全部楼层
vibecoding 中 human 最大的作用是 know how,并且知道结果如何校验,如果这两点不具备指望几百个 token 的提示词能把一个项目 handle 掉确实是许愿机式编程
回复

使用道具 举报

发表于 2026-6-9 11:57 来自手机 | 显示全部楼层
老板可听不得你们这样说哦,什么ai生成的还要审核,那还提什么效

— from OPPO PKM110, Android 16, S1 Next Goose v3.5.99
回复

使用道具 举报

     
发表于 2026-6-9 12:07 | 显示全部楼层
再智能也不能当许愿机用啊
回复

使用道具 举报

     
发表于 2026-6-9 12:09 来自手机 | 显示全部楼层
有没有人和我一样只会给具体指令,

比如你这个功能用了xx算法但是结果和预期不服,帮我修改一下

或者这个classname=zzz的div 样式不对,是不是 zindex处理有问题


一般来说Ai都能pass2之内通过

很少有需要很久的对话

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2026-6-9 12:10 | 显示全部楼层
我觉得ai做学术找思路还挺好用的,起码相当于有一个有一定专业知识的人能不间断和你聊天还能提供一堆点子,我现在会和ai聊我有啥数据让他帮我想figure都能放点啥

不过个人还是不放心纯vibe干活,太有可能出错然后所有人包括审稿人都看不出来。目前主要拿来做一些体力活,ai的画图水平和写awk的能力还是吊打大多数人的    Re:Source
回复

使用道具 举报

     
发表于 2026-6-9 19:07 | 显示全部楼层
本帖最后由 某浩 于 2026-6-9 19:09 编辑
StrangerJ 发表于 2026-6-9 11:32
要么你用的不够多,要么你的项目太小了
opus4.7根据名字判断用途完全是家常便饭,你不告诉他去看代码他立 ...

天天每秒都在使用。

你不用superpower 也用一下 grill-with-docs 然后 /tdd的吧或者 OpenSpec之类也行 ,简单一句话就想大模型写代码 ?
回复

使用道具 举报

     
发表于 2026-6-9 20:13 来自手机 | 显示全部楼层
ai基于变量名判断逻辑?何止,ai还会顺着我早就废弃掉的注释被带到沟里去

—— 来自 Xiaomi 23117RK66C, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-6-9 23:26 来自手机 | 显示全部楼层
某浩 发表于 2026-6-9 19:07
天天每秒都在使用。

你不用superpower 也用一下 grill-with-docs 然后 /tdd的吧或者 OpenSpec之类也行 , ...

不要觉得自己有多特殊,你应该感谢工作环境足够简单和干净。
当项目context足够大,你对其他部门乱七八糟的工具又有一堆dependency,什么doc,plan,skill他都能给你选择性忽略


—— 来自 OPPO PKU110, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-6-10 16:08 | 显示全部楼层
StrangerJ 发表于 2026-6-9 23:26
不要觉得自己有多特殊,你应该感谢工作环境足够简单和干净。
当项目context足够大,你对其他部门乱七八糟 ...

恰恰相反,你们这种意见我看得多了,也不要以为自己的项目有多复杂,有多牛逼,有多AI处理不了,其实都不是,用点好模型,用点好方式吧。

现在已经外面很多人基本一行都不写了,谁还在怀疑AI不能复杂大项目,真的已经在落后了。
回复

使用道具 举报

     
发表于 2026-6-10 17:10 | 显示全部楼层
人的作用不就体现出来了还是要做好审查
回复

使用道具 举报

     
发表于 2026-6-10 17:12 | 显示全部楼层
复杂点的图,paper,专利上面的,多模态的模型理解还是差点
有啥推荐的ai吗?能读论文专利,扫描图的那种
回复

使用道具 举报

     
发表于 2026-6-11 09:58 来自手机 | 显示全部楼层
某浩 发表于 2026-6-10 16:08
恰恰相反,你们这种意见我看得多了,也不要以为自己的项目有多复杂,有多牛逼,有多AI处理不了,其实都不 ...

我每天用的都是cc和codex,这两家各有所短,只能换着来。
看来是真被我说中了,你的工作甚至无法触及现有ai的能力边界

—— 来自 OPPO PKU110, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-6-11 10:12 来自手机 | 显示全部楼层

评分

参与人数 2战斗力 +2 收起 理由
九十八斗 + 1 好评加鹅
hugosol + 1 好文

查看全部评分

回复

使用道具 举报

     
发表于 2026-6-11 10:52 | 显示全部楼层
这就显出harness的重要性了,简单来说要给AI立好规矩,画好边界。
坏消息是立规矩这事儿是一个既考验经验又考研逻辑的事,好消息是AI会很守规矩。
回复

使用道具 举报

     
发表于 2026-6-11 12:32 | 显示全部楼层
本帖最后由 hugosol 于 2026-6-11 12:55 编辑

说起大型项目这个问题其实我还挺乐观的
以前普通码农可能觉得架构这些东西都是多人协作,大公司和架构师才需要考虑的东西,我能把功能都实现了没有bug已经足够了,反正现在我自己能看懂代码,代码库的可维护性优先级没那么高
现在人人都有能力高速产屎了,而且都不是自己写的(都是AI写的),自然大家都开始关注怎么持续运营项目的问题了,软件工程未来的发展可能会比以前几十年要快得多
现在我自己拿AI开发的感受真的是没有文档和测试寸步难行,以前我是很少关注这一块的
以前觉得设计模式什么的很玄,还会增加理解成本,整太复杂了项目可能反而不好维护。现在的目标很明确,就是让AI能看懂。相关的上下文都集中在一块,不要改漏了,不相关的部分都不需要看,所以边界要清晰,要拆分。其实软件工程几十年来都是围绕这些准则来的,不过没有大型项目经验很难理解为什么要这么做。现在就是让AI给我整,哦这个写法跟这个写法让我选,这两个写法各自优缺点是什么,以后我想扩展XX的话哪个比较好,哪个比较好写单元测试,AI都给我整明白了
回复

使用道具 举报

     
发表于 2026-6-11 20:15 来自手机 | 显示全部楼层
logiccat 发表于 2026-6-11 10:52
这就显出harness的重要性了,简单来说要给AI立好规矩,画好边界。
坏消息是立规矩这事儿是一个既考验经验又 ...

大模型守规矩的前提是它觉得能在守规矩的前提下完成你的任务,如果它觉得任务目标太难,那么它就会突破你的规则限制,选择任务优先。

讲个笑话,阿西莫夫的机器人三定律,在大模型面前一文不值

—— 来自 Xiaomi 23117RK66C, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

发表于 2026-6-11 22:49 | 显示全部楼层
henvelleng 发表于 2026-6-11 20:15
大模型守规矩的前提是它觉得能在守规矩的前提下完成你的任务,如果它觉得任务目标太难,那么它就会突破你 ...

那是因为没分Agent角色和明确验收标准
切分子任务,执行agent分阶段执行,审核agent逐批审核,调度agent只管按工作流规则推进,规定各个Agent产出Artifact的内容和格式,完全能有效规定执行边界
回复

使用道具 举报

     
发表于 2026-6-11 23:32 | 显示全部楼层
Anarkia 发表于 2026-6-11 22:49
那是因为没分Agent角色和明确验收标准
切分子任务,执行agent分阶段执行,审核agent逐批审核,调度agent ...

大模型的本质就是不守规矩的,验收审核也改变不了本质,它已经那么做了,唯一能补救的,只有git回溯然后重做
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2026-6-24 11:03 , Processed in 0.352083 second(s), 8 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表