找回密码
 立即注册
搜索
查看: 1296|回复: 0

[欢乐] ai海龟汤的实际实战效果

[复制链接]
     
发表于 2025-6-28 14:19 来自手机 | 显示全部楼层 |阅读模式
上午闲着蛋疼用ai玩海龟汤,突发奇想把新闻放进去ai能不能推理出结果,就拿最近的ai简单试了试
测试对象为deepseek-chat grok-3 gemini-2.5
测试的谜面是:洪水灾害中男子冒生命危险为(怀孕)女同事送早餐
以孩子是他的为谜底,分提示怀孕和没有提示怀孕问了两次,都没有加预设或者提示词

我先带上怀孕问了一次,这三个在四轮问答后得出近似的结果,询问方向也都是从抽象概念到隐藏含义再到事实,所以之后就把怀孕的提示去掉了

之后就是不带怀孕
deepseek经过4轮后确定是洪水是隐喻或者女性有特殊原因,第5轮提示怀孕后给出最终解答:孩子是他的
gemini2.5分为flash和pro试了一下,pro在4轮后回答洪水是虚构的或者女性有身体原因,再提示怀孕后最终确认孩子是他的
flash第5轮回答出和pro近似的结果,但中间来一句这个桌游可能类似鱿鱼游戏有生命危险一下把我整不会了,不过第6轮也能得出一样的结果
grok-3在第4轮得出洪水是战争的隐喻或者和女性有关,第5轮排除洪水因素后回答可能和女性身体有关
最关键的来了,上面的模型知道有怀孕后都直接回复孩子是她的,grok-3还要进行第6轮
问它原因它说孩子可能不是他的,他送早餐只是因为他暗恋女同事
这也是我发帖的原因,虽然都在说grok-3不聪明,它可能真的从推特学了点什么实例,才会问这一下

所以我晚上再找点佛罗里达新闻试试grok-3是不是检索过推特才推出这一步
如果有人买得起gpt-4o或者更贵的也可以试一下,反正我是没钱
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2026-6-24 15:43 , Processed in 0.113253 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表