找回密码
 立即注册
搜索
查看: 1663|回复: 27

[科技] 感觉大模型评测视频会很有前途

[复制链接]
     
发表于 2026-5-27 12:52 | 显示全部楼层 |阅读模式
此帖将于2026-06-26 12:44自动关闭
本帖最后由 小修 于 2026-5-27 12:58 编辑

突然觉得现在的ai各大厂商不断推陈出新,跟当年智能手机各大厂商发布新品感觉有点像。

而且不像现在智能手机大家都做不出差异,一潭死水。
可以量化评测数据很多,各家推出产品足够多,且有明显亮点。

什么上下文,文风测试,代码能力,逻辑能力,多模态。都可以量化,还可以搞个ai的安兔兔跑分。
主播也可以春秋笔法拉踩模型恰饭。

厂商有财力,观众有意愿,题材也不难做出差异,这么好的赛道看不到人入场,有点奇怪。

我真的很喜欢看类似智能手机评测的赛博斗蛐蛐。

回复

使用道具 举报

发表于 2026-5-27 12:56 | 显示全部楼层
可能差异是,
手机不买回来没法评测,
大模型我随时可以自己试。    Re:Source
回复

使用道具 举报

     
发表于 2026-5-27 12:56 | 显示全部楼层
意义没那么大,各种benchmark太多了,真想了解的人,看这些足够了
回复

使用道具 举报

     
发表于 2026-5-27 13:01 | 显示全部楼层
我和你的看法相反,从GPT3刚出来出来最有前途,到后面越来越没前途
回复

使用道具 举报

     
发表于 2026-5-27 13:04 来自手机 | 显示全部楼层
本帖最后由 羊寢 于 2026-5-27 13:08 编辑

早就有了啊,国内外几个模型每次更新都有一堆评测(不过好像不会在标题上打评测就是,一般是解析解读之类)
哦我懂了,你说的是自己制定一套量化指标然后看模型能跑多少分?那不就是现在benchmark干的事吗……而且还因此让一些模型有了刷题蛆的名称
回复

使用道具 举报

     
发表于 2026-5-27 13:06 来自手机 | 显示全部楼层
专业的benchmark现在天天都有新的,而且测试没什么看点,除非是整活的
回复

使用道具 举报

     
 楼主| 发表于 2026-5-27 13:08 | 显示全部楼层
羊寢 发表于 2026-5-27 13:04
早就有了啊,国内外几个模型每次更新都有一堆评测(不过好像不会在标题上打评测就是,一般是解析解读之类) ...

怎么说呢,纯性能测试的我也有看到,但是像手机测评那种具有娱乐性的我真没怎么看到。

很难表述,目前测评更像学术研究,而不是大众消费品推荐(虽然也不够大众消费品)
欠缺娱乐性。
回复

使用道具 举报

     
发表于 2026-5-27 13:10 来自手机 | 显示全部楼层
小修 发表于 2026-5-27 13:08
怎么说呢,纯性能测试的我也有看到,但是像手机测评那种具有娱乐性的我真没怎么看到。

很难表述,目前测 ...

那我只能想到某脑老哥们的刘备测试了这也没法发出来啊
回复

使用道具 举报

发表于 2026-5-27 13:11 | 显示全部楼层


这个有前途嘛?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2026-5-27 13:11 来自手机 | 显示全部楼层
本帖最后由 aimbot 于 2026-5-27 13:13 编辑

你是不是在找模型竞技场
https://arena.ai/

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2026-5-27 13:13 | 显示全部楼层
不像手机买了之后有沉没成本,没那么多人看吧
之前不也有一堆一句话生成网站的测评么,不过现在各家模型能力都跨过这个坎之后,就没人在意这些了
回复

使用道具 举报

     
发表于 2026-5-27 13:13 来自手机 | 显示全部楼层
aimbot 发表于 2026-5-27 13:11
你是不是在找模型竞技场
https://arena.ai/

jjc对楼主的要求来说可能还是偏专业化了
回复

使用道具 举报

     
 楼主| 发表于 2026-5-27 13:13 | 显示全部楼层
本帖最后由 小修 于 2026-5-27 13:15 编辑
羊寢 发表于 2026-5-27 13:10
那我只能想到某脑老哥们的刘备测试了这也没法发出来啊

其实能整的很多,

比如续写一章红楼梦,魔改金庸经典剧情。搞搞网文,或者流行的电影电视剧ai生成。
逻辑测试改成挑战小学几年级试卷啥的。

把专业的无娱乐化效果的benchmark变成大众能懂能有参与感的评测。

做得好的手机评测,肯定是整活向而不是学术向啊。
回复

使用道具 举报

     
发表于 2026-5-27 13:15 来自手机 | 显示全部楼层
这东西智力本来就是薛定谔的 随时会降智。
回复

使用道具 举报

     
 楼主| 发表于 2026-5-27 13:17 | 显示全部楼层
aimbot 发表于 2026-5-27 13:11
你是不是在找模型竞技场
https://arena.ai/

不缺专业的评测,缺的是娱乐化大众化的评测。

之前ai还是少数人使用,现在我妈偶尔都用豆包了,总得搞点普通人看的吧。
回复

使用道具 举报

     
 楼主| 发表于 2026-5-27 13:18 | 显示全部楼层

这个就很对味。

比不出谁最强,比谁最菜不也一样。我就爱看菜的。
回复

使用道具 举报

     
发表于 2026-5-27 13:18 来自手机 | 显示全部楼层
没啥卵子用,像gemini这种评测没输过用起来淌口水没停过的你咋算?
何况LLM AI这玩意说不准什么时候就给你降智

—— 来自 HUAWEI SGU-AL10, Android 12, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-5-27 13:21 | 显示全部楼层
商家会在产品上线后自行缩水,还有搞跑分特化训练的,各家也在相互蒸馏对方的模型,现在已经很有趋同进化那感觉了,以及不断产生的过拟合产物正在扩散污染
回复

使用道具 举报

     
发表于 2026-5-27 13:23 | 显示全部楼层
有前途,模型厂商也会给你单独的内测资格和媒体费用

有点类似于手机自媒体、汽车自媒体那种

至于是不是特化版,当然是懂得都懂
回复

使用道具 举报

     
 楼主| 发表于 2026-5-27 13:25 | 显示全部楼层
本帖最后由 小修 于 2026-5-27 13:29 编辑
UnknownRei 发表于 2026-5-27 13:21
商家会在产品上线后自行缩水,还有搞跑分特化训练的,各家也在相互蒸馏对方的模型,现在已经很有趋同进化那 ...

这确实趋同确实已经开始了。

但是,谁叫大众入场时间晚呢?之前更特点鲜明的时候,离大众太远流量不够啊。还是科普阶段。比起评测需要介绍一堆概念。

现在大众关注度够了,也偶尔用得上能理解了。产品终究还是有不同(至少劣化进度不同)
回复

使用道具 举报

     
发表于 2026-5-27 13:27 来自手机 | 显示全部楼层
我是和楼上一个观点,ai(尤其是国模)沉没成本很低,很难驱动这种评测诞生,你想看大家骂菜的模型也有,国外御三家的狗可爱踩国内模型了,ds每次大更基本都会被他们拉踩,但那种视频观众也确实很少
主要还是沉没成本低的原因,好不好自己用用就知道了,如果梁圣不把价格打下来,大家都按外模来定价那确实会有那种娱乐测评的空间
回复

使用道具 举报

     
发表于 2026-5-27 18:11 来自手机 | 显示全部楼层
小修 发表于 2026-5-27 13:25
这确实趋同确实已经开始了。

但是,谁叫大众入场时间晚呢?之前更特点鲜明的时候,离大众太远流量不够啊 ...

对大众来说,了解LLM的基本原理,至少知道LLM会有幻觉,比了解哪个模型好用重要多了
一般日常使用说实话没啥区别,我总骂gemini淌口水但日常我就用这个

—— 来自 HUAWEI SGU-AL10, Android 12, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-5-27 18:14 来自手机 | 显示全部楼层
你得自建题库才行,不能太难,也不能太简单,要保证测出来结果符合认知,可解释性强。

还要跟着模型发布不断更新题库,也不是个轻松活好吧。

—— 来自 Xiaomi 2410DPN6CC, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-5-27 18:16 来自手机 | 显示全部楼层
至于前途,llm公司会掏钱买高质量的测试用例,抖音上也有模型coding对决比赛,每集稳定1000+赞

—— 来自 Xiaomi 2410DPN6CC, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

     
 楼主| 发表于 2026-5-27 18:19 | 显示全部楼层
oswald 发表于 2026-5-27 18:14
你得自建题库才行,不能太难,也不能太简单,要保证测出来结果符合认知,可解释性强。

还要跟着模型发布不 ...

感觉比手机测评能整的花活多一些,成本也低。
回复

使用道具 举报

     
发表于 2026-5-27 18:24 | 显示全部楼层
我看过一个各个ai玩谁是卧底,每局投出去一个ai
还有几个ai每人分一台电脑互相攻防,找对方的漏洞

不太具备实用价值,但是看看斗蛐蛐还是有趣的
回复

使用道具 举报

     
 楼主| 发表于 2026-5-27 18:25 | 显示全部楼层
sese199 发表于 2026-5-27 18:24
我看过一个各个ai玩谁是卧底,每局投出去一个ai
还有几个ai每人分一台电脑互相攻防,找对方的漏洞

我看了ai卧底真人的视频。也挺有趣。

本质也可以看成ai能力对比。
回复

使用道具 举报

     
发表于 2026-5-27 18:28 | 显示全部楼层
我想到了千年很火的弱智吧问题问ai
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2026-6-24 15:50 , Processed in 0.064293 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表