感觉大模型评测视频会很有前途

小修 · 发表于 2026-5-27 12:52

本帖最后由小修于 2026-5-27 12:58 编辑

突然觉得现在的ai各大厂商不断推陈出新，跟当年智能手机各大厂商发布新品感觉有点像。

而且不像现在智能手机大家都做不出差异，一潭死水。
可以量化评测数据很多，各家推出产品足够多，且有明显亮点。

什么上下文，文风测试，代码能力，逻辑能力，多模态。都可以量化，还可以搞个ai的安兔兔跑分。
主播也可以春秋笔法拉踩模型恰饭。

厂商有财力，观众有意愿，题材也不难做出差异，这么好的赛道看不到人入场，有点奇怪。

我真的很喜欢看类似智能手机评测的赛博斗蛐蛐。

fat · 发表于 2026-5-27 12:56

可能差异是，
手机不买回来没法评测，
大模型我随时可以自己试。 Re:Source

drodchang · 发表于 2026-5-27 12:56

意义没那么大，各种benchmark太多了，真想了解的人，看这些足够了

simonroam · 发表于 2026-5-27 13:01

我和你的看法相反，从GPT3刚出来出来最有前途，到后面越来越没前途

羊寢 · 发表于 2026-5-27 13:04

本帖最后由羊寢于 2026-5-27 13:08 编辑

早就有了啊，国内外几个模型每次更新都有一堆评测(不过好像不会在标题上打评测就是，一般是解析解读之类)
哦我懂了，你说的是自己制定一套量化指标然后看模型能跑多少分？那不就是现在benchmark干的事吗……而且还因此让一些模型有了刷题蛆的名称

NeTlk · 发表于 2026-5-27 13:06

专业的benchmark现在天天都有新的，而且测试没什么看点，除非是整活的

小修 · 发表于 2026-5-27 13:08

羊寢发表于 2026-5-27 13:04
早就有了啊，国内外几个模型每次更新都有一堆评测(不过好像不会在标题上打评测就是，一般是解析解读之类) ...

怎么说呢，纯性能测试的我也有看到，但是像手机测评那种具有娱乐性的我真没怎么看到。

很难表述，目前测评更像学术研究，而不是大众消费品推荐（虽然也不够大众消费品）
欠缺娱乐性。

羊寢 · 发表于 2026-5-27 13:10

小修发表于 2026-5-27 13:08
怎么说呢，纯性能测试的我也有看到，但是像手机测评那种具有娱乐性的我真没怎么看到。

很难表述，目前测 ...

那我只能想到某脑老哥们的刘备测试了

这也没法发出来啊

武川日玄 · 发表于 2026-5-27 13:11

这个有前途嘛？

aimbot · 发表于 2026-5-27 13:11

本帖最后由 aimbot 于 2026-5-27 13:13 编辑

你是不是在找模型竞技场
https://arena.ai/

hugosol · 发表于 2026-5-27 13:13

不像手机买了之后有沉没成本，没那么多人看吧
之前不也有一堆一句话生成网站的测评么，不过现在各家模型能力都跨过这个坎之后，就没人在意这些了

羊寢 · 发表于 2026-5-27 13:13

aimbot 发表于 2026-5-27 13:11
你是不是在找模型竞技场
https://arena.ai/

jjc对楼主的要求来说可能还是偏专业化了

小修 · 发表于 2026-5-27 13:13

本帖最后由小修于 2026-5-27 13:15 编辑

羊寢发表于 2026-5-27 13:10
那我只能想到某脑老哥们的刘备测试了这也没法发出来啊

其实能整的很多，

比如续写一章红楼梦，魔改金庸经典剧情。搞搞网文，或者流行的电影电视剧ai生成。
逻辑测试改成挑战小学几年级试卷啥的。

把专业的无娱乐化效果的benchmark变成大众能懂能有参与感的评测。

做得好的手机评测，肯定是整活向而不是学术向啊。

星花 · 发表于 2026-5-27 13:15

这东西智力本来就是薛定谔的随时会降智。

小修 · 发表于 2026-5-27 13:17

aimbot 发表于 2026-5-27 13:11
你是不是在找模型竞技场
https://arena.ai/

不缺专业的评测，缺的是娱乐化大众化的评测。

之前ai还是少数人使用，现在我妈偶尔都用豆包了，总得搞点普通人看的吧。

小修 · 发表于 2026-5-27 13:18

武川日玄发表于 2026-5-27 13:11
这个有前途嘛？

这个就很对味。

比不出谁最强，比谁最菜不也一样。我就爱看菜的。

半江瑟瑟半江红 · 发表于 2026-5-27 13:18

没啥卵子用，像gemini这种评测没输过用起来淌口水没停过的你咋算？
何况LLM AI这玩意说不准什么时候就给你降智

—— 来自 HUAWEI SGU-AL10, Android 12, 鹅球 v3.5.99

UnknownRei · 发表于 2026-5-27 13:21

商家会在产品上线后自行缩水，还有搞跑分特化训练的，各家也在相互蒸馏对方的模型，现在已经很有趋同进化那感觉了，以及不断产生的过拟合产物正在扩散污染

80后卢瑟 · 发表于 2026-5-27 13:23

有前途，模型厂商也会给你单独的内测资格和媒体费用

有点类似于手机自媒体、汽车自媒体那种

至于是不是特化版，当然是懂得都懂

小修 · 发表于 2026-5-27 13:25

本帖最后由小修于 2026-5-27 13:29 编辑

UnknownRei 发表于 2026-5-27 13:21
商家会在产品上线后自行缩水，还有搞跑分特化训练的，各家也在相互蒸馏对方的模型，现在已经很有趋同进化那 ...

这确实趋同确实已经开始了。

但是，谁叫大众入场时间晚呢？之前更特点鲜明的时候，离大众太远流量不够啊。还是科普阶段。比起评测需要介绍一堆概念。

现在大众关注度够了，也偶尔用得上能理解了。产品终究还是有不同（至少劣化进度不同）

羊寢 · 发表于 2026-5-27 13:27

我是和楼上一个观点，ai(尤其是国模)沉没成本很低，很难驱动这种评测诞生，你想看大家骂菜的模型也有，国外御三家的狗可爱踩国内模型了，ds每次大更基本都会被他们拉踩，但那种视频观众也确实很少
主要还是沉没成本低的原因，好不好自己用用就知道了，如果梁圣不把价格打下来，大家都按外模来定价那确实会有那种娱乐测评的空间

半江瑟瑟半江红 · 发表于 2026-5-27 18:11

小修发表于 2026-5-27 13:25
这确实趋同确实已经开始了。

但是，谁叫大众入场时间晚呢？之前更特点鲜明的时候，离大众太远流量不够啊 ...

对大众来说，了解LLM的基本原理，至少知道LLM会有幻觉，比了解哪个模型好用重要多了
一般日常使用说实话没啥区别，我总骂gemini淌口水但日常我就用这个

—— 来自 HUAWEI SGU-AL10, Android 12, 鹅球 v3.5.99

oswald · 发表于 2026-5-27 18:14

你得自建题库才行，不能太难，也不能太简单，要保证测出来结果符合认知，可解释性强。

还要跟着模型发布不断更新题库，也不是个轻松活好吧。

—— 来自 Xiaomi 2410DPN6CC, Android 16, 鹅球 v3.5.99

oswald · 发表于 2026-5-27 18:16

至于前途，llm公司会掏钱买高质量的测试用例，抖音上也有模型coding对决比赛，每集稳定1000+赞

—— 来自 Xiaomi 2410DPN6CC, Android 16, 鹅球 v3.5.99

小修 · 发表于 2026-5-27 18:19

oswald 发表于 2026-5-27 18:14
你得自建题库才行，不能太难，也不能太简单，要保证测出来结果符合认知，可解释性强。

还要跟着模型发布不 ...

感觉比手机测评能整的花活多一些，成本也低。

sese199 · 发表于 2026-5-27 18:24

我看过一个各个ai玩谁是卧底，每局投出去一个ai
还有几个ai每人分一台电脑互相攻防，找对方的漏洞

不太具备实用价值，但是看看斗蛐蛐还是有趣的

小修 · 发表于 2026-5-27 18:25

sese199 发表于 2026-5-27 18:24
我看过一个各个ai玩谁是卧底，每局投出去一个ai
还有几个ai每人分一台电脑互相攻防，找对方的漏洞

我看了ai卧底真人的视频。也挺有趣。

本质也可以看成ai能力对比。

cloudinsky · 发表于 2026-5-27 18:28

我想到了千年很火的弱智吧问题问ai

		自动登录	找回密码
密码			立即注册

[科技] 感觉大模型评测视频会很有前途

本帖子中包含更多资源

本帖子中包含更多资源