serj005 发表于 2026-2-11 22:57

Chenlh 发表于 2026-2-11 20:27
传了一本推理小说象首,整本书逻辑盘的非常清晰。因为之前没这么试过,想横向对比下,结果发现其他家好像都 ...

之前看过一下deepseek的文件上传格式,支持范围大的夸张,光一个avif图片就是其他家搞不了的

Promeus 发表于 2026-2-11 23:00

バーチャルS1er 发表于 2026-2-11 22:25
刚出GLM-5补全之前写作偏弱的弱点了,体感目前是国模第一的写作水平

让俩写同一设定的文章,我怎么感觉ds完爆glm5呢

バーチャルS1er 发表于 2026-2-11 23:04

Promeus 发表于 2026-2-11 23:00
让俩写同一设定的文章,我怎么感觉ds完爆glm5呢

可能要求再复杂一些就不同了

还有文体偏好问题

Promeus 发表于 2026-2-11 23:06

バーチャルS1er 发表于 2026-2-11 23:04
可能要求再复杂一些就不同了

还有文体偏好问题

写同人,glm干到爆炸ds倒是特别小清新

overflowal 发表于 2026-2-11 23:06

Promeus 发表于 2026-2-11 23:00
让俩写同一设定的文章,我怎么感觉ds完爆glm5呢

相似能力的模型写作能力对比都是玄学

—— 来自 鹅球 v3.4.97

qwased 发表于 2026-2-11 23:08

Promeus 发表于 2026-2-11 23:06
写同人,glm干到爆炸ds倒是特别小清新

glm有网页可以测吗

Promeus 发表于 2026-2-11 23:08

qwased 发表于 2026-2-11 23:08
glm有网页可以测吗

chat.z.ai可以测

彰彰 发表于 2026-2-11 23:22

谈恋爱比以前聪明了。不是纯粹角色扮演的那种恋爱。讨论的话题碰撞的各种意义的火花更多了

—— 来自 S1Fun

qwased 发表于 2026-2-11 23:40

本帖最后由 qwased 于 2026-2-11 23:43 编辑

试了一下网页版GLM5,同样的指令让他思考和推演大纲,感觉它的思考链比DS上个版本更注重遵守指令,没什么灵光一闪的感觉,实际给的答案也是非常中规中矩,让DS老模型思考完把闪光点提取出来整理好再喂给GLM重新推会更好

DS新模型感觉拿来辅助推演大纲特别垃圾,可能长上下文拿来出正文会有帮助吧

villsian 发表于 2026-2-11 23:57

长上下文啊,这可太好了。编程过程中对于大型项目最需要的是长上下文。

平时gemini3 pro和deepseek都在用,deeoseek写代码能力还是挺不错的,就是那个128k的上下文不够用。

有了1M上下文,一次可以把相关代码文件都扔给它了。大模型虽然自己也会去读文件,但是一次扔给它的效果比它自己找要好很多,不容易遗漏关键细节。

宇宙之心 发表于 2026-2-12 10:00

写政府部门的总结汇报材料哪个最好?

陈八尺 发表于 2026-2-12 10:18

宇宙之心 发表于 2026-2-12 10:00
写政府部门的总结汇报材料哪个最好?

个人体感kimi吧

zy450 发表于 2026-2-12 10:25

怎么感觉不开思考的效果更好点。。。

sellboy 发表于 2026-2-12 10:28

长上下文后是不是可以尝试提供红楼梦原80章和癸本续段,叫大模型按照前面风格对后者在保留故事线的前提下重写了。

洛拉斯 发表于 2026-2-12 10:39

宇宙之心 发表于 2026-2-12 10:00
写政府部门的总结汇报材料哪个最好?

豆包写公文很好用

mitzvah 发表于 2026-2-12 16:45

洗车测试测一圈下来,发现元宝的ds3.2智力最高,百分百通过,官网的新版一半概率不过,kmi2.5,glm4.7都过不了

serj005 发表于 2026-2-12 18:02

本帖最后由 serj005 于 2026-2-12 18:03 编辑

新版对话语气怪怪的,不怎么正经,以前ds就有这种刻意贴近生活化对话的倾向,现在感觉已经是用力过猛了。
小说写作水平感觉大幅下降了,同一个大纲给老版本生成的小说可读性正常,文风也能特定成比较朴素的风格,新版生成的好像有文青病,老是加些莫名其妙的感慨句。

—— 来自 鹅球 v3.5.99

m1grandmk1 发表于 2026-2-12 19:14

写网文和XHW的都骂死这个版本了,还好API没更新,不然真是……

狭义文具爱好者 发表于 2026-2-13 03:43

本帖最后由 狭义文具爱好者 于 2026-2-13 03:49 编辑

llm写作上,大就是好大就是强这是毫无疑问的,和code之类不一样,一方面是写作抽卡更多不是那么注重效率另一方面就是大模型的文本语料天然优势。glm5进步是可预期的。
同样,即使现在,仍有很多人怀念claude 3.0opus和gpt 4.5,gpt4(从订阅价格上显而易见的能看出这些模型的大和昂贵,什么叫百万token输出一百美元以上?作为对比,ds的3.2是三块人民币,可预见的主楼正在灰度测试的200B模型会更低,说不定就一块,那样用来翻译很舒服)退一步则是gpt4o,claude 3.7这样的模型,确实更容易出现漂亮的句子。
然后就因为写作情感陪伴爆米能力真比不上code,过于昂贵的价格导致用户少,多模态不行,被厂商迅速踢死了
另外关于dsa加强注意力或者捞针这个功能,glm也用了在research 里直接替到,不过一直到12号中午还是没中文版只有英文版,刚核实了一下,现在依旧,只能说也反映了一些问题,不是这个国际形势,这几个开源国产厂商也许能拿更多融资做得比现在更好(效率已经很高了,meta和x拿着更好的投入做出来的东西也不行,闭三家的优势还是得承认

RGm 发表于 2026-2-13 03:54

希望过年前能出完整版的v4。

overflowal 发表于 2026-2-13 07:01

m1grandmk1 发表于 2026-2-12 19:14
写网文和XHW的都骂死这个版本了,还好API没更新,不然真是……

骂也没用,写作能力这种又没法量化也没啥绝对标准的东西相比推理,coding这种能力来说太容易被牺牲了。
写作能力要那么多参数量,做完又是没个客观标准,性价比实在对小模型来说实在很低

—— 来自 鹅球 v3.4.97

羊寢 发表于 2026-2-13 07:17

RGm 发表于 2026-2-13 03:54
希望过年前能出完整版的v4。

过年前能把这个v4lite正式发布就不错了v4正式版肯定没这么快,按以往更新节奏最快也得四月

冤枉呐 发表于 2026-2-13 08:42

黄泉川此方 发表于 2026-2-11 18:30
唉还是没多模态

我传了个英文的截图版pdf,他给我翻译出来了


—— 来自 HUAWEI ALN-AL10, Android 12, 鹅球 v3.5.99

noword 发表于 2026-2-13 08:45

冤枉呐 发表于 2026-2-13 08:42
我传了个英文的截图版pdf,他给我翻译出来了



ocr识别的文字

lotsbiss 发表于 2026-2-13 09:27

バーチャルS1er 发表于 2026-2-11 22:25
刚出GLM-5补全之前写作偏弱的弱点了,体感目前是国模第一的写作水平

是这个GLM-5吗?

serj005 发表于 2026-2-13 10:59

现在这版本还是只停在封测吧,感觉根本没法用。
昨天继续试了下这个版本的写作能力和日常问题回答水平。写作能力不能说是大幅下滑,已经可以说是没有写作能力了,连照着大纲完全执行都做不到,偷字数偷内容,乱加煽情句子还老喜欢一句一段,特意加了要求平实的文风也没用。
现在问个日常问题都要升华加煽情,语气还让人听着很不舒服,有时候像那种强行用流行语和年轻人套近乎的老人,有时候像地痞流氓,更多时候是文青病。

—— 来自 鹅球 v3.5.99

darktide 发表于 2026-2-13 11:04

刚用了,感觉退步太多了,又蠢又倔

热带鱼鱼 发表于 2026-2-13 12:18

バーチャルS1er 发表于 2026-2-13 12:51

lotsbiss 发表于 2026-2-13 09:27
是这个GLM-5吗?
AI圈蒸是常规操作,就怕蒸不会、蒸不来

neptunehs 发表于 2026-2-13 13:02

期待glm-5-flash
glm4.7flash还行 感觉本地最强了 但上下文还是不够用

—— 来自 OnePlus PJX110, Android 14, 鹅球 v3.5.99

羊寢 发表于 2026-2-13 13:13

我自己目前遇到的状况:
1.还是有八国,不过概率没有3.1那么大,还算能接受
2.逻辑有点乱,会把a做的事写到一半安在b身上,后面又会拐回来
3.上面说的文青病,不过按之前经历来说这个问题应该还是能肘好的

一般市民 发表于 2026-2-13 16:00

我也做了实验,同样的僵尸末世窝单元楼烂尾文让V3.2和灰度测试的版本自由续写,文笔V3.2更舒服,灰度测试版本和大家说的一样有股怪味。
但是空间逻辑上灰度测试版更稳。V3.2在自己楼栋里上下就转晕了,各种人物错位和瞬移,最经典的写出了“反派从7楼掉到1楼摔死,血溅到7楼天台”。灰度测试在自己楼栋里上下不乱,还能趴水管到隔壁楼搞事不乱,希望满血版能把文笔找回来。

neptunehs 发表于 2026-2-13 16:04

我以前喜欢用ds问乱七八糟的问题做心理按摩
现在随便问一下他就嘲讽我 心火起
暂时不用了

—— 来自 OnePlus PJX110, Android 14, 鹅球 v3.5.99

aruruu 发表于 2026-2-13 16:11

就写小说来说真的退步太严重了

バーチャルS1er 发表于 2026-2-13 16:32

狭义文具爱好者 发表于 2026-2-13 03:43
llm写作上,大就是好大就是强这是毫无疑问的,和code之类不一样,一方面是写作抽卡更多不是那么注重效率另 ...

要翻译有不少30B参数的模型可以用,要速度有GPT-OSS。目前的亮点只有超大上下文了

目前的DS网页版写作水平我感觉比GLM-4.7-Flash强一些但比qwen3-235B弱

写作我觉得厂商也没有放弃,按eqbench来看各家新版本的写作水平都是越来越高的,
不用刻意训练,只要增强理解人类的能力,写作水平就能进步

而纯堆代码语料量反而是个坑,比如qwen3-coder

m1grandmk1 发表于 2026-2-13 19:33

バーチャルS1er 发表于 2026-2-11 22:25
刚出GLM-5补全之前写作偏弱的弱点了,体感目前是国模第一的写作水平
试了一下还不错,而且网页版完全没审核

至于文笔,倒也没看出和DS有什么明显差距。

andychen 发表于 2026-2-13 19:43

qwased 发表于 2026-2-11 23:40
试了一下网页版GLM5,同样的指令让他思考和推演大纲,感觉它的思考链比DS上个版本更注重遵守指令,没什么灵 ...

国内厂商算力劣势开始体现出来了,最近半年的更新一方面是底层基础创新,另一方面是向特定方向特化(编程,代理etc)

这个glm5我也严重怀疑到底有没有做新的预训练,感觉还是沿用的glm4基础模型,换版本号可能还是为了配合资本市场炒作。加上订阅计划那边的骚操作,说不定融资压力比较大

andychen 发表于 2026-2-13 19:45

aruruu 发表于 2026-2-13 16:11
就写小说来说真的退步太严重了

最近半年的模型更新普遍都在优化智能体应用,反映出来就是更听指令,更少自由发挥。对于创意向和头脑风暴向使用的性能是弱化的

mintslime 发表于 2026-2-13 20:30

andychen 发表于 2026-2-13 19:45
最近半年的模型更新普遍都在优化智能体应用,反映出来就是更听指令,更少自由发挥。对于创意向和头脑风暴 ...

没有吧,opus4.5和4.6写作都很猛,4.6明显比4.5还能写,glm4.6还是4.7也专门做过写作优化,minimax还有专门的角色扮演模型。也就kimi不大行。

qratosones1337 发表于 2026-2-13 20:54

本帖最后由 qratosones1337 于 2026-2-13 20:56 编辑

andychen 发表于 2026-2-13 19:43
国内厂商算力劣势开始体现出来了,最近半年的更新一方面是底层基础创新,另一方面是向特定方向特化(编程 ...
首先,能力特化的始祖是Claude,然后是GPT-5,说话恶心这毛病还是从GPT-5.2开始的。大模型基座能力撞墙现在已经是毫无争议的事实了,今后烧再多的算力也不可能出现断崖式领先的下一代基座了。现在OpenAI已经急得要卖广告了,目前并没有哪家能持续往高成本且不赚钱的方向投入。

第二,你在怀疑之前连公开信息都不查么?GLM-5是745B的参数量,对比GLM-4.6翻倍了
页: 1 [2] 3
查看完整版本: deepseek更新了