找回密码
 立即注册
搜索
查看: 2882|回复: 18

[软件] 记录一下自己折腾本地LLM的过程:5090+双PRO4000纯Blackwell架构

[复制链接]
     
发表于 2026-3-17 22:08 | 显示全部楼层 |阅读模式
本帖最后由 王牛子 于 2026-3-17 23:18 编辑

前段时间我在论坛里发了个AEH的项目,收获了大家的好评,真的非常感谢大家,目前项目还有在继续开发,只是因为人在日本,一些EH相关的功能比如浏览和下载代理没办法放出来,只能转私有仓库偷偷开发,有新功能会看情况合并。在项目的幕后我其实也一直在搞本地LLM部署的学习和探索。
之前我的配置比较野鸡,用的5090(32G)+3060(12G)+5060(8G),除了一张主卡剩下的那基本就是凑数的,就这么硬凑了52G显存出来,第一次够到了70-80B模型Q4的门槛。
在那之后我一直觉得52G加上这个不匹配的代差其实挺尴尬的,所以就下了点血本入了两张RTX Pro 4000 Blackwell(24G),干脆统一成Blackwell架构得了,顺便测试一下网上的破解P2P驱动是否有效。
目前的硬件环境如下:
CPU: Threadripper 7970X
内存: 128GB 4通道 DDR5 ECC
GPU 阵列: RTX 5090 (32GB) 运行在PCIe 5.0 x16带宽+ 两张 RTX PRO 4000 (24GB x 2)一张5.0 x16,一张4.0 x16,因为技嘉主板的通道划分不是很合理导致第二张卡只有4.0.之后可能会换一张主板解决这个问题

在运行跑分之前我使用simpleP2P对卡间P2P通信进行了确认,两张 PRO 4000 之间拉起了 26.17 GB/s 的 DMA 物理直连,符合PCIe 4.0 x16的理论带宽(5090和Pro4000核心不同,拉不起P2P是正常的)

  1. cudaMemcpyPeer / cudaMemcpy between GPU1 and GPU2: 25.98GB/s
复制代码


然后我使用了以下命令运行llama-bench进行跑分,分别测试了layer(层切分)和ik_llama提供的graph(图切分):
  1. ./build/bin/llama-bench -m /home/jbking/llama.cpp/models/Qwen3-Next-80B-A3B-Instruct-IQ4_XS.gguf -ngl 999 -p 512 -n 128 -fa 1 --spilt-mode graph or layer
  2. ./build/bin/llama-bench -m /home/jbking/llama.cpp/models/Qwen3-VL-32B-Instruct-abliterated-v1.Q4_K_M.gguf -ngl 999 -p 512 -n 128 -fa 1 --spilt-mode graph or layer
  3. ./build/bin/llama-bench -m /home/jbking/llama.cpp/models/Huihui-Qwen3-VL-8B-Instruct-abliterated-Q4_K_M.gguf -ngl 999 -p 512 -n 128 -fa 1 --spilt-mode graph or layer
复制代码


结果如下:
推理(生成)


预填充


从结果上看如果用层切分,那是否P2P驱动区别并不大,我认为原因在数据流瓶颈,之前用常规的层切分,数据流是 5090 -> [极慢的系统内存/CPU路由] -> 第一张PRO4000 -> [极快的P2P] -> 第二张PRO4000。因为第一步过内存太慢,导致我两张 Pro 4000 之间 26GB/s 的 P2P 物理直连纯纯是在看戏,80B MoE 的解码速度卡死在 85 t/s。换上 ik_llama 的图切分后,调度逻辑被彻底改变。80B MoE 的解码速度直接原地起飞,从 85 t/s 暴涨到了 165.15 t/s。

顺便最近趁着毕业季还6500收了个本地同学的M1 Max 32核GPU 64G内存做了测试,感觉面对MoE模型这东西性价比爆棚了,出道即巅峰,根本没必要去追后续的芯片,400GB/s的UMA带宽完全够吃的,现在放在家里做服务器了。

总结一下,个人感觉如果不是专门跑大模型,单纯想像我一样弄个“正常”的电脑而不是挂满一堆显卡的推理机(平时我还是会进windows用5090打游戏,不影响),那我认为大显存主卡 + 若干副卡 + 图切分(Graph Split) 是目前性价比和性能平衡得最完美的玩法。



老哥们如果有想测的特定 GGUF 模型,或者想看不同 chunk size 下的表现,可以在楼下回复,有空的话跑一下

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评分

参与人数 1战斗力 +1 收起 理由
darkangel0224 + 1 有点意思

查看全部评分

回复

使用道具 举报

发表于 2026-3-17 22:40 来自手机 | 显示全部楼层
试试仅用4000双卡呢?
感觉-ngl参数也可以不填,让它自动看看

—— 来自 Xiaomi 22041211AC, Android 12, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-3-18 00:32 | 显示全部楼层
楼主那台 m1max+64g 跑模型怎么样?我最近有这个想法,不过6500这个价32g 成色好的都不止了.....

论坛助手,iPhone
回复

使用道具 举报

     
 楼主| 发表于 2026-3-18 08:53 | 显示全部楼层
这次是十块钱 发表于 2026-3-18 01:32
楼主那台 m1max+64g 跑模型怎么样?我最近有这个想法,不过6500这个价32g 成色好的都不止了.....

论坛助手 ...

稠密模型32B就10t/s,跑点不追求速度的后台应用还行。这东西只能用来跑MoE,性价比极高,比如我图里的qwen3-next-80B-A3B,IQ4量化差不多40G,64G正好能跑,或者qwen3.5 35B-A3B都很不错,不过别买M2,M3什么的,性能提升对不起售价,M1Max首发的400G/s UMA带宽已经是巅峰了,除非你想等M5 Max的Studio不然我不推荐你去买更好的,具体跑分你可以参考这个链接:
https://github.com/ggml-org/llama.cpp/discussions/4167
关于价格其实单纯是因为我们这学生毕业季,有人跨国不想带那么多行李又急着清东西所以有很多漏子可以捡。

评分

参与人数 1战斗力 +1 收起 理由
这次是十块钱 + 1 非常有用!感谢!

查看全部评分

回复

使用道具 举报

     
发表于 2026-3-18 09:09 | 显示全部楼层
好硬核~~
回复

使用道具 举报

     
发表于 2026-3-18 11:03 | 显示全部楼层
请教一下大佬,用的5090(32G)+3060(12G)+5060(8G)这个大概是咋用的,现在llm可以直接用多张显卡显存了么,需要啥软件设置吗
回复

使用道具 举报

     
 楼主| 发表于 2026-3-18 12:07 | 显示全部楼层
luodang007 发表于 2026-3-18 12:03
请教一下大佬,用的5090(32G)+3060(12G)+5060(8G)这个大概是咋用的,现在llm可以直接用多张显卡显存 ...

最简单的就用lm studio,他会自动均衡多张显卡的显存负载但是效率很低。如果你想发挥多卡的最大潜力那就得手动控制llama.cpp的加载参数,特别是切分类型,就像我主楼里的结果,不同的切分比如layer和graph对异构系统的推理速度有很大影响。当然这一切的前提是你显卡都是直连CPU的,没有足够的PCIe通道那多卡就是天方夜谭
回复

使用道具 举报

     
发表于 2026-3-18 13:07 | 显示全部楼层
本帖最后由 luodang007 于 2026-3-18 14:13 编辑
王牛子 发表于 2026-3-18 12:07
最简单的就用lm studio,他会自动均衡多张显卡的显存负载但是效率很低。如果你想发挥多卡的最大潜力那就 ...

好的,谢谢讲解,看了下家里主板不支持,几年后换电脑得考虑能买多块显卡的了,现在只能4080凑合着用了
回复

使用道具 举报

发表于 2026-3-18 15:15 | 显示全部楼层
这次是十块钱 发表于 2026-3-18 00:32
楼主那台 m1max+64g 跑模型怎么样?我最近有这个想法,不过6500这个价32g 成色好的都不止了.....

论坛助手 ...

要买就买m5,加矩阵加速单元prefill性能暴增

64gb可以跑35a3b
回复

使用道具 举报

     
发表于 2026-3-18 18:57 | 显示全部楼层
能有一张5090我就觉得很了不起了,因为我是穷逼我买不起(其实心理价位25000,高了真买不起)
回复

使用道具 举报

     
发表于 2026-3-18 19:15 | 显示全部楼层
都折腾本地LLM了,这不弄一批数据来训练下?
回复

使用道具 举报

     
发表于 2026-3-18 19:18 | 显示全部楼层
如果想要个本地模型整理硬盘里的色图和小视频,应该买什么机器搭配什么模型 ?
回复

使用道具 举报

     
发表于 2026-3-19 13:14 来自手机 | 显示全部楼层
跑量化是需要fp4吗?5090d相较5090就是被刀在这儿了?

—— 来自 OnePlus PJZ110, Android 16, 鹅球 v3.5.99
回复

使用道具 举报

发表于 2026-3-20 12:04 来自手机 | 显示全部楼层
勿徊哉 发表于 2026-3-18 19:18
如果想要个本地模型整理硬盘里的色图和小视频,应该买什么机器搭配什么模型 ? ...

同问,我也有这个需求
回复

使用道具 举报

     
 楼主| 发表于 2026-3-20 14:05 | 显示全部楼层
勿徊哉 发表于 2026-3-18 20:18
如果想要个本地模型整理硬盘里的色图和小视频,应该买什么机器搭配什么模型 ? ...

对于分类/打标类的任务,4-8B的VL模型完全足够,甚至性能过剩了。或者选择效率更高的WD14 Tagger (Waifu Diffusion 14 Tagger) 或者 DeepDanbooru 这种专门针对二次元/NSFW 训练的视觉模型。它们天生就是对着标准 Tag 表输出概率权重的,打标的准确率、推理速度和资源消耗都要优秀得多,更不需要费劲去调 Temperature=0 来压制模型的幻觉。
真正困难的是你如何构造自己的分类流水线,你需要一套成熟的Tag体系不然模型没办法匹配和分类。大概流程应该长这样:
图片流: 遍历本地目录 ->送入模型推理 ->解析输出的 Tag -> 将元数据写入图片的 EXIF/XMP 数据,或者存入本地 SQLite 数据库,或者直接按文件夹分类
视频流类似的逻辑,但还需要写个脚本调FFmpeg 按关键帧或固定时间间隔抽帧,抽完喂给模型再打标

所以整套流程根本不需要任何高端硬件,4B,8B的VL模型或者是yolo之类的视觉模型,随便来一张独显,甚至CPU都能跑

评分

参与人数 1战斗力 +2 收起 理由
勿徊哉 + 2 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2026-3-21 18:48 | 显示全部楼层
王牛子 发表于 2026-3-20 14:05
对于分类/打标类的任务,4-8B的VL模型完全足够,甚至性能过剩了。或者选择效率更高的WD14 Tagger (Waifu  ...

所以还是要打tag通过tag来管理吗?
我还想着有了多模态模型后就不用打tag了,例如直接把我的精选色图 作为上下文输入模型,让模型判断一张新图片是否复合我xp
回复

使用道具 举报

     
 楼主| 发表于 2026-3-21 19:15 | 显示全部楼层
勿徊哉 发表于 2026-3-21 19:48
所以还是要打tag通过tag来管理吗?
我还想着有了多模态模型后就不用打tag了,例如直接把我的精选色图 作 ...

你的思路大方向是对的,但大模型并不是什么妙妙工具。
在实际工程落地时,图片极其占用上下文 Token。如果你每次鉴别新图,都要把几十张‘精选 XP’塞进去让模型现看,不仅显存会瞬间爆掉,推理速度也会慢到让你怀疑人生,这在工程上根本跑不通。
其实你这个需求,完全不需要大模型实时动脑子,真正的解法是向量数据库 + 余弦相似度。
你可以这么理解:你的所谓‘XP’,在数学上并不是一种感觉,而是高维空间里的一个‘坐标中心点’ 。这个点的坐标,是由你过往收藏图片的 Tag(文本特征)和画面张力(视觉特征)共同算出来的。

当我们有了你 XP 的坐标后,剩下的事情就极其简单粗暴了:新图进来,提取特征变成一个新的坐标点,然后让向量数据库去计算这个新点和你 XP 中心点的‘空间距离’(也就是计算向量夹角)。距离越近,说明越符合你的 XP 。
这个比对过程纯粹是底层的数学计算,不需要任何‘理解’,几微秒就能在本地算完出结果。
所以在整个这套系统里,大语言模型和视觉模型(比如 SigLIP)根本不是什么‘魔法大脑’,它们唯一的价值就是充当不知疲倦的打标员——专门负责把那些没有元数据的媒体转换成特征向量和 Tag。一旦打标完成,剩下的检索和推荐,全是传统数据库和向量检索的活儿,大模型就可以直接下班了。因此根本就不需要什么特别大规模的模型,8B配合一个完善的词表就已经非常够用了。

评分

参与人数 1战斗力 +2 收起 理由
勿徊哉 + 2 感谢!

查看全部评分

回复

使用道具 举报

     
发表于 2026-3-21 20:27 | 显示全部楼层
国内的那堆魔改4080s 32G干这个会比pro4000性价比更高嘛?
回复

使用道具 举报

     
 楼主| 发表于 2026-3-21 23:17 | 显示全部楼层
LOLITA 发表于 2026-3-21 21:27
国内的那堆魔改4080s 32G干这个会比pro4000性价比更高嘛?

考虑过,但怕魔改卡混插驱动不兼容所以没买。再加上机箱也没空间了,电源余量也不多,想了想还是pro4000最好。单论性价比我觉得4080s应该更好,前提是专门组AI机,但感觉都专门组机器了不如直接买4090 48G,4080s 32G定位有点尴尬
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2026-5-8 16:05 , Processed in 0.089499 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表