记录一下自己折腾本地LLM的过程：5090+双PRO4000纯Blackwell架构

王牛子 · 发表于 2026-3-17 22:08

本帖最后由王牛子于 2026-3-17 23:18 编辑

前段时间我在论坛里发了个AEH的项目，收获了大家的好评，真的非常感谢大家，目前项目还有在继续开发，只是因为人在日本，一些EH相关的功能比如浏览和下载代理没办法放出来，只能转私有仓库偷偷开发，有新功能会看情况合并

。在项目的幕后我其实也一直在搞本地LLM部署的学习和探索。
之前我的配置比较野鸡，用的5090（32G）+3060（12G）+5060（8G），除了一张主卡剩下的那基本就是凑数的，就这么硬凑了52G显存出来，第一次够到了70-80B模型Q4的门槛。
在那之后我一直觉得52G加上这个不匹配的代差其实挺尴尬的，所以就下了点血本入了两张RTX Pro 4000 Blackwell（24G），干脆统一成Blackwell架构得了，顺便测试一下网上的破解P2P驱动是否有效。
目前的硬件环境如下：
CPU: Threadripper 7970X
内存: 128GB 4通道 DDR5 ECC
GPU 阵列: RTX 5090 (32GB) 运行在PCIe 5.0 x16带宽+ 两张 RTX PRO 4000 (24GB x 2)一张5.0 x16，一张4.0 x16，因为技嘉主板的通道划分不是很合理导致第二张卡只有4.0.之后可能会换一张主板解决这个问题

在运行跑分之前我使用simpleP2P对卡间P2P通信进行了确认，两张 PRO 4000 之间拉起了 26.17 GB/s 的 DMA 物理直连，符合PCIe 4.0 x16的理论带宽（5090和Pro4000核心不同，拉不起P2P是正常的）

cudaMemcpyPeer / cudaMemcpy between GPU1 and GPU2: 25.98GB/s

复制代码

然后我使用了以下命令运行llama-bench进行跑分，分别测试了layer（层切分）和ik_llama提供的graph（图切分）：

./build/bin/llama-bench -m /home/jbking/llama.cpp/models/Qwen3-Next-80B-A3B-Instruct-IQ4_XS.gguf -ngl 999 -p 512 -n 128 -fa 1 --spilt-mode graph or layer
./build/bin/llama-bench -m /home/jbking/llama.cpp/models/Qwen3-VL-32B-Instruct-abliterated-v1.Q4_K_M.gguf -ngl 999 -p 512 -n 128 -fa 1 --spilt-mode graph or layer
./build/bin/llama-bench -m /home/jbking/llama.cpp/models/Huihui-Qwen3-VL-8B-Instruct-abliterated-Q4_K_M.gguf -ngl 999 -p 512 -n 128 -fa 1 --spilt-mode graph or layer

复制代码

结果如下：
推理（生成）

预填充

从结果上看如果用层切分，那是否P2P驱动区别并不大，我认为原因在数据流瓶颈，之前用常规的层切分，数据流是 5090 -> [极慢的系统内存/CPU路由] -> 第一张PRO4000 -> [极快的P2P] -> 第二张PRO4000。因为第一步过内存太慢，导致我两张 Pro 4000 之间 26GB/s 的 P2P 物理直连纯纯是在看戏，80B MoE 的解码速度卡死在 85 t/s。换上 ik_llama 的图切分后，调度逻辑被彻底改变。80B MoE 的解码速度直接原地起飞，从 85 t/s 暴涨到了 165.15 t/s。

顺便最近趁着毕业季还6500收了个本地同学的M1 Max 32核GPU 64G内存做了测试，感觉面对MoE模型这东西性价比爆棚了，出道即巅峰，根本没必要去追后续的芯片，400GB/s的UMA带宽完全够吃的，现在放在家里做服务器了。

总结一下，个人感觉如果不是专门跑大模型，单纯想像我一样弄个“正常”的电脑而不是挂满一堆显卡的推理机（平时我还是会进windows用5090打游戏，不影响），那我认为大显存主卡 + 若干副卡 + 图切分（Graph Split）是目前性价比和性能平衡得最完美的玩法。

老哥们如果有想测的特定 GGUF 模型，或者想看不同 chunk size 下的表现，可以在楼下回复，有空的话跑一下

noword · 发表于 2026-3-17 22:40

试试仅用4000双卡呢？
感觉-ngl参数也可以不填，让它自动看看

—— 来自 Xiaomi 22041211AC, Android 12, 鹅球 v3.5.99

这次是十块钱 · 发表于 2026-3-18 00:32

楼主那台 m1max+64g 跑模型怎么样？我最近有这个想法，不过6500这个价32g 成色好的都不止了.....

论坛助手,iPhone

王牛子 · 发表于 2026-3-18 08:53

这次是十块钱发表于 2026-3-18 01:32
楼主那台 m1max+64g 跑模型怎么样？我最近有这个想法，不过6500这个价32g 成色好的都不止了.....

论坛助手 ...

稠密模型32B就10t/s，跑点不追求速度的后台应用还行。这东西只能用来跑MoE，性价比极高，比如我图里的qwen3-next-80B-A3B，IQ4量化差不多40G，64G正好能跑，或者qwen3.5 35B-A3B都很不错，不过别买M2,M3什么的，性能提升对不起售价，M1Max首发的400G/s UMA带宽已经是巅峰了，除非你想等M5 Max的Studio不然我不推荐你去买更好的，具体跑分你可以参考这个链接：
https://github.com/ggml-org/llama.cpp/discussions/4167
关于价格其实单纯是因为我们这学生毕业季，有人跨国不想带那么多行李又急着清东西所以有很多漏子可以捡。

natt · 发表于 2026-3-18 09:09

好硬核~~

luodang007 · 发表于 2026-3-18 11:03

请教一下大佬，用的5090（32G）+3060（12G）+5060（8G）这个大概是咋用的，现在llm可以直接用多张显卡显存了么，需要啥软件设置吗

王牛子 · 发表于 2026-3-18 12:07

luodang007 发表于 2026-3-18 12:03
请教一下大佬，用的5090（32G）+3060（12G）+5060（8G）这个大概是咋用的，现在llm可以直接用多张显卡显存 ...

最简单的就用lm studio，他会自动均衡多张显卡的显存负载但是效率很低。如果你想发挥多卡的最大潜力那就得手动控制llama.cpp的加载参数，特别是切分类型，就像我主楼里的结果，不同的切分比如layer和graph对异构系统的推理速度有很大影响。当然这一切的前提是你显卡都是直连CPU的，没有足够的PCIe通道那多卡就是天方夜谭

luodang007 · 发表于 2026-3-18 13:07

本帖最后由 luodang007 于 2026-3-18 14:13 编辑

王牛子发表于 2026-3-18 12:07
最简单的就用lm studio，他会自动均衡多张显卡的显存负载但是效率很低。如果你想发挥多卡的最大潜力那就 ...

好的，谢谢讲解，看了下家里主板不支持，几年后换电脑得考虑能买多块显卡的了

，现在只能4080凑合着用了

mitzvah · 发表于 2026-3-18 15:15

这次是十块钱发表于 2026-3-18 00:32
楼主那台 m1max+64g 跑模型怎么样？我最近有这个想法，不过6500这个价32g 成色好的都不止了.....

论坛助手 ...

要买就买m5，加矩阵加速单元prefill性能暴增

64gb可以跑35a3b

shinjiikari · 发表于 2026-3-18 18:57

能有一张5090我就觉得很了不起了，因为我是穷逼我买不起（其实心理价位25000，高了真买不起）

你说这个谁懂呀? · 发表于 2026-3-18 19:15

都折腾本地LLM了,这不弄一批数据来训练下?

勿徊哉 · 发表于 2026-3-18 19:18

如果想要个本地模型整理硬盘里的色图和小视频，应该买什么机器搭配什么模型？

squallx · 发表于 2026-3-19 13:14

跑量化是需要fp4吗？5090d相较5090就是被刀在这儿了？

—— 来自 OnePlus PJZ110, Android 16, 鹅球 v3.5.99

baicon · 发表于 2026-3-20 12:04

勿徊哉发表于 2026-3-18 19:18
如果想要个本地模型整理硬盘里的色图和小视频，应该买什么机器搭配什么模型？ ...

同问，我也有这个需求

王牛子 · 发表于 2026-3-20 14:05

勿徊哉发表于 2026-3-18 20:18
如果想要个本地模型整理硬盘里的色图和小视频，应该买什么机器搭配什么模型？ ...

对于分类/打标类的任务，4-8B的VL模型完全足够，甚至性能过剩了。或者选择效率更高的WD14 Tagger (Waifu Diffusion 14 Tagger) 或者 DeepDanbooru 这种专门针对二次元/NSFW 训练的视觉模型。它们天生就是对着标准 Tag 表输出概率权重的，打标的准确率、推理速度和资源消耗都要优秀得多，更不需要费劲去调 Temperature=0 来压制模型的幻觉。
真正困难的是你如何构造自己的分类流水线，你需要一套成熟的Tag体系不然模型没办法匹配和分类。大概流程应该长这样：
图片流：遍历本地目录 ->送入模型推理 ->解析输出的 Tag -> 将元数据写入图片的 EXIF/XMP 数据，或者存入本地 SQLite 数据库，或者直接按文件夹分类
视频流类似的逻辑，但还需要写个脚本调FFmpeg 按关键帧或固定时间间隔抽帧，抽完喂给模型再打标

所以整套流程根本不需要任何高端硬件，4B，8B的VL模型或者是yolo之类的视觉模型，随便来一张独显，甚至CPU都能跑

勿徊哉 · 发表于 2026-3-21 18:48

王牛子发表于 2026-3-20 14:05
对于分类/打标类的任务，4-8B的VL模型完全足够，甚至性能过剩了。或者选择效率更高的WD14 Tagger (Waifu ...

所以还是要打tag通过tag来管理吗？
我还想着有了多模态模型后就不用打tag了，例如直接把我的精选色图作为上下文输入模型，让模型判断一张新图片是否复合我xp

王牛子 · 发表于 2026-3-21 19:15

勿徊哉发表于 2026-3-21 19:48
所以还是要打tag通过tag来管理吗？
我还想着有了多模态模型后就不用打tag了，例如直接把我的精选色图作 ...

你的思路大方向是对的，但大模型并不是什么妙妙工具。
在实际工程落地时，图片极其占用上下文 Token。如果你每次鉴别新图，都要把几十张‘精选 XP’塞进去让模型现看，不仅显存会瞬间爆掉，推理速度也会慢到让你怀疑人生，这在工程上根本跑不通。
其实你这个需求，完全不需要大模型实时动脑子，真正的解法是向量数据库 + 余弦相似度。
你可以这么理解：你的所谓‘XP’，在数学上并不是一种感觉，而是高维空间里的一个‘坐标中心点’ 。这个点的坐标，是由你过往收藏图片的 Tag（文本特征）和画面张力（视觉特征）共同算出来的。

当我们有了你 XP 的坐标后，剩下的事情就极其简单粗暴了：新图进来，提取特征变成一个新的坐标点，然后让向量数据库去计算这个新点和你 XP 中心点的‘空间距离’（也就是计算向量夹角）。距离越近，说明越符合你的 XP 。
这个比对过程纯粹是底层的数学计算，不需要任何‘理解’，几微秒就能在本地算完出结果。
所以在整个这套系统里，大语言模型和视觉模型（比如 SigLIP）根本不是什么‘魔法大脑’，它们唯一的价值就是充当不知疲倦的打标员——专门负责把那些没有元数据的媒体转换成特征向量和 Tag。一旦打标完成，剩下的检索和推荐，全是传统数据库和向量检索的活儿，大模型就可以直接下班了。因此根本就不需要什么特别大规模的模型，8B配合一个完善的词表就已经非常够用了。

LOLITA · 发表于 2026-3-21 20:27

国内的那堆魔改4080s 32G干这个会比pro4000性价比更高嘛？

王牛子 · 发表于 2026-3-21 23:17

LOLITA 发表于 2026-3-21 21:27
国内的那堆魔改4080s 32G干这个会比pro4000性价比更高嘛？

考虑过，但怕魔改卡混插驱动不兼容所以没买。再加上机箱也没空间了，电源余量也不多，想了想还是pro4000最好。单论性价比我觉得4080s应该更好，前提是专门组AI机，但感觉都专门组机器了不如直接买4090 48G，4080s 32G定位有点尴尬

		自动登录	找回密码
密码			立即注册

[软件] 记录一下自己折腾本地LLM的过程：5090+双PRO4000纯Blackwell架构

本帖子中包含更多资源

评分

评分

评分

评分