找回密码
 立即注册
搜索
查看: 811|回复: 6

[软件] 记录一下自己折腾本地LLM的过程:5090+双PRO4000纯Blackwell架构

[复制链接]
     
发表于 2026-3-17 22:08 | 显示全部楼层 |阅读模式
本帖最后由 王牛子 于 2026-3-17 23:18 编辑

前段时间我在论坛里发了个AEH的项目,收获了大家的好评,真的非常感谢大家,目前项目还有在继续开发,只是因为人在日本,一些EH相关的功能比如浏览和下载代理没办法放出来,只能转私有仓库偷偷开发,有新功能会看情况合并。在项目的幕后我其实也一直在搞本地LLM部署的学习和探索。
之前我的配置比较野鸡,用的5090(32G)+3060(12G)+5060(8G),除了一张主卡剩下的那基本就是凑数的,就这么硬凑了52G显存出来,第一次够到了70-80B模型Q4的门槛。
在那之后我一直觉得52G加上这个不匹配的代差其实挺尴尬的,所以就下了点血本入了两张RTX Pro 4000 Blackwell(24G),干脆统一成Blackwell架构得了,顺便测试一下网上的破解P2P驱动是否有效。
目前的硬件环境如下:
CPU: Threadripper 7970X
内存: 128GB 4通道 DDR5 ECC
GPU 阵列: RTX 5090 (32GB) 运行在PCIe 5.0 x16带宽+ 两张 RTX PRO 4000 (24GB x 2)一张5.0 x16,一张4.0 x16,因为技嘉主板的通道划分不是很合理导致第二张卡只有4.0.之后可能会换一张主板解决这个问题

在运行跑分之前我使用simpleP2P对卡间P2P通信进行了确认,两张 PRO 4000 之间拉起了 26.17 GB/s 的 DMA 物理直连,符合PCIe 4.0 x16的理论带宽(5090和Pro4000核心不同,拉不起P2P是正常的)

  1. cudaMemcpyPeer / cudaMemcpy between GPU1 and GPU2: 25.98GB/s
复制代码


然后我使用了以下命令运行llama-bench进行跑分,分别测试了layer(层切分)和ik_llama提供的graph(图切分):
  1. ./build/bin/llama-bench -m /home/jbking/llama.cpp/models/Qwen3-Next-80B-A3B-Instruct-IQ4_XS.gguf -ngl 999 -p 512 -n 128 -fa 1 --spilt-mode graph or layer
  2. ./build/bin/llama-bench -m /home/jbking/llama.cpp/models/Qwen3-VL-32B-Instruct-abliterated-v1.Q4_K_M.gguf -ngl 999 -p 512 -n 128 -fa 1 --spilt-mode graph or layer
  3. ./build/bin/llama-bench -m /home/jbking/llama.cpp/models/Huihui-Qwen3-VL-8B-Instruct-abliterated-Q4_K_M.gguf -ngl 999 -p 512 -n 128 -fa 1 --spilt-mode graph or layer
复制代码


结果如下:
推理(生成)


预填充


从结果上看如果用层切分,那是否P2P驱动区别并不大,我认为原因在数据流瓶颈,之前用常规的层切分,数据流是 5090 -> [极慢的系统内存/CPU路由] -> 第一张PRO4000 -> [极快的P2P] -> 第二张PRO4000。因为第一步过内存太慢,导致我两张 Pro 4000 之间 26GB/s 的 P2P 物理直连纯纯是在看戏,80B MoE 的解码速度卡死在 85 t/s。换上 ik_llama 的图切分后,调度逻辑被彻底改变。80B MoE 的解码速度直接原地起飞,从 85 t/s 暴涨到了 165.15 t/s。

顺便最近趁着毕业季还6500收了个本地同学的M1 Max 32核GPU 64G内存做了测试,感觉面对MoE模型这东西性价比爆棚了,出道即巅峰,根本没必要去追后续的芯片,400GB/s的UMA带宽完全够吃的,现在放在家里做服务器了。

总结一下,个人感觉如果不是专门跑大模型,单纯想像我一样弄个“正常”的电脑而不是挂满一堆显卡的推理机(平时我还是会进windows用5090打游戏,不影响),那我认为大显存主卡 + 若干副卡 + 图切分(Graph Split) 是目前性价比和性能平衡得最完美的玩法。



老哥们如果有想测的特定 GGUF 模型,或者想看不同 chunk size 下的表现,可以在楼下回复,有空的话跑一下

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

发表于 2026-3-17 22:40 来自手机 | 显示全部楼层
试试仅用4000双卡呢?
感觉-ngl参数也可以不填,让它自动看看

—— 来自 Xiaomi 22041211AC, Android 12, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2026-3-18 00:32 | 显示全部楼层
楼主那台 m1max+64g 跑模型怎么样?我最近有这个想法,不过6500这个价32g 成色好的都不止了.....

论坛助手,iPhone
回复

使用道具 举报

     
 楼主| 发表于 2026-3-18 08:53 | 显示全部楼层
这次是十块钱 发表于 2026-3-18 01:32
楼主那台 m1max+64g 跑模型怎么样?我最近有这个想法,不过6500这个价32g 成色好的都不止了.....

论坛助手 ...

稠密模型32B就10t/s,跑点不追求速度的后台应用还行。这东西只能用来跑MoE,性价比极高,比如我图里的qwen3-next-80B-A3B,IQ4量化差不多40G,64G正好能跑,或者qwen3.5 35B-A3B都很不错,不过别买M2,M3什么的,性能提升对不起售价,M1Max首发的400G/s UMA带宽已经是巅峰了,除非你想等M5 Max的Studio不然我不推荐你去买更好的,具体跑分你可以参考这个链接:
https://github.com/ggml-org/llama.cpp/discussions/4167
关于价格其实单纯是因为我们这学生毕业季,有人跨国不想带那么多行李又急着清东西所以有很多漏子可以捡。

评分

参与人数 1战斗力 +1 收起 理由
这次是十块钱 + 1 非常有用!感谢!

查看全部评分

回复

使用道具 举报

     
发表于 2026-3-18 09:09 | 显示全部楼层
好硬核~~
回复

使用道具 举报

     
发表于 2026-3-18 11:03 | 显示全部楼层
请教一下大佬,用的5090(32G)+3060(12G)+5060(8G)这个大概是咋用的,现在llm可以直接用多张显卡显存了么,需要啥软件设置吗
回复

使用道具 举报

     
 楼主| 发表于 2026-3-18 12:07 | 显示全部楼层
luodang007 发表于 2026-3-18 12:03
请教一下大佬,用的5090(32G)+3060(12G)+5060(8G)这个大概是咋用的,现在llm可以直接用多张显卡显存 ...

最简单的就用lm studio,他会自动均衡多张显卡的显存负载但是效率很低。如果你想发挥多卡的最大潜力那就得手动控制llama.cpp的加载参数,特别是切分类型,就像我主楼里的结果,不同的切分比如layer和graph对异构系统的推理速度有很大影响。当然这一切的前提是你显卡都是直连CPU的,没有足够的PCIe通道那多卡就是天方夜谭
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2026-3-18 12:40 , Processed in 0.039790 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表