老黄的新品DGX Spark有搞头吗

利维坦与霍布斯 发表于 2025-10-23 14:34

最近出来的评测都说DGX Spark很弱鸡, tps甚至不如Mac M1 Max, 性价比堪忧. 唯一的优势就是统一内存大, 消费级的显卡里少有的能跑70B参数的.

但是NV原厂的东西毕竟有信仰加成.

泰坦失足 发表于 2025-10-23 15:09

我看说AMD那个AI 395最近终于更新了驱动支持. Blabla测了一堆, 关键是才2000美元还是1500美元
第三方也有DGX Spark同款处理器, 但是没4000美元, 2TB 3500美元.
至于DGX Spark...挺有历史价值的, 我才意识到不管是名字还是造型都在致敬英伟达送给OpenAI的DGX-1

木谷高明 发表于 2025-10-23 15:48

本帖最后由木谷高明于 2025-10-23 15:59 编辑

AMD的AI MAX 395+，国内厂商做的小主机，128G统一内存可划96G跑大模型，不带硬盘12000出头，作为下位替代应该还行。性能B站有不少评测，估计性价比高得多。

不玩大模型了还可以打打游戏（误）

最重要的这玩意还是x86的，理论上可以装个PVE，在host上跑大模型，或者把里面核显直通给虚拟机跑大模型，当all in one用。

d2loader 发表于 2025-10-23 17:14

ylns1314 发表于 2025-10-23 18:24

这玩意优势在于支持 NV 数据中心那一套东西，你多买几个就可以自己搭一个微缩尺寸的比正经货便宜几个数量级的GPU集群用于开发测试，单机性能不是卖点

noword 发表于 2025-10-23 19:32

哪来的信仰。。

—— 来自 Xiaomi 22041211AC, Android 12, 鹅球 v3.5.99

木谷高明 发表于 2025-10-23 19:32

ylns1314 发表于 2025-10-23 18:24
这玩意优势在于支持 NV 数据中心那一套东西，你多买几个就可以自己搭一个微缩尺寸的比正经货便宜几个数量级 ...

对，那两个200G网口也是成本的一部分，单机用就太浪费了。多买估计互联用比较合适。

Anonymous 发表于 2025-10-23 20:41

本帖最后由匿名于 2025-12-7 20:11 编辑

编辑。

roamer 发表于 2025-10-23 23:44

木谷高明发表于 2025-10-23 15:48
AMD的AI MAX 395+，国内厂商做的小主机，128G统一内存可划96G跑大模型，不带硬盘12000出头，作为下位替代应 ...

散热没问题？

—— 来自 S1Fun

lupin1984t 发表于 2025-10-24 07:28

roamer 发表于 2025-10-23 23:44
散热没问题？

—— 来自 S1Fun

AI MAX 395+
那玩意是輕薄本的
都塞小型机里面了问题肯定不大
你真觉得不行拆开天灵盖塞个普通风冷我都怕感冒

雪影发表于 2025-10-24 07:47

本帖最后由雪影于 2025-10-24 08:05 编辑

DGX比395的优势是那个CX7，这样做集群时网络带宽就不会成为瓶颈
但也跟395一样，内存带宽成为了llm的瓶颈，所以只能走集群路线
或者跟395一样，做边缘计算，但是边缘计算用DGX那挺浪费钱的，太贵了

—— 来自 Xiaomi 2304FPN6DC, Android 13, 鹅球 v3.5.99-alpha

7776169 发表于 2025-10-24 09:15

40000多，不如买新出的那个rtx5000吧
有70多g显存

—— 来自鹅球 v3.3.96

junqqq999 发表于 2025-10-24 10:33

木谷高明发表于 2025-10-23 15:48
AMD的AI MAX 395+，国内厂商做的小主机，128G统一内存可划96G跑大模型，不带硬盘12000出头，作为下位替代应 ...

看了一下，领劵加国补8999~~~~有点心动呀~~~~~

7776169 发表于 2025-10-24 10:49

楼上的，你如果是跑llm比较多的那还可以
如果要跑画画跟视频模型可能比较折磨

—— 来自鹅球 v3.3.96

利维坦与霍布斯 发表于 2025-10-24 15:11

所以说, 现在本地跑LLM最有性价比的机器是AMD的AI MAX 395+了?

雪影发表于 2025-10-24 15:16

利维坦与霍布斯发表于 2025-10-24 15:11
所以说, 现在本地跑LLM最有性价比的机器是AMD的AI MAX 395+了?

只说性价比的话，是的，96G显存的4060，最新的ROCm好像效率也提升了

利维坦与霍布斯 发表于 2025-10-24 15:18

32gb显存的5090，就算原价买，是不是也没什么意思了，显存实在捉襟见肘？

d2loader 发表于 2025-10-24 16:14

ulysses 发表于 2025-10-24 16:21

junqqq999 发表于 2025-10-24 10:33
看了一下，领劵加国补8999~~~~有点心动呀~~~~~

9k买的不是128gb版吧

128+2t好像是15k左右

cmdycj0732 发表于 2025-10-24 16:23

现在这年代真有人信仰黄狗么？硬件太弱鸡跑推理都跑不利索，生态再好也没屁用

—— 来自 HUAWEI HBN-AL80, Android 12, 鹅球 v3.4.97-alpha

7776169 发表于 2025-10-24 17:52

利维坦与霍布斯发表于 2025-10-24 15:11
所以说, 现在本地跑LLM最有性价比的机器是AMD的AI MAX 395+了?

老黄会卖新的RTX5000PRO，72G显存

4W。。。。。。。。。

这个玩意感觉速度真的一般
有测试视频的

7776169 发表于 2025-10-24 17:52

d2loader 发表于 2025-10-24 16:14
rocm7.0支持Windows了啦，也有人测过新版comfyui 和flux了

至少未来可期

主要是部署方法问题
最新的ROCM据说不用WSL了
但是对于一般人来讲有点（（（（

StarForceTi 发表于 2025-10-24 19:11

有啥信仰加成....算力不行，带宽也不行，不可燃垃圾一个

StarForceTi 发表于 2025-10-24 19:13

利维坦与霍布斯发表于 2025-10-24 15:11
所以说, 现在本地跑LLM最有性价比的机器是AMD的AI MAX 395+了?

最优性价比的显然是 k-transformer 跑moe

10万的配置够你自己玩ds了

坏掉了 发表于 2025-10-24 19:38

AMD好歹是X86，能日常使用，
NV这坨，玩AI小模型，也没法日常用。。。。只能当个大号电视盒子用了

7776169 发表于 2025-10-24 19:47

利维坦与霍布斯发表于 2025-10-24 15:18
32gb显存的5090，就算原价买，是不是也没什么意思了，显存实在捉襟见肘？

哦，想到个，32G显存的4080S，9000+一个，然后买三个？

natt 发表于 2025-10-24 20:39

ylns1314 发表于 2025-10-23 18:24
这玩意优势在于支持 NV 数据中心那一套东西，你多买几个就可以自己搭一个微缩尺寸的比正经货便宜几个数量级 ...

原来老黄一直都在教育消费者，买得越多赚的越多

AraTurambar 发表于 2025-10-24 21:16

本帖最后由 AraTurambar 于 2025-10-24 21:20 编辑

雪影发表于 2025-10-24 07:47
DGX比395的优势是那个CX7，这样做集群时网络带宽就不会成为瓶颈
但也跟395一样，内存带宽成为了llm的瓶颈， ...
但是本来ebay上捡高速网卡也不贵啊，甚至我看Dell S4112F-ON交换机也就600美金了。

直接自己组没有压力啊。

水母干 发表于 2025-10-25 06:00

鸡肋，跑LLM看内存带宽的，不如苹果官方翻新的Mac Studio Ultra系列，800GB/s的内存带宽横扫这些300GB/s不到的，底子不好哪来的信仰加成，还能突破内存带宽上限不成？

Mac Studio Apple M2 Ultra 芯片 (配备 24 核中央处理器和 60 核图形处理器) 192GB内存 + 1TB SSD 也就34399
Mac Studio Apple M3 Ultra 芯片 (配备 32 核中央处理器和 80 核图形处理器) 512GB内存 + 1TB SSD 也就63099

我的M2 Ultra 跑本地大模型，也就Prefill慢点，输出token速度还行
Qwen3-Next-80B-A3B-Thinking 5bit量化在60~80token/s
gpt-oss-120B 在60~80token/s
GLM4.5 Air 4bit 在25~40token/s

现在Qwen3-Next、Ring-flash-linear2.0这些还用上了新的注意力机制，更大上下文时token输出速度也不降多少，显得Mac更有性价比了

雪影发表于 2025-10-25 09:06

本帖最后由雪影于 2025-10-25 09:57 编辑

AraTurambar 发表于 2025-10-24 21:16
但是本来ebay上捡高速网卡也不贵啊，甚至我看Dell S4112F-ON交换机也就600美金了。

直接自己组没有压力啊 ...

1 395不支持X8 pcie，最多就x4 4.0，带宽就只有64Gbps，离200G差距很远
2 DIY就别说了，同价格我能组一套线程撕裂者出来，但内存带宽是不如395和DGX的四通道128G的

—— 来自 Xiaomi 2304FPN6DC, Android 13, 鹅球 v3.5.99-alpha

AraTurambar 发表于 2025-10-25 18:39

雪影发表于 2025-10-25 09:06
1 395不支持X8 pcie，最多就x4 4.0，带宽就只有64Gbps，离200G差距很远
2 DIY就别说了，同价格我能组一套 ...

现在4通道DDR5有垃圾出来吗，我组的八通道DDR4也就200左右，但是DDR5能上一个大台阶吧？

雪影发表于 2025-10-25 18:50

本帖最后由雪影于 2025-10-25 18:51 编辑

AraTurambar 发表于 2025-10-25 18:39
现在4通道DDR5有垃圾出来吗，我组的八通道DDR4也就200左右，但是DDR5能上一个大台阶吧？ ...

别想了，内存飞了
DGX和395的内存是四通8000MT，有256GB/S

—— 来自 Xiaomi 2304FPN6DC, Android 13, 鹅球 v3.5.99-alpha

AraTurambar 发表于 2025-10-25 19:06

雪影发表于 2025-10-25 18:50
别想了，内存飞了
DGX和395的内存是四通8000MT，有256GB/S

那是不错，我到顶也就八通道2666的190gbs了。

AraTurambar 发表于 2025-10-26 23:26

本帖最后由 AraTurambar 于 2025-10-26 23:29 编辑

没事，仔细看了也还是x4……那395是不行。

QShen 发表于 2025-10-27 02:24

这东西将来会不会有哪家出一个板子，而不是整机。还是说老黄规定了非公版必须是整机

泰坦失足 发表于 2025-10-27 09:16

https://publish.obsidian.md/aixplore/Practical+Applications/dgx-lab-benchmarks-vs-reality-day-4
凑凑合合, 海外买感觉还行. 国内肯定是闲鱼上买4090 48G和洋垃圾V100了

AraTurambar 发表于 2025-10-27 10:21

本帖最后由 AraTurambar 于 2025-10-27 10:24 编辑

泰坦失足发表于 2025-10-27 09:16
https://publish.obsidian.md/aixplore/Practical+Applications/dgx-lab-benchmarks-vs-reality-day-4
凑凑 ...
Build llama.cpp from source if needed

我以为这个是标准操作？大家llama.cpp都不是自己编译的吗？

以及这个性能看起来不怎么样啊，带宽也不高。

superlattice 发表于 2025-10-27 10:24

AraTurambar 发表于 2025-10-27 10:25

superlattice 发表于 2025-10-27 10:24
AMD EPYC 9xxx是12通道DDR5低频

但CPU跑肯定没GPU快

是，但是带宽问题摆在那里嘛，能拉高也是好的。

我这种八通道ddr4 2666的选手都在硬扛呢。有Ktransformer那当然最好。

AraTurambar 发表于 2025-10-27 10:27

泰坦失足发表于 2025-10-27 09:16
https://publish.obsidian.md/aixplore/Practical+Applications/dgx-lab-benchmarks-vs-reality-day-4
凑凑 ...

以及看起来这个机器不是用来inference的，而是用来LoRA的？

页: [1]

Stage1st's Archiver

老黄的新品DGX Spark有搞头吗