农企显卡炼丹画图效率居然还行了

DeepFishing 发表于 2025-12-12 19:10

都用comfyi跑z images，农企需要手动装，但是性能居然还行。

395 跑一张图 24s左右，9060xt 15s，5060ti 17s然后我升了下速度到14s，这些卡账面fp32都在差不多水平，20多T。
虽然我感觉真用农企可能有别的稀奇古怪的问题。

我就再氪一单 发表于 2025-12-12 19:12

a770呢

—— 来自 Xiaomi 23049RAD8C, Android 14, 鹅球 v3.5.99

雪影发表于 2025-12-12 19:47

本帖最后由雪影于 2025-12-13 14:49 编辑

rocm 7.1提升应该不小，比跑zluda高
不过rocm win只能跑wsl2，不如原生linux
注意，是7.1

—— 来自 Xiaomi 2304FPN6DC, Android 13, 鹅球 v3.5.99-alpha

mitzvah 发表于 2025-12-12 19:50

rocm一个版本的软件更新llm的提示处理翻了一倍多，看的我下巴都惊掉，再看看**mac，下一代直接上张量单元，现有用户全部淘汰...贵一倍价格软件支持跟屎一样

暗口崩子 发表于 2025-12-12 20:59

A卡生态还是太麻烦了吧
只支持90卡吗？68xt还能挣扎么

neptunehs 发表于 2025-12-12 21:30

我这边用zluda triton跑不了不带triton的跑第一张图可以第二张图闪退烦

—— 来自 OnePlus PJX110, Android 14, 鹅球 v3.5.99

d2loader 发表于 2025-12-12 22:20

木谷高明 发表于 2025-12-12 23:27

做了Linux双系统，重启到Linux系统，从别的电脑访问网页端，N卡3090和395都很快。

雪影发表于 2025-12-13 00:53

d2loader 发表于 2025-12-12 22:20
可是395也涨价了

—— 来自鹅球 v3.3.96

395涨价是因为内存涨价
fevm预售的那台，128G只要14K，放现在还行

—— 来自 Xiaomi 2304FPN6DC, Android 13, 鹅球 v3.5.99-alpha

DeepFishing 发表于 2025-12-13 09:01

雪影发表于 2025-12-12 19:47
rocm提升应该不小，比跑zluda高
不过rocm win只能跑wsl2，不如原生linux

win下原生跑的，另外两张独立显卡我用usb4接到小主机上跑的，Ubuntu下独显调不起来，可能我哪配的不对

—— 来自 Xiaomi 24117RK2CC, Android 15上的 S1Next-鹅版 v2.5.4

すぴぱら 发表于 2025-12-13 14:06

还是太慢了有代差
我用3090这种老卡跑zimage快的起飞

Kiraru 发表于 2025-12-13 14:23

mitzvah 发表于 2025-12-12 19:50
rocm一个版本的软件更新llm的提示处理翻了一倍多，看的我下巴都惊掉，再看看**mac，下一代直接上张量单元， ...

amd也不支持上一代啊，rocm windows 7000系只支持7900xtx

雪影发表于 2025-12-13 14:49

DeepFishing 发表于 2025-12-13 09:01
win下原生跑的，另外两张独立显卡我用usb4接到小主机上跑的，Ubuntu下独显调不起来，可能我哪配的不对

...

ROCm原生只能在linux下，win通过WSL2实现的，这个不是硬件直通，还是走的虚拟化，有性能损失

雪影发表于 2025-12-13 14:50

Kiraru 发表于 2025-12-13 14:23
amd也不支持上一代啊，rocm windows 7000系只支持7900xtx

实际上，7.1只支持90X0和AI MAX+系列

DeepFishing 发表于 2025-12-13 14:54

雪影发表于 2025-12-13 14:49
ROCm原生只能在linux下，win通过WSL2实现的，这个不是硬件直通，还是走的虚拟化，有性能损失 ...

可以跑的，我用的预览版的rocm和pytorch

—— 来自 Xiaomi 24117RK2CC, Android 15上的 S1Next-鹅版 v2.5.4

albertfu 发表于 2025-12-13 15:00

借地问下PCIE带宽影响大吗，现在用的USB4，有吃灰台机但懒得开

跑的过程中要占近100GB的RAM+pagefile，俺寻思这么多数据在VRAM、RAM、SSD之间倒来倒去，PCIE带宽应该影响不小，但没实测过

小妻水亚美 发表于 2025-12-13 15:12

mitzvah 发表于 2025-12-12 19:50
rocm一个版本的软件更新llm的提示处理翻了一倍多，看的我下巴都惊掉，再看看**mac，下一代直接上张量单元， ...

下一代的升级有点类似11年跳gcn架构吧，以前的老架构直接抛弃。

—— 来自 motorola XT2401-2, Android 15, 鹅球 v3.5.99

netplaying 发表于 2025-12-13 15:16

albertfu 发表于 2025-12-13 15:00
借地问下PCIE带宽影响大吗，现在用的USB4，有吃灰台机但懒得开

跑的过程中要占近100GB的RAM+pagefile，俺 ...

如果只是ai画图，你pcie带宽只会影响你从硬盘载入模型的速度，以常见sdxl模型6g多来算，pcie x8 1.1单向理论速度是2.0g，也就是说你载入模型的理论速度大概3秒多点。
模型载入完成后，跑模型的时候就跟pcie带宽没关系了。

以上是理论数据，如果你显卡的显存不够大启用了共享显存，那就是另一个复杂的问题了。

mitzvah 发表于 2025-12-13 15:19

小妻水亚美发表于 2025-12-13 15:12
下一代的升级有点类似11年跳gcn架构吧，以前的老架构直接抛弃。

—— 来自 motorola XT2401-2, Android...
那倒不至于，但是m5补全了大量张量计算单元，相当于直接加上了Tensorcore，算力直接翻四到五倍，这些加速m5以前的产品全都吃不到，老硬件的软件优化估计也是没戏了。amd别的不说，strixhalo社区还是不断出更新，到时候npu都能拿来算llm，这些mac全没有

albertfu 发表于 2025-12-13 15:25

netplaying 发表于 2025-12-13 15:16
如果只是ai画图，你pcie带宽只会影响你从硬盘载入模型的速度，以常见sdxl模型6g多来算，pcie x8 1.1单向 ...

那个checkpoint 29GB，显存只有24GB，所以我估摸着PCIE带宽影响不小

DeepFishing 发表于 2025-12-15 10:06

暗口崩子发表于 2025-12-12 20:59
A卡生态还是太麻烦了吧
只支持90卡吗？68xt还能挣扎么

我感觉还能挣扎，看了下，gfx103X还真有
https://rocm.nightlies.amd.com/v2/gfx103X-dgpu/rocm/
不过torch没有，只能讲慢慢等农企做了

页: [1]

Stage1st's Archiver

农企显卡炼丹画图效率居然还行了