能做到的事情基本上都能以非常夸张的能耗比在一个相对合理的时间里给你完成掉....
chaucerling 发表于 2023-1-20 17:38
理论上是动态分配的,内存和显存不爆32g就行,内存还能转成虚拟内存,m1 max更高的内存带宽在这种情况也 ...
这显存使用方式很棒啊。。只能512x512不应该啊。等app完善后就没老黄什么事了 等一个发展,不能干掉老黄,给一个第二选择也是好的 试了下,相比DiffusionBee速度提升太多,太牛了。 PalmTiger 发表于 2023-1-20 18:12
这显存使用方式很棒啊。。只能512x512不应该啊。等app完善后就没老黄什么事了 ...
巴不得马上干碎老黄,可惜现在还是差得远
—— 来自 S1Fun 将普通模型转成coreML 模型的过程是谁做的?恐怕这个过程本身也对模型做了优化吧.现在ai画图的模型本身就是训练出来后没有重新写推理的,开销当然大 测试了下,体验很好
M2 MacBook Air, Activity Monitor里头看就占了3G Memory,step调到48也就半分钟左右一张 为什么AAPL总喜欢把新功能和系统绑定
各种系统App更新也是这样 8G内存的mac mini可以用吗?
大概率去买一个mac mini m2丐版 本帖最后由 Cairetina 于 2023-1-24 18:56 编辑
其实去年 11 月就有 MPS + Swift 的 Stable Diffusion 实现了啊,不知道为啥这么久了还有在提 diffusionbee 的
https://apps.apple.com/jp/app/draw-things-ai-generation/id6444050820
上架 App Store 支持 iOS/iPadOS/macOS
使用 2-3 GB 统一内存在 M1 设备上达到512x512 <1s/step,同时也支持使用 CoreML 在 ANE/GPU/CPU 间并行以进一步提升速度
功能上支持各类模型和自定义模型(内置 Swift 实现的转换器),混合模型(包括 vae),inpaint,img2img,project,内置 ESRGAN 等 upscaler 模型整合,自定义画布分辨率这种最基础的就不多说了
早就不用电脑跑了,手机上跑了几个月了 apple silicon可以选32G甚至64G的,虽然比PC的内存贵,但是比老黄那边便宜多了
这波是Apple的黄金内存性价比暴涨了 其实M系列我觉得最好的就是这个统一内存,毕竟传统的CPU-内存-GPU结构(应该叫IBM PC结构?)在异构计算时,瓶颈大概率就是PCIE带宽
这时想起来,新一代主机也是统一内存架构吧,也许PS5/XSX如果能跑AI画图,效率会意外地高
现在以CPU和内存为核心的架构,是在机械软硬盘极慢,GPU尚未发展起来时就确立的
根据现在SSD外存和高速GPU的发展程度,结合AI、游戏等现实需求,感觉现有的系统结构也该改变一下了
或许这样也能在死气沉沉的PC市场搞出点新的增长点?说不定也可能真的实现大家干掉老黄的愿望 citrus 发表于 2023-1-24 22:53
其实M系列我觉得最好的就是这个统一内存,毕竟传统的CPU-内存-GPU结构(应该叫IBM PC结构?)在异构计算时 ...
实际上至少跑stable diffusion的时候,RAM和VRAM之间并没有那么多交互,pcie控制器并不是瓶颈,瓶颈还是在显卡的IMC上
倒是希望苹果可以把老黄阉割显存容量和带宽的这点干掉。这么多年主流显卡的显存带宽似乎都没什么提升 饼大飞砖,水果有钱的优势
—— 来自 Xiaomi M2102K1C, Android 12上的 S1Next-鹅版 v2.5.4 citrus 发表于 2023-1-24 22:53
其实M系列我觉得最好的就是这个统一内存,毕竟传统的CPU-内存-GPU结构(应该叫IBM PC结构?)在异构计算时 ...
任何一个正经的模型在运行的时候都不会在cpu上进行任何计算,和ram的交互也仅限于input和output
—— 来自 Xiaomi M2007J3SC, Android 11上的 S1Next-鹅版 v2.5.4 本帖最后由 Cairetina 于 2023-1-25 11:00 编辑
ls2021 发表于 2023-1-25 00:43
实际上至少跑stable diffusion的时候,RAM和VRAM之间并没有那么多交互,pcie控制器并不是瓶颈,瓶颈还是 ...
有一些区别
1.所有参与的异构核心 ANE/GPU/CPU(AMX) 都是 peers,zero copy,只有读写结构化的方式上有区别,而传统结构的问题发生在推理前,要么将模型驻留于 VRAM 中,要么就需要进行一次拷贝
2.异构核心均可以进行 page in/out,以更低的实际内存容量大小应对异构核心中更高的突发性内存使用
此外
1.对这类结构,谈 “显存容量” 这个概念没什么意义
2.现有情况下高带宽会带来能耗上的问题,苹果目前采用 TBDR + cHSR 来降低带宽压力,代价是损失一些峰值性能和旧管线兼容,换来能效与延迟(主要依靠堆8/16/32 通道 DDR 而不采用 GDDR)上的优势,同时也得到一些在 CPU 单核心高带宽利用率上的好处,因此不太可能看到带宽高过 N 卡的情况出现
—— 来自 Google Pixel 6 Pro, Android 13上的 S1Next-鹅版 v2.5.2-play 本帖最后由 Cairetina 于 2023-1-25 11:07 编辑
灰流うらら 发表于 2023-1-25 10:53
任何一个正经的模型在运行的时候都不会在cpu上进行任何计算,和ram的交互也仅限于input和output
—— 来 ...
在推理中往往是可以但没必要,而不是一定不,但在 ASi 上常常有多个异构核心与 CPU 并行的情况
—— 来自 Google Pixel 6 Pro, Android 13上的 S1Next-鹅版 v2.5.2-play 灰流うらら 发表于 2023-1-25 10:53
任何一个正经的模型在运行的时候都不会在cpu上进行任何计算,和ram的交互也仅限于input和output
—— 来 ...
我也写过类似的东西(虽然是科学计算而不是ML推理)
可以在CPU上进行计算,但完成CUDA部分已经够累了,感觉再把CPU部分完成,还得手搓一个异步调度,GPU和CPU的算力分别是4xV100和2x12c至强,感觉工作量大收益不大,就直接摆了只用GPU跑,效果也不错
相信很多AI模型也是这样。但商业化的科学计算软件,我接触到的一般就是CPU+GPU全部占满的
感慨一下,什么时候有人在摩尔线程沐曦寒武纪的芯片上移植SD成功了,国产GPU就算真正走上竞技场了吧。 看来m2有意义 本帖最后由 御坂MKII 于 2023-1-25 17:24 编辑
燕山雪 发表于 2023-1-25 14:28
感慨一下,什么时候有人在摩尔线程沐曦寒武纪的芯片上移植SD成功了,国产GPU就算真正走上竞技场了吧。 ...
国产gpu几家靠谱的都不做民用部分,会兼容cuda,但是不做gui接口,卖也是面向数据中心
—— 来自 Xiaomi 2203121C, Android 13上的 S1Next-鹅版 v2.5.4 御坂MKII 发表于 2023-1-25 17:08
国产gpu几家靠谱的都不做民用部分
—— 来自 Xiaomi 2203121C, Android 13上的 S1Next-鹅版 v2.5.4 ...
不做民用的只有骗补贴机器和慢性死亡两种结局 本帖最后由 御坂MKII 于 2023-1-25 17:40 编辑
燕山雪 发表于 2023-1-25 17:16
不做民用的只有骗补贴机器和慢性死亡两种结局
diy/pc死路一条啊 反而是数据中心比老黄性价比高多了
amd的驱动都一直破烂,你真要创业公司除了做cuda还要再找人做win api和directx去卷吗
以及 之前美国的算力限制,就是这几家做机器学习卡的公司流片的算力设计爬坡爬出来的。几乎所有的公司都改了下一代流片的设计,因为全超了限制
—— 来自 Xiaomi 2203121C, Android 13上的 S1Next-鹅版 v2.5.4 本帖最后由 燕山雪 于 2023-1-25 18:08 编辑
御坂MKII 发表于 2023-1-25 17:26
diy/pc死路一条啊 反而是数据中心比老黄性价比高多了
amd的驱动都一直破烂,你真要创业公司除了 ...
数据中心不算民用?高校跑AI和数值计算不算民用?
另外Cuda闭源的怎么兼容,OPENCL/ROCM还差不多。如果pytorch2.0的primtorch也支持不好,就不要怪别人没给机会了~ 御坂MKII 发表于 2023-1-25 17:26
diy/pc死路一条啊 反而是数据中心比老黄性价比高多了
amd的驱动都一直破烂,你真要创业公司除了 ...
老美那个算力限制本身很扯淡,这几年的GPGPU初创公司被算力军备竞赛完全带歪了,锁算力上限,让大家把注意力从MAC数量转回良率兼容性和能效比上来,说是拨乱反正都不为过。真正卡脖子的是其它条款 本帖最后由 御坂MKII 于 2023-1-25 18:54 编辑
燕山雪 发表于 2023-1-25 17:52
数据中心不算民用?高校跑AI和数值计算不算民用?
另外Cuda闭源的怎么兼容,OPENCL/ROCM还差不多。如果py ...
那没事儿了。专做军政的你认为的非民用那肯定是看都不看。提市场我都默认个人用图形卡和计算卡两边,所以个人用就是民用,计算卡是商用
个人用的卡和计算卡之前自然是先做计算卡好。具体兼容策略没问过,但是他们提过迁移成本肯定是很低的。后面再问问好了
—— 来自 Xiaomi 2203121C, Android 13上的 S1Next-鹅版 v2.5.4 御坂MKII 发表于 2023-1-25 18:51
那没事儿了。专做军政的你认为的非民用那肯定是看都不看。提市场我都默认个人用图形卡和计算卡两 ...
国产这些家的策略基本都是自己搞一套软件栈,直接读onnx
—— 来自 Xiaomi M2007J3SC, Android 11上的 S1Next-鹅版 v2.5.4
页:
[1]