紧那罗 发表于 2025-3-11 12:48

现在mac的ai生态怎么样

起因是翻了下openai的账单 发现用在whisper上的花费还不小 不比gpt少

比起llm现在百家争鸣 语音转录这块模型好像都没怎么降过价
而且对比原版whisper,社区的一些改良版本也有一定程度的优化(原版处理长音频的时候会吐重复字啥的)
看起来比起云服务 本地部署更实惠一些
不过感觉往homelab上专门插块游戏显卡干这个有点浪费

突然想起来还有台m2 pro的mac mini常年待机没啥功耗 统一内存干这个正合适?
上班摸鱼的时候试了下 之前谭友推荐的faster whisper能跑(就是不支持float16 要指定下compute type) 不过应该是cpu跑的 性能不太乐观
搜了下 有套mlx的模型是专门给苹果芯片设计的 正好也有whisper 下载试了下 速度倒是很不错 目测跑large估计有个10x?就是原版的重复吐字问题也还在……

想想苹果这套生态如果适配的还行的话 本地跑跑参数规模没那么大的LLM或者SD啥的性价比好像还不错?

espressivo 发表于 2025-3-11 14:06

whisper的话whisper.cpp啊,Mac一等公民

不过除了OpenAI的几个模型,第三方模型我是没能用提供的脚本编译出能适用于CoreML的模型来...

紧那罗 发表于 2025-3-11 15:40

espressivo 发表于 2025-3-11 14:06
whisper的话whisper.cpp啊,Mac一等公民

不过除了OpenAI的几个模型,第三方模型我是没能用提供的脚本编译 ...

whisper.cpp性能怎么样?(我尝试装了下 有些依赖容易有冲突 凑合着跑起来转个large-v3到最后炸了不知道是不是内存不够
其实mlx这套模型能用gpu加速我觉得性能上是挺可以了
主要想了解下正经用的话有没有什么坑 社区活跃度怎么样 像whisper我想用faster whisper的一些优化功能 好像就没有支持gpu/npu的

mlx的模型我看还挺多的
https://huggingface.co/mlx-community

espressivo 发表于 2025-3-11 17:20

本帖最后由 espressivo 于 2025-3-11 17:22 编辑

紧那罗 发表于 2025-3-11 15:40
whisper.cpp性能怎么样?(我尝试装了下 有些依赖容易有冲突 凑合着跑起来转个large-v3到最后炸了不知道 ...
没有依赖需要装呀,git clone下来再把他专有格式ggml的模型下下来就能跑了

没试过mlx,如果都是用的专有神经网络引擎加速的话可能速度差不多(?

感觉性能怎么也是第一梯队了吧,非常快

baiducaonima 发表于 2025-3-11 17:21

本帖最后由 baiducaonima 于 2025-3-11 17:22 编辑

回错了,编辑

nozomitech 发表于 2025-3-11 18:50

mac有个叫macwhisper的软件,可以用npu跑,当然追求速度也可以用gpu,不过模型应该还是用的原版的,这个我不太懂。

starash 发表于 2025-3-11 21:48

应该是本地推理部署最有性价比的选择了。训练不行。

samfs 发表于 2025-3-11 22:25

本帖最后由 samfs 于 2025-3-16 12:04 编辑

**********

紧那罗 发表于 2025-3-12 10:57

espressivo 发表于 2025-3-11 17:20
没有依赖需要装呀,git clone下来再把他专有格式ggml的模型下下来就能跑了

没试过mlx,如果都是用的专有 ...

mlx应该没有用神经网络引擎(npu),单纯用的gpu跑的。看到有说法是npu的调用相关资料苹果给的不太全,很多开发者不想自己去猜所以没搞。
所以我挺好奇npu和gpu跑的性能有什么差别

—— 来自 鹅球 v3.3.96-alpha

琉璃苑軒風 发表于 2025-3-13 11:31

不捡洋垃圾,应该是比较好的选择了

虽然速度不好比,但是64g的m4pro mini 现在京东1.22,你甚至只够买半块4090...

nozomitech 发表于 2025-3-13 19:07

紧那罗 发表于 2025-3-12 03:57
mlx应该没有用神经网络引擎(npu),单纯用的gpu跑的。看到有说法是npu的调用相关资料苹果给的不太全,很 ...

当然是GPU跑快啊,苹果那个NPU才多少算力?NPU跑的优点是你可以边跑whisper边干其它的事情,毕竟GPU跑的话100%占用哪怕只是普通的浏览网页也是是有点卡顿感的。



—— 来自 S1Fun

宵神乐 发表于 2025-3-13 19:13

唯一优势是显存大 比买老黄的卡便宜

紧那罗 发表于 2025-3-13 21:48

nozomitech 发表于 2025-3-13 19:07
当然是GPU跑快啊,苹果那个NPU才多少算力?NPU跑的优点是你可以边跑whisper边干其它的事情,毕竟GPU跑的 ...

好吧 那mlx用着就挺好
实测单跑large-v3同时网页放视频也很流畅
这么看来m芯片跑端侧AI确实还挺实用

gochri 发表于 2025-3-14 02:30

本帖最后由 gochri 于 2025-3-14 02:45 编辑

姑且多嘴一句,苹果产品除内存容量外,不同芯片对应的 内存带宽 也是影响 LLM 推理能力的重要指标。按 生成速度上限(tokens/sec)≈ 内存带宽(GB/s) / 每token所需传输数据量(GB)的公式,以4bit量化标准计算,各芯片的理论生成速度上限大体如下:


模型规模每token数据量(GB)模型所需内存(GB)内存带宽(GB/s)理论速度上限(tokens/sec)适用芯片(芯片最大内存)
32B16GB18.5GB819 (M3 Ultra)51.19M3 Ultra(192GB)
410 (M4 Max)25.63M4 Max(128GB)
273 (M4 Pro)17.06M4 Pro(64GB)
120 (M4)7.50M4(32GB)
70B35GB35GB819 (M3 Ultra)23.40M3 Ultra(192GB)
410 (M4 Max)11.71M4 Max(128GB)
273 (M4 Pro)7.80M4 Pro(64GB)
120 (M4)3.43不适用(内存不足)

需注意实际性能约为理论上限的 60%。买 M4 基础版的话,最好确认好自己能否接受比较低的响应速度,或者直接加钱上 M4 Pro 或 Max 这样了。

紧那罗 发表于 2025-3-14 10:19

gochri 发表于 2025-3-14 02:30
姑且多嘴一句,苹果产品除内存容量外,不同芯片对应的 内存带宽 也是影响 LLM 推理能力的重要指标。按 生成 ...

这个自然 内存容量只是决定能不能跑 只能说和老黄的振金内存比起来 苹果的金子内存都显得有性价比了

不过我不是很在意llm的表现啦 目前的模型和芯片性能在我看来还远没达到能端侧使用的水准 等再发展些时候再看吧
页: [1]
查看完整版本: 现在mac的ai生态怎么样