找回密码
 立即注册
查看: 3530|回复: 14

[软件] 现在mac的ai生态怎么样

[复制链接]
     
发表于 2025-3-11 12:48 | 显示全部楼层 |阅读模式
起因是翻了下openai的账单 发现用在whisper上的花费还不小 不比gpt少

比起llm现在百家争鸣 语音转录这块模型好像都没怎么降过价
而且对比原版whisper,社区的一些改良版本也有一定程度的优化(原版处理长音频的时候会吐重复字啥的)
看起来比起云服务 本地部署更实惠一些
不过感觉往homelab上专门插块游戏显卡干这个有点浪费

突然想起来还有台m2 pro的mac mini  常年待机没啥功耗 统一内存干这个正合适?
上班摸鱼的时候试了下 之前谭友推荐的faster whisper能跑(就是不支持float16 要指定下compute type) 不过应该是cpu跑的 性能不太乐观
搜了下 有套mlx的模型是专门给苹果芯片设计的 正好也有whisper 下载试了下 速度倒是很不错 目测跑large估计有个10x?就是原版的重复吐字问题也还在……

想想苹果这套生态如果适配的还行的话 本地跑跑参数规模没那么大的LLM或者SD啥的性价比好像还不错?
回复

使用道具 举报

发表于 2025-3-11 14:06 | 显示全部楼层
whisper的话whisper.cpp啊,Mac一等公民

不过除了OpenAI的几个模型,第三方模型我是没能用提供的脚本编译出能适用于CoreML的模型来...
回复

使用道具 举报

     
 楼主| 发表于 2025-3-11 15:40 | 显示全部楼层
espressivo 发表于 2025-3-11 14:06
whisper的话whisper.cpp啊,Mac一等公民

不过除了OpenAI的几个模型,第三方模型我是没能用提供的脚本编译 ...

whisper.cpp性能怎么样?(我尝试装了下 有些依赖容易有冲突 凑合着跑起来转个large-v3到最后炸了不知道是不是内存不够
其实mlx这套模型能用gpu加速我觉得性能上是挺可以了
主要想了解下正经用的话有没有什么坑 社区活跃度怎么样 像whisper我想用faster whisper的一些优化功能 好像就没有支持gpu/npu的

mlx的模型我看还挺多的
https://huggingface.co/mlx-community
回复

使用道具 举报

发表于 2025-3-11 17:20 | 显示全部楼层
本帖最后由 espressivo 于 2025-3-11 17:22 编辑
紧那罗 发表于 2025-3-11 15:40
whisper.cpp性能怎么样?(我尝试装了下 有些依赖容易有冲突 凑合着跑起来转个large-v3到最后炸了不知道 ...

没有依赖需要装呀,git clone下来再把他专有格式ggml的模型下下来就能跑了

没试过mlx,如果都是用的专有神经网络引擎加速的话可能速度差不多(?

感觉性能怎么也是第一梯队了吧,非常快
回复

使用道具 举报

     
发表于 2025-3-11 17:21 来自手机 | 显示全部楼层
本帖最后由 baiducaonima 于 2025-3-11 17:22 编辑

回错了,编辑
回复

使用道具 举报

     
发表于 2025-3-11 18:50 | 显示全部楼层
mac有个叫macwhisper的软件,可以用npu跑,当然追求速度也可以用gpu,不过模型应该还是用的原版的,这个我不太懂。
回复

使用道具 举报

     
发表于 2025-3-11 21:48 | 显示全部楼层
应该是本地推理部署最有性价比的选择了。训练不行。
回复

使用道具 举报

发表于 2025-3-11 22:25 来自手机 | 显示全部楼层
本帖最后由 samfs 于 2025-3-16 12:04 编辑

**********
回复

使用道具 举报

     
 楼主| 发表于 2025-3-12 10:57 来自手机 | 显示全部楼层
espressivo 发表于 2025-3-11 17:20
没有依赖需要装呀,git clone下来再把他专有格式ggml的模型下下来就能跑了

没试过mlx,如果都是用的专有 ...

mlx应该没有用神经网络引擎(npu),单纯用的gpu跑的。看到有说法是npu的调用相关资料苹果给的不太全,很多开发者不想自己去猜所以没搞。
所以我挺好奇npu和gpu跑的性能有什么差别

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-3-13 11:31 | 显示全部楼层
不捡洋垃圾,应该是比较好的选择了

虽然速度不好比,但是64g的m4pro mini 现在京东1.22,你甚至只够买半块4090...
回复

使用道具 举报

     
发表于 2025-3-13 19:07 | 显示全部楼层
紧那罗 发表于 2025-3-12 03:57
mlx应该没有用神经网络引擎(npu),单纯用的gpu跑的。看到有说法是npu的调用相关资料苹果给的不太全,很 ...

当然是GPU跑快啊,苹果那个NPU才多少算力?NPU跑的优点是你可以边跑whisper边干其它的事情,毕竟GPU跑的话100%占用哪怕只是普通的浏览网页也是是有点卡顿感的。



—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2025-3-13 19:13 | 显示全部楼层
唯一优势是显存大 比买老黄的卡便宜
回复

使用道具 举报

     
 楼主| 发表于 2025-3-13 21:48 | 显示全部楼层
nozomitech 发表于 2025-3-13 19:07
当然是GPU跑快啊,苹果那个NPU才多少算力?NPU跑的优点是你可以边跑whisper边干其它的事情,毕竟GPU跑的 ...

好吧 那mlx用着就挺好
实测单跑large-v3同时网页放视频也很流畅
这么看来m芯片跑端侧AI确实还挺实用
回复

使用道具 举报

     
发表于 2025-3-14 02:30 | 显示全部楼层
本帖最后由 gochri 于 2025-3-14 02:45 编辑

姑且多嘴一句,苹果产品除内存容量外,不同芯片对应的 内存带宽 也是影响 LLM 推理能力的重要指标。按 生成速度上限(tokens/sec)≈ 内存带宽(GB/s) / 每token所需传输数据量(GB)的公式,以4bit量化标准计算,各芯片的理论生成速度上限大体如下:

模型规模每token数据量(GB)模型所需内存(GB)内存带宽(GB/s)理论速度上限(tokens/sec)适用芯片(芯片最大内存)
32B16GB18.5GB819 (M3 Ultra)51.19M3 Ultra(192GB)
410 (M4 Max)25.63M4 Max(128GB)
273 (M4 Pro)17.06M4 Pro(64GB)
120 (M4)7.50M4(32GB)
70B35GB35GB819 (M3 Ultra)23.40M3 Ultra(192GB)
410 (M4 Max)11.71M4 Max(128GB)
273 (M4 Pro)7.80M4 Pro(64GB)
120 (M4)3.43不适用(内存不足)

需注意实际性能约为理论上限的 60%。买 M4 基础版的话,最好确认好自己能否接受比较低的响应速度,或者直接加钱上 M4 Pro 或 Max 这样了。
回复

使用道具 举报

     
 楼主| 发表于 2025-3-14 10:19 | 显示全部楼层
gochri 发表于 2025-3-14 02:30
姑且多嘴一句,苹果产品除内存容量外,不同芯片对应的 内存带宽 也是影响 LLM 推理能力的重要指标。按 生成 ...

这个自然 内存容量只是决定能不能跑 只能说和老黄的振金内存比起来 苹果的金子内存都显得有性价比了

不过我不是很在意llm的表现啦 目前的模型和芯片性能在我看来还远没达到能端侧使用的水准 等再发展些时候再看吧
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-4-20 16:48 , Processed in 0.084914 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表