10W的话,买双卡A6000,能把Qwen32B跑起来,能稍微微调一下。72B-4bit也能跑。
为什么不买4卡4090,因为vllm的parallel size 对模型隐层有要求。 本帖最后由 squarezty 于 2024-4-29 10:14 编辑
预算10万以内想搞正经训练确实太少了,好的计算卡买不到只能买二手,好不容易买了板u跟一大堆二手卡光是it工作都够你喝一壶的,那还不如来点邪门的,买或者租台192G内存的mac studio,m2 ultra芯片那款,保证能运行70b语言模型(比如llama3-70b),但是!不保证速度,推理速度大概个位数的token/s吧,看你老板能不能接受了。搭建也很简单网上一大堆教程,其实可以租台机器试试的,短时间把环境搞好交差,跟你老板说要更好效果得加钱 GLM已经是老皇历了虽然也才几个月
现在QWEN72B是比较现实的选择
—— 来自 vivo V2302A, Android 14上的 S1Next-鹅版 v2.5.4 本帖最后由 ycjiang1337 于 2024-4-29 16:18 编辑
可以关注一下L20,便宜大碗的48G新架构卡,搭配VLLM基本上随便跑推理,LoRA微调也可以跑一下。另外ChatGLM-6B已经是时代的眼泪了,目前智谱的重心已经放在闭源GLM4上了,想用开源模型的话基本上要么LLama3要么千问家族 英文上llama3,中文上qwen,而且qwen还帮你做好了防止AI乱说话的措施(就是看reddit还是能轻松越狱)
页:
[1]