可以用双4060ti叠加显存跑ollama吗?
目前一张 4060ti 16GB,ollama跑 deepseek-r1:14b 刚好(65%占用)。deepseek-r1:32b也能动(92%占用)但无论哪个,再运行个reranker模型之类的就会爆显存。
如果再加一张是不是可以分割模型或者一卡一个模型这样调度?
问deepseek和通义千问,回答一个说不行,一个说可以。
搜索到了一个例子,不过是直接用llama.cpp的。
https://www.reddit.com/r/LocalLLaMA/comments/178gkr0/performance_report_inference_with_two_rtx_4060_ti/
https://www.bilibili.com/video/BV1DH4y1c7gK
看这个视频解释貌似ollama是可以的,模型加载到2张卡上,一张一半,第一张跑完传递到第二张,第二张继续。总消费=1卡跑一半模型+传递时间+2卡跑一半模型,算力利用效率一半 拿4060ti的钱买671B R1的API,用到过年也用不完
moyuzhijia 发表于 2025-2-19 18:50
拿4060ti的钱买671B R1的API,用到过年也用不完
盲猜是喜欢DIY,而不是真正想跑模型
其实我也是 不如试试少offload几层到gpu,不见得比不能并行计算的两卡慢 可以的,我在4卡v100节点上试过了 我本地就是4060+2060跑32b,速度肯定是受制约的但是10tokens速度不至于一点不能用
—— 来自 鹅球 v3.3.96-alpha
页:
[1]