naalo2 发表于 2025-2-19 14:14

可以用双4060ti叠加显存跑ollama吗?

目前一张 4060ti 16GB,ollama跑 deepseek-r1:14b 刚好(65%占用)。deepseek-r1:32b也能动(92%占用)
但无论哪个,再运行个reranker模型之类的就会爆显存。


如果再加一张是不是可以分割模型或者一卡一个模型这样调度?


问deepseek和通义千问,回答一个说不行,一个说可以。

搜索到了一个例子,不过是直接用llama.cpp的。
https://www.reddit.com/r/LocalLLaMA/comments/178gkr0/performance_report_inference_with_two_rtx_4060_ti/

図图图 发表于 2025-2-19 18:35

https://www.bilibili.com/video/BV1DH4y1c7gK
看这个视频解释貌似ollama是可以的,模型加载到2张卡上,一张一半,第一张跑完传递到第二张,第二张继续。总消费=1卡跑一半模型+传递时间+2卡跑一半模型,算力利用效率一半

moyuzhijia 发表于 2025-2-19 18:50

拿4060ti的钱买671B R1的API,用到过年也用不完

natt 发表于 2025-2-19 18:59

moyuzhijia 发表于 2025-2-19 18:50
拿4060ti的钱买671B R1的API,用到过年也用不完

盲猜是喜欢DIY,而不是真正想跑模型

其实我也是

空気力学 发表于 2025-2-19 19:42

不如试试少offload几层到gpu,不见得比不能并行计算的两卡慢

香港记者巴拉森 发表于 2025-2-20 08:39

可以的,我在4卡v100节点上试过了

琉璃苑軒風 发表于 2025-2-20 09:08

我本地就是4060+2060跑32b,速度肯定是受制约的但是10tokens速度不至于一点不能用

—— 来自 鹅球 v3.3.96-alpha
页: [1]
查看完整版本: 可以用双4060ti叠加显存跑ollama吗?