可以用双4060ti叠加显存跑ollama吗？

naalo2 发表于 2025-2-19 14:14

目前一张 4060ti 16GB，ollama跑 deepseek-r1:14b 刚好(65%占用)。deepseek-r1:32b也能动(92%占用)
但无论哪个，再运行个reranker模型之类的就会爆显存。

如果再加一张是不是可以分割模型或者一卡一个模型这样调度？

问deepseek和通义千问，回答一个说不行，一个说可以。

搜索到了一个例子，不过是直接用llama.cpp的。
https://www.reddit.com/r/LocalLLaMA/comments/178gkr0/performance_report_inference_with_two_rtx_4060_ti/

図图图 发表于 2025-2-19 18:35

https://www.bilibili.com/video/BV1DH4y1c7gK
看这个视频解释貌似ollama是可以的，模型加载到2张卡上，一张一半，第一张跑完传递到第二张，第二张继续。总消费=1卡跑一半模型+传递时间+2卡跑一半模型，算力利用效率一半

moyuzhijia 发表于 2025-2-19 18:50

拿4060ti的钱买671B R1的API，用到过年也用不完

natt 发表于 2025-2-19 18:59

moyuzhijia 发表于 2025-2-19 18:50
拿4060ti的钱买671B R1的API，用到过年也用不完

盲猜是喜欢DIY，而不是真正想跑模型

其实我也是

空気力学 发表于 2025-2-19 19:42

不如试试少offload几层到gpu，不见得比不能并行计算的两卡慢

香港记者巴拉森 发表于 2025-2-20 08:39

可以的，我在4卡v100节点上试过了

琉璃苑軒風 发表于 2025-2-20 09:08

我本地就是4060+2060跑32b，速度肯定是受制约的但是10tokens速度不至于一点不能用

—— 来自鹅球 v3.3.96-alpha

页: [1]

Stage1st's Archiver

可以用双4060ti叠加显存跑ollama吗？