找回密码
 立即注册
查看: 1639|回复: 6

[硬件] 可以用双4060ti叠加显存跑ollama吗?

[复制链接]
     
发表于 2025-2-19 14:14 | 显示全部楼层 |阅读模式
目前一张 4060ti 16GB,ollama跑 deepseek-r1:14b 刚好(65%占用)。deepseek-r1:32b也能动(92%占用)
但无论哪个,再运行个reranker模型之类的就会爆显存。


如果再加一张是不是可以分割模型或者一卡一个模型这样调度?


问deepseek和通义千问,回答一个说不行,一个说可以。

搜索到了一个例子,不过是直接用llama.cpp的。
https://www.reddit.com/r/LocalLL ... th_two_rtx_4060_ti/
回复

使用道具 举报

     
发表于 2025-2-19 18:35 | 显示全部楼层
https://www.bilibili.com/video/BV1DH4y1c7gK
看这个视频解释貌似ollama是可以的,模型加载到2张卡上,一张一半,第一张跑完传递到第二张,第二张继续。总消费=1卡跑一半模型+传递时间+2卡跑一半模型,算力利用效率一半
回复

使用道具 举报

     
发表于 2025-2-19 18:50 | 显示全部楼层
拿4060ti的钱买671B R1的API,用到过年也用不完
回复

使用道具 举报

     
发表于 2025-2-19 18:59 | 显示全部楼层
moyuzhijia 发表于 2025-2-19 18:50
拿4060ti的钱买671B R1的API,用到过年也用不完

盲猜是喜欢DIY,而不是真正想跑模型

其实我也是
回复

使用道具 举报

     
发表于 2025-2-19 19:42 来自手机 | 显示全部楼层
不如试试少offload几层到gpu,不见得比不能并行计算的两卡慢
回复

使用道具 举报

     
发表于 2025-2-20 08:39 来自手机 | 显示全部楼层
可以的,我在4卡v100节点上试过了
回复

使用道具 举报

     
发表于 2025-2-20 09:08 来自手机 | 显示全部楼层
我本地就是4060+2060跑32b,速度肯定是受制约的但是10tokens速度不至于一点不能用

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-4-20 20:06 , Processed in 0.045291 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表