找回密码
 立即注册
搜索
查看: 1271|回复: 5

[软件] 本地部署ollama和deepseek r1蒸馏的8b

[复制链接]
     
发表于 2025-6-3 08:46 来自手机 | 显示全部楼层 |阅读模式
本帖最后由 diohanmilton 于 2025-6-3 17:12 编辑

最近听说deepseek r1的8b蒸馏新版出了。于是又想把本地部署搭起来。

电脑是8700k加6700xt

amd的ollama需要下特殊的ollama for amd rocm
显卡不支持还要换库。

显存刚刚够用。

下完之后。装了新版的deepseek r1 8b

先添加到Cherry studio里问了几个旅行问题,又开始编胡话造景点。把温度调到0,就还行。

然后添加到github copilot agent,提一个需求让它写一个小程序。写完第一遍还行,然后想反馈改的时候突然就连不上。

回到Cherry studio,继续问他,然后就在think阶段不停说胡话。ai彻底疯了。不知道是硬件问题,还是软件就是这个特性。

然后我又下了qwen3原版8b。

在github里能写第一遍,但是要求他调试修改的时候就无法运行下去。

另外就是这两个生成代码都挺慢的。deepseek要长思考,一直在简单问题上打转。qwen3虽然没这个模式,但是,正文里就是在长考。
回复

使用道具 举报

头像被屏蔽
     
发表于 2025-6-3 08:55 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2025-6-3 09:05 | 显示全部楼层
胡话各种问题都可能有,毕竟是很开发者向的东西,没有充分验证过,比如同样的qwen3 32B模型我用Xinfer v1.6在两张Tesla V100卡上跑就会几句话开始胡言乱语, 拿8张V100在ollama上跑就很流畅正常表现非常好
回复

使用道具 举报

     
发表于 2025-6-3 15:59 | 显示全部楼层
首先8b的就不是R1这个模型 而是用R1蒸馏训练的qwen3的8B模型  最基础的结构就不一样
回复

使用道具 举报

     
发表于 2025-6-3 18:12 来自手机 | 显示全部楼层
要求别太高,70b和在线版的比都挺弱智的,更别说8b。
回复

使用道具 举报

     
 楼主| 发表于 2025-6-3 21:37 | 显示全部楼层
百猪夜行 发表于 2025-6-3 18:12
要求别太高,70b和在线版的比都挺弱智的,更别说8b。

主要deepseek官方刚吹了一波8b,我感觉新的8b反而更不稳定了。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-7-1 18:10 , Processed in 0.061613 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表