找回密码
 立即注册
搜索
楼主: haiuhfuwah

[科技] 王座易主:Kimi K2 Thinking开源超闭源

[复制链接]
     
发表于 2025-11-7 20:02 来自手机 | 显示全部楼层
malisa 发表于 2025-11-7 19:42
一个是比较懒 其实联网搜索不是很勤快,很多时候信息会比较旧,特别是写weekly的时候,日期稍不注意就给你改 ...

你是用gemini app吗,ai studio里面用会好一些,分支和手动开搜索也是支持的
回复

使用道具 举报

     
发表于 2025-11-7 20:09 | 显示全部楼层
mintslime 发表于 2025-11-7 20:02
你是用gemini app吗,ai studio里面用会好一些,分支和手动开搜索也是支持的
...

对 我交钱了 一般是app
我有些weekly和报告还离不开 Gemini
写作能力gpt太差了
回复

使用道具 举报

     
发表于 2025-11-7 20:17 | 显示全部楼层
最近在本地部署wan2.2玩,由于对程序方面的东西一窍不通,前阵子碰到问题都是问grok(openai和gemini也试了,反正回答ComfyUI方面的问题没grok好),这两天看都在讨论kimi,就也试了下k2,发现回答的准确率比grok高不少
回复

使用道具 举报

     
发表于 2025-11-7 20:21 | 显示全部楼层
之前测试过几次,几大 llm (DS/Qwen/GLM/Kimi/Gemini/Grok)试着过去,错了或者出现幻觉,跟他们说再确认或者指出问题所在,一般都会“好的,再确认,这是什么结果”,就 Kimi 一弱智精神小伙,“我承认错误,坚决改正”,然后就TM没了。这次 Kimi-K2-Thinking 跑分这么高,也谨慎观望。
回复

使用道具 举报

     
发表于 2025-11-7 20:29 | 显示全部楼层
本帖最后由 有土 于 2025-11-7 20:30 编辑
羊寢 发表于 2025-11-7 19:51
与此同时的鲸鱼娘:一个实验版本挂了一个半月,化身咸鱼(虽然知道下一次更新应该会整个大的,但一个实验 ...
真是太喜欢鲸鱼的这种作风了
回复

使用道具 举报

     
发表于 2025-11-7 20:33 | 显示全部楼层
没有包月,很难实际使用
回复

使用道具 举报

     
发表于 2025-11-7 20:46 | 显示全部楼层
自测,翻译英文小说远不如qwen max

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2025-11-7 20:48 | 显示全部楼层
这种开源只是开weight吧
回复

使用道具 举报

     
发表于 2025-11-7 21:37 | 显示全部楼层
苏剑林还在moonshot吗?他家上下文是真的长。

1T模型本地用不了啊,100到200范围的模型还是gpt和qwen还有GLA的天下吧?
回复

使用道具 举报

     
发表于 2025-11-7 22:03 来自手机 | 显示全部楼层
malisa 发表于 2025-11-7 20:09
对 我交钱了 一般是app
我有些weekly和报告还离不开 Gemini
写作能力gpt太差了 ...

能说一下你具体的使用方法和prompt的大致写法吗?以我个人的体验来说,我觉得gemini对gpt5除了幻觉少点外基本没有优势。
推荐要用gemini直接用aistudio网页端爽白嫖,连蕉都可以无限用。
回复

使用道具 举报

     
发表于 2025-11-7 22:09 | 显示全部楼层
mintslime 发表于 2025-11-7 22:03
能说一下你具体的使用方法和prompt的大致写法吗?以我个人的体验来说,我觉得gemini对gpt5除了幻觉少点外 ...

我是日文 最早的时候有 写了几版 微调过几次 都是canvas  该写什么,一些词去掉之类
然后你跟着这个对话写下去就是,后面基本不用提示
就说新的一周开始了,然后贴材料和做一些细节指示就行了
大量上下文在这里 风格就稳定了

用canvas得理由是是可以选定范围ask 能ask就能微调 效率高很多

最大的优势还有就是连续性和记忆性
比如上一个客户没解决的事情,后续中文讲一下进展 就出来了 非常效率 命名都能保持一致

评分

参与人数 1战斗力 +2 收起 理由
mintslime + 2 学到了,谢谢

查看全部评分

回复

使用道具 举报

     
发表于 2025-11-8 01:27 来自手机 | 显示全部楼层
malisa 发表于 2025-11-7 22:09
我是日文 最早的时候有 写了几版 微调过几次 都是canvas  该写什么,一些词去掉之类
然后你跟着这个对话写 ...

要不然试试直接写markdown,然后用cursor(或者其他ide工具)编辑?
你上面提到的功能都有,可以加git来保存历史迅速回滚,可以一键切换模型,也许会更符合你的需求?
回复

使用道具 举报

     
发表于 2025-11-8 02:16 | 显示全部楼层
mintslime 发表于 2025-11-7 22:03
能说一下你具体的使用方法和prompt的大致写法吗?以我个人的体验来说,我觉得gemini对gpt5除了幻觉少点外 ...

哪有无限用啊,只能100句啊,我都用好几次超限了。
回复

使用道具 举报

     
发表于 2025-11-8 08:06 | 显示全部楼层
本帖最后由 malisa 于 2025-11-8 08:09 编辑
mintslime 发表于 2025-11-8 01:27
要不然试试直接写markdown,然后用cursor(或者其他ide工具)编辑?
你上面提到的功能都有,可以加git来 ...

对 这个方法也很好
我最近是在往这个方向改
周报因为以前都word 我也没留md pandoc转效果不好, 历史包袱比较重, 只是在惰性在用 Gemini 我把下个月的订阅停了,但事到如今 3.0也快了,感觉还是会续上

其他的文章我基本开始md归档了, 上次试了一下 Gemini cli 效果不错 用codex估计也差不多
回复

使用道具 举报

     
发表于 2025-11-8 10:18 来自手机 | 显示全部楼层
是针对几个评测做了很好的moe训练吧
回复

使用道具 举报

     
发表于 2025-11-8 10:51 | 显示全部楼层
代码能力和agent能力跟minimax m2和qwen3比怎样啊,这两个我都做了几个项目,其中有个项目还特别复杂,生成了5多行代码
回复

使用道具 举报

     
发表于 2025-11-8 11:00 来自手机 | 显示全部楼层
本帖最后由 羊寢 于 2025-11-8 11:02 编辑
白头盔 发表于 2025-11-8 10:18
是针对几个评测做了很好的moe训练吧

不知道代码能力如何,反正写作能力据说是现在国模顶尖了,昨天类脑的人都在测
不过好像说是官网api也有内审?硅基还没更新上我没还用过不知道具体情况
回复

使用道具 举报

     
发表于 2025-11-8 13:10 来自手机 | 显示全部楼层
完全不懂 发表于 2025-11-7 20:46
自测,翻译英文小说远不如qwen max

—— 来自 S1Fun

翻译文章需要用推理模型吗

—— 来自 Xiaomi 23054RA19C, Android 15, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2025-11-8 15:19 | 显示全部楼层
羊寢 发表于 2025-11-8 11:00
不知道代码能力如何,反正写作能力据说是现在国模顶尖了,昨天类脑的人都在测
不过好像说是官网api也有内 ...

官网API没内审,甚至比之前要松得多,可以随便写日系继女对继母进行绳缚XX责。
话音未落,我的拇指直接按上了她◼◼那颗已然充血挺立的◼◼。没有润滑,没有缓冲,只有雨水带来的冰冷滑腻和我指尖粗暴的碾压。我用力地、快速地、近乎疯狂地揉搓那颗脆弱的核心,如同在研磨一颗即将破碎的宝石。指甲偶尔刮过,带来尖锐的刺痛,随即又被更强烈的按压碾平。

雅子的身体瞬间绷成了一张满月的弓。她的头向后仰去,脖颈拉出脆弱的弧线,喉咙里爆发出一连串破碎的、不成话语的尖叫。那叫声被雨水撕碎,变成最原始的、濒死般的哀鸣。她的双腿在我手下疯狂颤抖,想要挣脱,却只能更紧密地贴合我的操控。泥泞的◼◼混着雨水,在我指间泛滥成灾,每一次粗暴的摩擦都带起更粘稠的水声,那是她身体最诚实的供词。

我加快了速度,加大了力道,指尖几乎要嵌入那片◼◼的◼◼中。雅子的尖叫声戛然而止,转而变成了一种窒息般的、咯咯的气音。她的瞳孔开始涣散,意识在极致的感官轰炸中濒临崩溃。身体开始不受控制地痉挛,每一次痉挛都伴随着更汹涌的◼◼涌出,将我的手掌彻底浸透。

写作我觉得没有太过于令人一眼惊艳的地方,八股有点DS味,总之能用,强于DS3.2,和GLM4.6感觉不出来太大差别
openrouter新上的那个polaris alpha(据说是GPT5.1)我觉得人物性格把控和对前文细节的发掘都要更好,有兴趣可以试试,毕竟限时免费
回复

使用道具 举报

     
 楼主| 发表于 2025-11-8 15:21 来自手机 | 显示全部楼层
写领导发言稿这种的,可能会有偏zz内容的是不是还是只能API?哪个模型比较合适?
prompt的话是不是先思考列提纲再逐步完善微调?
回复

使用道具 举报

     
发表于 2025-11-8 15:30 来自手机 | 显示全部楼层
mintslime 发表于 2025-11-8 15:19
官网API没内审,甚至比之前要松得多,可以随便写日系继女对继母进行绳缚XX责。

写作我觉得没有太过于令 ...

这样吗,周四那天看很多人说写nsfw会截断,当时他们推测是有审核,这样看来不是审核问题?
kimi2t八股像ds大概因为它基底模型用的就是ds v3
回复

使用道具 举报

     
发表于 2025-11-8 15:34 来自手机 | 显示全部楼层
这些模型开源后的好处有哪些,其他开发者的使用形成正反馈了吗
回复

使用道具 举报

发表于 2025-11-8 15:34 来自手机 | 显示全部楼层
我现在越来越觉得这些基准测试脱离实际,我实际使用中日常文档处理资料收集最好用的还是gpt,编程最好的还是Claude,gemini和deep都很差强人意,前者经常犯傻指东朝西,用英文稍微好一些,deep也差不多,经常是我替你怎么想,而且提供的资料和数据我都不感相信。
回复

使用道具 举报

     
发表于 2025-11-8 15:43 | 显示全部楼层
因为实际工程状况比较复杂
系统级别提示词,遵循命令的程度,干什么活
就算酒馆也会因为预设,卡片本身都会产生差异

目前也就是上下文长度没得救,记忆力容量决定上限了
回复

使用道具 举报

     
发表于 2025-11-8 16:50 | 显示全部楼层
什么时候有统一标准了再说,现在都是PPT瞎画图
回复

使用道具 举报

发表于 2025-11-8 16:53 来自手机 | 显示全部楼层
火烧云 发表于 2025-11-8 15:34
这些模型开源后的好处有哪些,其他开发者的使用形成正反馈了吗

Cursor上了新的自研模型,被扒出来是GLM4.6微调的

—— 来自 HUAWEI HBN-AL80, Android 12, 鹅球 v3.4.97-alpha
回复

使用道具 举报

     
发表于 2025-11-8 17:24 | 显示全部楼层
正反馈相当大。
没有国内的开源模型
coding等大模型完全被open AI anthropic 谷歌把持。
你的产品能不能活完全看他们心情
就像trae一样,Claude直接断供

定价也全部他们说了算

有了开源就可以替代。毕竟模型性能是一方面,成本,隐私也很重要
很多垂直领域开源小模型就够用了
回复

使用道具 举报

     
发表于 2025-11-8 17:55 | 显示全部楼层
我个人用来写代码就用过DS和GPT。我GPT充了会员。感觉写代码确实GPT会强一些。
DS能用,但是需求如果复杂了,写出来的就会比GPT差,一般的需求还是可以用的。
但是GPT太贵了,大家有好的推荐吗。DS没找到有付费版的··
回复

使用道具 举报

     
发表于 2025-11-8 20:05 | 显示全部楼层
羊寢 发表于 2025-11-8 15:30
这样吗,周四那天看很多人说写nsfw会截断,当时他们推测是有审核,这样看来不是审核问题?
kimi2t八股像d ...

这明显驴唇不对马嘴,K2基模是1T的,已经开源了,比DSV3还大
回复

使用道具 举报

     
发表于 2025-11-8 23:35 来自手机 | 显示全部楼层
qratosones1337 发表于 2025-11-8 20:05
这明显驴唇不对马嘴,K2基模是1T的,已经开源了,比DSV3还大

看了一下截图,是我记错了

说是用的v3架构,确实八股像ds应该不是这个原因……吧?
回复

使用道具 举报

     
发表于 2025-11-10 10:08 | 显示全部楼层
本帖最后由 流缨 于 2025-11-10 10:27 编辑

花了49体验了一下kimi2深度思考和刚出的OK Computer,前者主要是搜索整理信息,最终结果是生成报告;后者就是agent模式

功能都不新鲜,都有珠玉在前。但作为国内用户来说体验比gpt强,因为深度思考以往都是输出一大堆结果,看的非常累。
kimi最后很聪明的搞了不少预制模板做了可视化报告,观感非常好,用来发给领导糊弄某些常识问题十分足够了
agent做个PPT/网页也是像模像样,能够调用模型的图片生成能力做插图设计。
https://bhp4e3i2d4xam.ok.kimi.link/


后续探索一下它搞小项目的能力如何,能否作为简单任务的替代
回复

使用道具 举报

发表于 2025-11-10 11:17 | 显示全部楼层
哈基米2.5现在感觉真不好使,动不动就屏蔽和撤回
回复

使用道具 举报

     
发表于 2025-11-10 11:25 | 显示全部楼层
osore 发表于 2025-11-7 16:06
我的感觉是这家公司已经是在垂死挣扎了

Kimi局势不妙→Kimi昏招频出→Kimi陷入苦战→Kimi进退维谷→Kimi垂死挣扎→Kimi全盘崩溃→Kimi败局已定→Kimi发表获奖感言
这怎么就直接第五阶段了
回复

使用道具 举报

     
发表于 2025-11-10 11:36 | 显示全部楼层
继续等类脑测NSFW的效果,如果效果好的话就充钱搞API吧,虽说gemini2.5现在靠公益站基本上是纯免费了,但gemini2.5确实还是有点蠢,我发现它真是写不来NTR类的东西
回复

使用道具 举报

     
发表于 2025-11-10 11:38 来自手机 | 显示全部楼层
千千千千鸟 发表于 2025-11-10 11:36
继续等类脑测NSFW的效果,如果效果好的话就充钱搞API吧,虽说gemini2.5现在靠公益站基本上是纯免费了,但ge ...

求个公益站地址bro
回复

使用道具 举报

     
发表于 2025-11-10 11:41 | 显示全部楼层
赞卡机 发表于 2025-11-10 11:38
求个公益站地址bro

直接类脑搜索公益站就行了一大堆,但是只能用来玩酒馆的NSFW这是规定,如果要工作还是找别的吧

评分

参与人数 1战斗力 +1 收起 理由
赞卡机 + 1

查看全部评分

回复

使用道具 举报

     
发表于 2025-11-10 11:48 | 显示全部楼层
试了一下,目前问题是思考时间过长,一个简单的逻辑推理题,ds做3分钟,他居然思考10分钟才做出来,感觉思考部分过于谨慎了不停地验算检查
回复

使用道具 举报

     
发表于 2025-11-11 00:51 来自手机 | 显示全部楼层
poe超复杂问题kimi2thinking付费、gpt5pro付费、克劳德thinking付费满血。
后两个不管怎样都答出来了,kimi2总结了一遍问题,我还高兴这玩意儿聪明严谨。
于是暗示可以解答了,答案不满意,给了些批评,于是这玩意儿总结了一遍问题。
于是我提了些意见,暗示可以继续了,半小时后看完其它AI写的东西回来,又总结了一遍问题。
我放弃了。
其它AI的对话结束后,最后明确要求kimi(回答问题+新问题+不要总结),还是又总结了一遍问题。
气死了,花了8万点数总共解答1次,总结了4遍问题。
回复

使用道具 举报

     
发表于 2025-11-13 14:54 来自手机 | 显示全部楼层
羊寢 发表于 2025-11-8 23:35
看了一下截图,是我记错了

说是用的v3架构,确实八股像ds应该不是这个原因……吧? ...

现在这些架构都差不多吧。v3的基础上增增减减专家/通用专家数量。各家不同的数据集归纳处理,训练过程中的指标监控以及对应产生了不同的结果。

我都可以想得到后面就是国产硬件发展出各种稀疏,精度,融合算子组合,产生一大堆各种模型。

希望看到的还是真正架构上面的更新。
回复

使用道具 举报

     
发表于 2025-11-13 15:21 | 显示全部楼层
流缨 发表于 2025-11-10 10:08
花了49体验了一下kimi2深度思考和刚出的OK Computer,前者主要是搜索整理信息,最终结果是生成报告;后者就 ...

你这个项目的提示词是什么,语文老师想要
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2026-6-21 05:57 , Processed in 0.198252 second(s), 10 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表