王座易主：Kimi K2 Thinking开源超闭源 - 第2页 - 归墟 - Stage1st

mintslime 发表于 2025-11-7 20:02

malisa 发表于 2025-11-7 19:42
一个是比较懒其实联网搜索不是很勤快,很多时候信息会比较旧,特别是写weekly的时候,日期稍不注意就给你改 ...

你是用gemini app吗，ai studio里面用会好一些，分支和手动开搜索也是支持的

malisa 发表于 2025-11-7 20:09

mintslime 发表于 2025-11-7 20:02
你是用gemini app吗，ai studio里面用会好一些，分支和手动开搜索也是支持的
...

对我交钱了一般是app
我有些weekly和报告还离不开 Gemini
写作能力gpt太差了

无尽的牙刷 发表于 2025-11-7 20:17

最近在本地部署wan2.2玩，由于对程序方面的东西一窍不通，前阵子碰到问题都是问grok（openai和gemini也试了，反正回答ComfyUI方面的问题没grok好），这两天看都在讨论kimi，就也试了下k2，发现回答的准确率比grok高不少

有土发表于 2025-11-7 20:21

之前测试过几次，几大 llm （DS/Qwen/GLM/Kimi/Gemini/Grok）试着过去，错了或者出现幻觉，跟他们说再确认或者指出问题所在，一般都会“好的，再确认，这是什么结果”，就 Kimi 一弱智精神小伙，“我承认错误，坚决改正”，然后就TM没了。这次 Kimi-K2-Thinking 跑分这么高，也谨慎观望。

有土发表于 2025-11-7 20:29

本帖最后由有土于 2025-11-7 20:30 编辑

羊寢发表于 2025-11-7 19:51
与此同时的鲸鱼娘:一个实验版本挂了一个半月，化身咸鱼(虽然知道下一次更新应该会整个大的，但一个实验 ...真是太喜欢鲸鱼的这种作风了

stanzgy 发表于 2025-11-7 20:33

没有包月，很难实际使用

完全不懂 发表于 2025-11-7 20:46

自测，翻译英文小说远不如qwen max

—— 来自 S1Fun

jojog 发表于 2025-11-7 20:48

这种开源只是开weight吧

AraTurambar 发表于 2025-11-7 21:37

苏剑林还在moonshot吗？他家上下文是真的长。

1T模型本地用不了啊，100到200范围的模型还是gpt和qwen还有GLA的天下吧？

mintslime 发表于 2025-11-7 22:03

malisa 发表于 2025-11-7 20:09
对我交钱了一般是app
我有些weekly和报告还离不开 Gemini
写作能力gpt太差了 ...

能说一下你具体的使用方法和prompt的大致写法吗？以我个人的体验来说，我觉得gemini对gpt5除了幻觉少点外基本没有优势。
推荐要用gemini直接用aistudio网页端爽白嫖，连蕉都可以无限用。

malisa 发表于 2025-11-7 22:09

mintslime 发表于 2025-11-7 22:03
能说一下你具体的使用方法和prompt的大致写法吗？以我个人的体验来说，我觉得gemini对gpt5除了幻觉少点外 ...

我是日文最早的时候有写了几版微调过几次都是canvas该写什么,一些词去掉之类
然后你跟着这个对话写下去就是,后面基本不用提示
就说新的一周开始了,然后贴材料和做一些细节指示就行了
大量上下文在这里风格就稳定了

用canvas得理由是是可以选定范围ask 能ask就能微调效率高很多

最大的优势还有就是连续性和记忆性
比如上一个客户没解决的事情,后续中文讲一下进展就出来了非常效率命名都能保持一致

mintslime 发表于 2025-11-8 01:27

malisa 发表于 2025-11-7 22:09
我是日文最早的时候有写了几版微调过几次都是canvas该写什么,一些词去掉之类
然后你跟着这个对话写 ...

要不然试试直接写markdown，然后用cursor（或者其他ide工具）编辑？
你上面提到的功能都有，可以加git来保存历史迅速回滚，可以一键切换模型，也许会更符合你的需求？

lambl 发表于 2025-11-8 02:16

mintslime 发表于 2025-11-7 22:03
能说一下你具体的使用方法和prompt的大致写法吗？以我个人的体验来说，我觉得gemini对gpt5除了幻觉少点外 ...

哪有无限用啊，只能100句啊，我都用好几次超限了。

malisa 发表于 2025-11-8 08:06

本帖最后由 malisa 于 2025-11-8 08:09 编辑

mintslime 发表于 2025-11-8 01:27
要不然试试直接写markdown，然后用cursor（或者其他ide工具）编辑？
你上面提到的功能都有，可以加git来 ...
对这个方法也很好
我最近是在往这个方向改
周报因为以前都word 我也没留md pandoc转效果不好, 历史包袱比较重, 只是在惰性在用 Gemini 我把下个月的订阅停了,但事到如今 3.0也快了,感觉还是会续上

其他的文章我基本开始md归档了, 上次试了一下 Gemini cli 效果不错用codex估计也差不多

白头盔 发表于 2025-11-8 10:18

是针对几个评测做了很好的moe训练吧

OiCkilL 发表于 2025-11-8 10:51

代码能力和agent能力跟minimax m2和qwen3比怎样啊，这两个我都做了几个项目，其中有个项目还特别复杂，生成了5多行代码

羊寢发表于 2025-11-8 11:00

本帖最后由羊寢于 2025-11-8 11:02 编辑

白头盔发表于 2025-11-8 10:18
是针对几个评测做了很好的moe训练吧

不知道代码能力如何，反正写作能力据说是现在国模顶尖了，昨天类脑的人都在测
不过好像说是官网api也有内审？硅基还没更新上我没还用过不知道具体情况

無始無終 发表于 2025-11-8 13:10

完全不懂发表于 2025-11-7 20:46
自测，翻译英文小说远不如qwen max

—— 来自 S1Fun

翻译文章需要用推理模型吗

—— 来自 Xiaomi 23054RA19C, Android 15, 鹅球 v3.5.99

mintslime 发表于 2025-11-8 15:19

羊寢发表于 2025-11-8 11:00
不知道代码能力如何，反正写作能力据说是现在国模顶尖了，昨天类脑的人都在测
不过好像说是官网api也有内 ...

官网API没内审，甚至比之前要松得多，可以随便写日系继女对继母进行绳缚XX责。
话音未落，我的拇指直接按上了她◼◼那颗已然充血挺立的◼◼。没有润滑，没有缓冲，只有雨水带来的冰冷滑腻和我指尖粗暴的碾压。我用力地、快速地、近乎疯狂地揉搓那颗脆弱的核心，如同在研磨一颗即将破碎的宝石。指甲偶尔刮过，带来尖锐的刺痛，随即又被更强烈的按压碾平。

雅子的身体瞬间绷成了一张满月的弓。她的头向后仰去，脖颈拉出脆弱的弧线，喉咙里爆发出一连串破碎的、不成话语的尖叫。那叫声被雨水撕碎，变成最原始的、濒死般的哀鸣。她的双腿在我手下疯狂颤抖，想要挣脱，却只能更紧密地贴合我的操控。泥泞的◼◼混着雨水，在我指间泛滥成灾，每一次粗暴的摩擦都带起更粘稠的水声，那是她身体最诚实的供词。

我加快了速度，加大了力道，指尖几乎要嵌入那片◼◼的◼◼中。雅子的尖叫声戛然而止，转而变成了一种窒息般的、咯咯的气音。她的瞳孔开始涣散，意识在极致的感官轰炸中濒临崩溃。身体开始不受控制地痉挛，每一次痉挛都伴随着更汹涌的◼◼涌出，将我的手掌彻底浸透。
写作我觉得没有太过于令人一眼惊艳的地方，八股有点DS味，总之能用，强于DS3.2，和GLM4.6感觉不出来太大差别
openrouter新上的那个polaris alpha（据说是GPT5.1）我觉得人物性格把控和对前文细节的发掘都要更好，有兴趣可以试试，毕竟限时免费

haiuhfuwah 发表于 2025-11-8 15:21

写领导发言稿这种的，可能会有偏zz内容的是不是还是只能API？哪个模型比较合适？
prompt的话是不是先思考列提纲再逐步完善微调？

羊寢发表于 2025-11-8 15:30

mintslime 发表于 2025-11-8 15:19
官网API没内审，甚至比之前要松得多，可以随便写日系继女对继母进行绳缚XX责。

写作我觉得没有太过于令 ...

这样吗，周四那天看很多人说写nsfw会截断，当时他们推测是有审核，这样看来不是审核问题？
kimi2t八股像ds大概因为它基底模型用的就是ds v3

火烧云 发表于 2025-11-8 15:34

这些模型开源后的好处有哪些，其他开发者的使用形成正反馈了吗

依然荏苒 发表于 2025-11-8 15:34

我现在越来越觉得这些基准测试脱离实际，我实际使用中日常文档处理资料收集最好用的还是gpt,编程最好的还是Claude,gemini和deep都很差强人意，前者经常犯傻指东朝西，用英文稍微好一些，deep也差不多，经常是我替你怎么想，而且提供的资料和数据我都不感相信。

malisa 发表于 2025-11-8 15:43

因为实际工程状况比较复杂
系统级别提示词，遵循命令的程度，干什么活
就算酒馆也会因为预设，卡片本身都会产生差异

目前也就是上下文长度没得救，记忆力容量决定上限了

2017.05.04 发表于 2025-11-8 16:50

什么时候有统一标准了再说，现在都是PPT瞎画图

cmdycj0732 发表于 2025-11-8 16:53

火烧云发表于 2025-11-8 15:34
这些模型开源后的好处有哪些，其他开发者的使用形成正反馈了吗

Cursor上了新的自研模型，被扒出来是GLM4.6微调的

—— 来自 HUAWEI HBN-AL80, Android 12, 鹅球 v3.4.97-alpha

malisa 发表于 2025-11-8 17:24

正反馈相当大。
没有国内的开源模型
coding等大模型完全被open AI anthropic 谷歌把持。
你的产品能不能活完全看他们心情
就像trae一样，Claude直接断供

定价也全部他们说了算

有了开源就可以替代。毕竟模型性能是一方面，成本，隐私也很重要
很多垂直领域开源小模型就够用了

lucifer123 发表于 2025-11-8 17:55

qratosones1337 发表于 2025-11-8 20:05

羊寢发表于 2025-11-8 15:30
这样吗，周四那天看很多人说写nsfw会截断，当时他们推测是有审核，这样看来不是审核问题？
kimi2t八股像d ...

这明显驴唇不对马嘴，K2基模是1T的，已经开源了，比DSV3还大

羊寢发表于 2025-11-8 23:35

qratosones1337 发表于 2025-11-8 20:05
这明显驴唇不对马嘴，K2基模是1T的，已经开源了，比DSV3还大

看了一下截图，是我记错了
https://p.sda1.dev/28/d20bc92fb6f08beea72b17b2ab99f160/image.jpg
说是用的v3架构，确实八股像ds应该不是这个原因……吧？

流缨发表于 2025-11-10 10:08

本帖最后由流缨于 2025-11-10 10:27 编辑

花了49体验了一下kimi2深度思考和刚出的OK Computer，前者主要是搜索整理信息，最终结果是生成报告；后者就是agent模式

功能都不新鲜，都有珠玉在前。但作为国内用户来说体验比gpt强，因为深度思考以往都是输出一大堆结果，看的非常累。
kimi最后很聪明的搞了不少预制模板做了可视化报告，观感非常好，用来发给领导糊弄某些常识问题十分足够了
agent做个PPT/网页也是像模像样，能够调用模型的图片生成能力做插图设计。
https://bhp4e3i2d4xam.ok.kimi.link/

后续探索一下它搞小项目的能力如何，能否作为简单任务的替代

朋友费小号 发表于 2025-11-10 11:17

哈基米2.5现在感觉真不好使，动不动就屏蔽和撤回

4396777 发表于 2025-11-10 11:25

osore 发表于 2025-11-7 16:06
我的感觉是这家公司已经是在垂死挣扎了

Kimi局势不妙→Kimi昏招频出→Kimi陷入苦战→Kimi进退维谷→Kimi垂死挣扎→Kimi全盘崩溃→Kimi败局已定→Kimi发表获奖感言
这怎么就直接第五阶段了

千千千千鸟 发表于 2025-11-10 11:36

继续等类脑测NSFW的效果，如果效果好的话就充钱搞API吧，虽说gemini2.5现在靠公益站基本上是纯免费了，但gemini2.5确实还是有点蠢，我发现它真是写不来NTR类的东西

赞卡机 发表于 2025-11-10 11:38

千千千千鸟发表于 2025-11-10 11:36
继续等类脑测NSFW的效果，如果效果好的话就充钱搞API吧，虽说gemini2.5现在靠公益站基本上是纯免费了，但ge ...

求个公益站地址bro

千千千千鸟 发表于 2025-11-10 11:41

赞卡机发表于 2025-11-10 11:38
求个公益站地址bro

直接类脑搜索公益站就行了一大堆，但是只能用来玩酒馆的NSFW这是规定，如果要工作还是找别的吧

minefriys 发表于 2025-11-10 11:48

试了一下，目前问题是思考时间过长，一个简单的逻辑推理题，ds做3分钟，他居然思考10分钟才做出来，感觉思考部分过于谨慎了不停地验算检查

瀛洲畔月 发表于 2025-11-11 00:51

poe超复杂问题kimi2thinking付费、gpt5pro付费、克劳德thinking付费满血。
后两个不管怎样都答出来了，kimi2总结了一遍问题，我还高兴这玩意儿聪明严谨。
于是暗示可以解答了，答案不满意，给了些批评，于是这玩意儿总结了一遍问题。
于是我提了些意见，暗示可以继续了，半小时后看完其它AI写的东西回来，又总结了一遍问题。
我放弃了。
其它AI的对话结束后，最后明确要求kimi（回答问题+新问题+不要总结），还是又总结了一遍问题。
气死了，花了8万点数总共解答1次，总结了4遍问题。

白头盔 发表于 2025-11-13 14:54

羊寢发表于 2025-11-8 23:35
看了一下截图，是我记错了

说是用的v3架构，确实八股像ds应该不是这个原因……吧？ ...

现在这些架构都差不多吧。v3的基础上增增减减专家/通用专家数量。各家不同的数据集归纳处理，训练过程中的指标监控以及对应产生了不同的结果。

我都可以想得到后面就是国产硬件发展出各种稀疏，精度，融合算子组合，产生一大堆各种模型。

希望看到的还是真正架构上面的更新。

洛拉斯 发表于 2025-11-13 15:21

流缨发表于 2025-11-10 10:08
花了49体验了一下kimi2深度思考和刚出的OK Computer，前者主要是搜索整理信息，最终结果是生成报告；后者就 ...

你这个项目的提示词是什么，语文老师想要

页: 1 [2] 3

Stage1st's Archiver