malisa 发表于 2025-11-7 19:42
一个是比较懒 其实联网搜索不是很勤快,很多时候信息会比较旧,特别是写weekly的时候,日期稍不注意就给你改 ...
你是用gemini app吗,ai studio里面用会好一些,分支和手动开搜索也是支持的
mintslime 发表于 2025-11-7 20:02
你是用gemini app吗,ai studio里面用会好一些,分支和手动开搜索也是支持的
...
对 我交钱了 一般是app
我有些weekly和报告还离不开 Gemini
写作能力gpt太差了
最近在本地部署wan2.2玩,由于对程序方面的东西一窍不通,前阵子碰到问题都是问grok(openai和gemini也试了,反正回答ComfyUI方面的问题没grok好),这两天看都在讨论kimi,就也试了下k2,发现回答的准确率比grok高不少
之前测试过几次,几大 llm (DS/Qwen/GLM/Kimi/Gemini/Grok)试着过去,错了或者出现幻觉,跟他们说再确认或者指出问题所在,一般都会“好的,再确认,这是什么结果”,就 Kimi 一弱智精神小伙,“我承认错误,坚决改正”,然后就TM没了。这次 Kimi-K2-Thinking 跑分这么高,也谨慎观望。
本帖最后由 有土 于 2025-11-7 20:30 编辑
羊寢 发表于 2025-11-7 19:51
与此同时的鲸鱼娘:一个实验版本挂了一个半月,化身咸鱼(虽然知道下一次更新应该会整个大的,但一个实验 ...真是太喜欢鲸鱼的这种作风了
没有包月,很难实际使用
自测,翻译英文小说远不如qwen max
—— 来自 S1Fun
这种开源只是开weight吧
苏剑林还在moonshot吗?他家上下文是真的长。
1T模型本地用不了啊,100到200范围的模型还是gpt和qwen还有GLA的天下吧?
malisa 发表于 2025-11-7 20:09
对 我交钱了 一般是app
我有些weekly和报告还离不开 Gemini
写作能力gpt太差了 ...
能说一下你具体的使用方法和prompt的大致写法吗?以我个人的体验来说,我觉得gemini对gpt5除了幻觉少点外基本没有优势。
推荐要用gemini直接用aistudio网页端爽白嫖,连蕉都可以无限用。
mintslime 发表于 2025-11-7 22:03
能说一下你具体的使用方法和prompt的大致写法吗?以我个人的体验来说,我觉得gemini对gpt5除了幻觉少点外 ...
我是日文 最早的时候有 写了几版 微调过几次 都是canvas该写什么,一些词去掉之类
然后你跟着这个对话写下去就是,后面基本不用提示
就说新的一周开始了,然后贴材料和做一些细节指示就行了
大量上下文在这里 风格就稳定了
用canvas得理由是是可以选定范围ask 能ask就能微调 效率高很多
最大的优势还有就是连续性和记忆性
比如上一个客户没解决的事情,后续中文讲一下进展 就出来了 非常效率 命名都能保持一致
malisa 发表于 2025-11-7 22:09
我是日文 最早的时候有 写了几版 微调过几次 都是canvas该写什么,一些词去掉之类
然后你跟着这个对话写 ...
要不然试试直接写markdown,然后用cursor(或者其他ide工具)编辑?
你上面提到的功能都有,可以加git来保存历史迅速回滚,可以一键切换模型,也许会更符合你的需求?
mintslime 发表于 2025-11-7 22:03
能说一下你具体的使用方法和prompt的大致写法吗?以我个人的体验来说,我觉得gemini对gpt5除了幻觉少点外 ...
哪有无限用啊,只能100句啊,我都用好几次超限了。
本帖最后由 malisa 于 2025-11-8 08:09 编辑
mintslime 发表于 2025-11-8 01:27
要不然试试直接写markdown,然后用cursor(或者其他ide工具)编辑?
你上面提到的功能都有,可以加git来 ...
对 这个方法也很好
我最近是在往这个方向改
周报因为以前都word 我也没留md pandoc转效果不好, 历史包袱比较重, 只是在惰性在用 Gemini 我把下个月的订阅停了,但事到如今 3.0也快了,感觉还是会续上
其他的文章我基本开始md归档了, 上次试了一下 Gemini cli 效果不错 用codex估计也差不多
是针对几个评测做了很好的moe训练吧
代码能力和agent能力跟minimax m2和qwen3比怎样啊,这两个我都做了几个项目,其中有个项目还特别复杂,生成了5多行代码
本帖最后由 羊寢 于 2025-11-8 11:02 编辑
白头盔 发表于 2025-11-8 10:18
是针对几个评测做了很好的moe训练吧
不知道代码能力如何,反正写作能力据说是现在国模顶尖了,昨天类脑的人都在测
不过好像说是官网api也有内审?硅基还没更新上我没还用过不知道具体情况
完全不懂 发表于 2025-11-7 20:46
自测,翻译英文小说远不如qwen max
—— 来自 S1Fun
翻译文章需要用推理模型吗
—— 来自 Xiaomi 23054RA19C, Android 15, 鹅球 v3.5.99
羊寢 发表于 2025-11-8 11:00
不知道代码能力如何,反正写作能力据说是现在国模顶尖了,昨天类脑的人都在测
不过好像说是官网api也有内 ...
官网API没内审,甚至比之前要松得多,可以随便写日系继女对继母进行绳缚XX责。
话音未落,我的拇指直接按上了她◼◼那颗已然充血挺立的◼◼。没有润滑,没有缓冲,只有雨水带来的冰冷滑腻和我指尖粗暴的碾压。我用力地、快速地、近乎疯狂地揉搓那颗脆弱的核心,如同在研磨一颗即将破碎的宝石。指甲偶尔刮过,带来尖锐的刺痛,随即又被更强烈的按压碾平。
雅子的身体瞬间绷成了一张满月的弓。她的头向后仰去,脖颈拉出脆弱的弧线,喉咙里爆发出一连串破碎的、不成话语的尖叫。那叫声被雨水撕碎,变成最原始的、濒死般的哀鸣。她的双腿在我手下疯狂颤抖,想要挣脱,却只能更紧密地贴合我的操控。泥泞的◼◼混着雨水,在我指间泛滥成灾,每一次粗暴的摩擦都带起更粘稠的水声,那是她身体最诚实的供词。
我加快了速度,加大了力道,指尖几乎要嵌入那片◼◼的◼◼中。雅子的尖叫声戛然而止,转而变成了一种窒息般的、咯咯的气音。她的瞳孔开始涣散,意识在极致的感官轰炸中濒临崩溃。身体开始不受控制地痉挛,每一次痉挛都伴随着更汹涌的◼◼涌出,将我的手掌彻底浸透。
写作我觉得没有太过于令人一眼惊艳的地方,八股有点DS味,总之能用,强于DS3.2,和GLM4.6感觉不出来太大差别
openrouter新上的那个polaris alpha(据说是GPT5.1)我觉得人物性格把控和对前文细节的发掘都要更好,有兴趣可以试试,毕竟限时免费
写领导发言稿这种的,可能会有偏zz内容的是不是还是只能API?哪个模型比较合适?
prompt的话是不是先思考列提纲再逐步完善微调?
mintslime 发表于 2025-11-8 15:19
官网API没内审,甚至比之前要松得多,可以随便写日系继女对继母进行绳缚XX责。
写作我觉得没有太过于令 ...
这样吗,周四那天看很多人说写nsfw会截断,当时他们推测是有审核,这样看来不是审核问题?
kimi2t八股像ds大概因为它基底模型用的就是ds v3
这些模型开源后的好处有哪些,其他开发者的使用形成正反馈了吗
我现在越来越觉得这些基准测试脱离实际,我实际使用中日常文档处理资料收集最好用的还是gpt,编程最好的还是Claude,gemini和deep都很差强人意,前者经常犯傻指东朝西,用英文稍微好一些,deep也差不多,经常是我替你怎么想,而且提供的资料和数据我都不感相信。
因为实际工程状况比较复杂
系统级别提示词,遵循命令的程度,干什么活
就算酒馆也会因为预设,卡片本身都会产生差异
目前也就是上下文长度没得救,记忆力容量决定上限了
什么时候有统一标准了再说,现在都是PPT瞎画图
火烧云 发表于 2025-11-8 15:34
这些模型开源后的好处有哪些,其他开发者的使用形成正反馈了吗
Cursor上了新的自研模型,被扒出来是GLM4.6微调的
—— 来自 HUAWEI HBN-AL80, Android 12, 鹅球 v3.4.97-alpha
正反馈相当大。
没有国内的开源模型
coding等大模型完全被open AI anthropic 谷歌把持。
你的产品能不能活完全看他们心情
就像trae一样,Claude直接断供
定价也全部他们说了算
有了开源就可以替代。毕竟模型性能是一方面,成本,隐私也很重要
很多垂直领域开源小模型就够用了
羊寢 发表于 2025-11-8 15:30
这样吗,周四那天看很多人说写nsfw会截断,当时他们推测是有审核,这样看来不是审核问题?
kimi2t八股像d ...
这明显驴唇不对马嘴,K2基模是1T的,已经开源了,比DSV3还大
qratosones1337 发表于 2025-11-8 20:05
这明显驴唇不对马嘴,K2基模是1T的,已经开源了,比DSV3还大
看了一下截图,是我记错了
https://p.sda1.dev/28/d20bc92fb6f08beea72b17b2ab99f160/image.jpg
说是用的v3架构,确实八股像ds应该不是这个原因……吧?
本帖最后由 流缨 于 2025-11-10 10:27 编辑
花了49体验了一下kimi2深度思考和刚出的OK Computer,前者主要是搜索整理信息,最终结果是生成报告;后者就是agent模式
功能都不新鲜,都有珠玉在前。但作为国内用户来说体验比gpt强,因为深度思考以往都是输出一大堆结果,看的非常累。
kimi最后很聪明的搞了不少预制模板做了可视化报告,观感非常好,用来发给领导糊弄某些常识问题十分足够了
agent做个PPT/网页也是像模像样,能够调用模型的图片生成能力做插图设计。
https://bhp4e3i2d4xam.ok.kimi.link/
后续探索一下它搞小项目的能力如何,能否作为简单任务的替代
哈基米2.5现在感觉真不好使,动不动就屏蔽和撤回
osore 发表于 2025-11-7 16:06
我的感觉是这家公司已经是在垂死挣扎了
Kimi局势不妙→Kimi昏招频出→Kimi陷入苦战→Kimi进退维谷→Kimi垂死挣扎→Kimi全盘崩溃→Kimi败局已定→Kimi发表获奖感言
这怎么就直接第五阶段了
继续等类脑测NSFW的效果,如果效果好的话就充钱搞API吧,虽说gemini2.5现在靠公益站基本上是纯免费了,但gemini2.5确实还是有点蠢,我发现它真是写不来NTR类的东西
千千千千鸟 发表于 2025-11-10 11:36
继续等类脑测NSFW的效果,如果效果好的话就充钱搞API吧,虽说gemini2.5现在靠公益站基本上是纯免费了,但ge ...
求个公益站地址bro
赞卡机 发表于 2025-11-10 11:38
求个公益站地址bro
直接类脑搜索公益站就行了一大堆,但是只能用来玩酒馆的NSFW这是规定,如果要工作还是找别的吧
试了一下,目前问题是思考时间过长,一个简单的逻辑推理题,ds做3分钟,他居然思考10分钟才做出来,感觉思考部分过于谨慎了不停地验算检查
poe超复杂问题kimi2thinking付费、gpt5pro付费、克劳德thinking付费满血。
后两个不管怎样都答出来了,kimi2总结了一遍问题,我还高兴这玩意儿聪明严谨。
于是暗示可以解答了,答案不满意,给了些批评,于是这玩意儿总结了一遍问题。
于是我提了些意见,暗示可以继续了,半小时后看完其它AI写的东西回来,又总结了一遍问题。
我放弃了。
其它AI的对话结束后,最后明确要求kimi(回答问题+新问题+不要总结),还是又总结了一遍问题。
气死了,花了8万点数总共解答1次,总结了4遍问题。
羊寢 发表于 2025-11-8 23:35
看了一下截图,是我记错了
说是用的v3架构,确实八股像ds应该不是这个原因……吧? ...
现在这些架构都差不多吧。v3的基础上增增减减专家/通用专家数量。各家不同的数据集归纳处理,训练过程中的指标监控以及对应产生了不同的结果。
我都可以想得到后面就是国产硬件发展出各种稀疏,精度,融合算子组合,产生一大堆各种模型。
希望看到的还是真正架构上面的更新。
流缨 发表于 2025-11-10 10:08
花了49体验了一下kimi2深度思考和刚出的OK Computer,前者主要是搜索整理信息,最终结果是生成报告;后者就 ...
你这个项目的提示词是什么,语文老师想要