GPT4-o-mini发布，直接杀死了LLM降价比赛。更新：mini微调上线

泰坦失足 发表于 2024-7-19 07:52

本帖最后由泰坦失足于 2024-7-24 04:40 编辑

百万tokens输入15美分，输出60美分。比广大api服务（除了deepseek）都便宜。甚至比天天嚷嚷的百度的国内价格都是便宜。官方页面没和国内模型以及开源模型比，只说比谷歌和克劳德上强。
最重要的1点：支持多模态图形输入，这点是别的任何其他模型都做不好或者不提供服务的。gpt4v的效果更是顶级。
第二点：新闻宣布提供gpt4omini的微调服务。byd openai最开始公布gpt4时候就说这太危险了，不向非企业合作伙伴提供gpt4微调，至今都只有gpt3.5的微调服务。即使能微调的开源模型和同行早就超过3.5的水平了
不太重要的一点：再次强调安全，想用来nsfw的请继续自寻无审查模型。
之后可以用llm低成本驱动自动化脚本了，而不是常规的状态机了。甚至图像识别都能直接喂给llm

Nanachi 发表于 2024-7-19 08:09

一直用deepseek翻译网页

论坛助手,iPhone

oswald 发表于 2024-7-19 08:15

所以有什么稳定的获取openai api key的方式吗，没国外的信用卡

—— 来自鹅球 v3.0.86-alpha

Van夫膜开 发表于 2024-7-19 08:36

deepseek没比gpt4o差多少，除非特殊需求，deepseek基本上可以替代

zyhang 发表于 2024-7-19 08:49

有说模型是多大的了吗

泰坦失足 发表于 2024-7-19 08:51

zyhang 发表于 2024-7-19 08:49
有说模型是多大的了吗

Openai没正式公布过参数

Midnight.Coup 发表于 2024-7-19 09:33

国内API不是不给用了

bixinhaner 发表于 2024-7-19 10:01

确实便宜，个人使用都可以随便造了。不知道和gpt4o差距多少

Junakr 发表于 2024-7-19 10:07

128k 上下文窗口和 16k 的输出，比 3.5turbo 还便宜一个量级的价格。
比赛？OpenAI 从不和你比赛。

yufangwen 发表于 2024-7-19 10:42

Midnight.Coup 发表于 2024-7-19 09:33
国内API不是不给用了

什么时候给用过

schneehertz 发表于 2024-7-19 10:44

很久没用3.5了，一直都在用4o

—— 来自鹅球 v3.0.87-alpha

wuuuuuud 发表于 2024-7-19 10:46

前两个月论坛不是还有帖子说中国的大模型公司没有技术只会降价……

紧那罗 发表于 2024-7-19 11:35

上个月刚把长文本总结相关的应用切到国内的kimi 这是又要切回去吗

所以无审查模型有啥推荐的吗

andychen 发表于 2024-7-19 12:53

回头试试这个fine tune效果如何

andychen 发表于 2024-7-19 12:58

oswald 发表于 2024-7-19 08:15
所以有什么稳定的获取openai api key的方式吗，没国外的信用卡

—— 来自鹅球 v3.0.86-alpha ...

那基本上就是国内的各种二道贩子了，我个人目前在用这个 https://burn.hair/

跑一些个人娱乐项目没啥问题，如果有商用打算还是自己用官方渠道最好

泰坦失足 发表于 2024-7-19 13:07

andychen 发表于 2024-7-19 12:53
回头试试这个fine tune效果如何

我看了一下，我的后台目前还没有开放，一直以来都只有3.5可以用。不知道他这个新闻稿里说的是对那些开放了4微调的企业级用户。

andychen 发表于 2024-7-19 13:09

泰坦失足发表于 2024-7-19 13:07
我看了一下，我的后台目前还没有开放，一直以来都只有3.5可以用。不知道他这个新闻稿里说的是对那些开放 ...

我的也没有，估计还得等等

qratosones1337 发表于 2024-7-19 13:55

杀死个勾八，24年7月发布的模型，训练数据截止到23年10月，然后明明成本都已经降下来了却依然不支持联网搜索（哪怕Plus会员）

诚司发表于 2024-7-19 14:20

本帖最后由诚司于 2024-7-19 14:24 编辑

紧那罗发表于 2024-7-19 11:35
上个月刚把长文本总结相关的应用切到国内的kimi 这是又要切回去吗

所以无审查模型有啥推荐的吗 ...
api审查比较少的只有command R+
本地的那可多了，dolphin系模型都删除了sft里的拒答，不过并不是完全去审查
完全无审查的话，可以用casuallm 35b long，是基于command R练的模型，这个得益于command 系模型的低审查强度，是完全无审查的，以至于完全是黄文看多了那种

万事皆允 发表于 2024-7-19 14:32

oswald 发表于 2024-7-19 08:15
所以有什么稳定的获取openai api key的方式吗，没国外的信用卡

—— 来自鹅球 v3.0.86-alpha ...

搞个虚拟信用卡?wildcard

Nanachi 发表于 2024-7-19 14:48

美国时间 2024 年 7 月 16 日，LMSYS 组织的大模型竞技场（Chatbot Arena）更新结果发布，DeepSeek-V2-0628 超越 Llama3-70B、Qwen2-72B、Nemotron-4-340B、Gemma2-27B 等开源模型，登上全球开源模型榜首。

勿徊哉 发表于 2024-7-19 15:12

Nanachi 发表于 2024-7-19 14:48

这种评分是不是类似于围棋的等级分？
感觉还挺合适的。

chaucerling 发表于 2024-7-19 15:16

無始無終 发表于 2024-7-20 09:44

Nanachi 发表于 2024-7-19 14:48

DeepSeek V2主要是不支持多模态吧

—— 来自 S1Fun

↓↘→AB 发表于 2024-7-20 10:20

泰坦失足发表于 2024-7-19 08:51
Openai没正式公布过参数

老黄泄漏过，最大的模型好像是个位数trillion？顶上还有mixture，记不得了，有兴趣可以查一查

— from Razer Phone 2, Android 9 of S1 Next Goose v2.5.2-play

↓↘→AB 发表于 2024-7-20 10:26

本帖最后由 ↓↘→AB 于 2024-7-20 10:31 编辑

性能介于4o和3.5turbo之间，目测可能是7～30B级别的模型？悬念不在performance，而在inference成本优化到了什么程度，15分每million的价格可能已经低于无优化跑7b模型的**了。

— from Razer Phone 2, Android 9 of S1 Next Goose v2.5.2-play

qratosones1337 发表于 2024-7-20 11:38

無始無終发表于 2024-7-20 09:44
DeepSeek V2主要是不支持多模态吧

—— 来自 S1Fun

官网版4o mini好像也没法上传图片

—— 来自 HUAWEI HBN-AL80, Android 12上的 S1Next-鹅版 v2.5.4

godke 发表于 2024-7-20 13:15

qratosones1337 发表于 2024-7-20 11:38
官网版4o mini好像也没法上传图片

—— 来自 HUAWEI HBN-AL80, Android 12上的 S1Next-鹅版 v2.5.4 ...

poe的4o mini好像可以

7776169 发表于 2024-7-20 16:31

诚司发表于 2024-7-19 14:20
api审查比较少的只有command R+
本地的那可多了，dolphin系模型都删除了sft里的拒答，不过并不是完全去审 ...

我去抱脸看了眼casuallm 35B LONG那里直接说不会在抱脸批下载允许了

那么还能去哪里下？

诚司发表于 2024-7-20 16:40

7776169 发表于 2024-7-20 16:31
我去抱脸看了眼casuallm 35B LONG那里直接说不会在抱脸批下载允许了

那么还能去哪里下？ ...

https://hf-mirror.com/bartowski/35b-beta-long-GGUF

这个gguf只有8bit以下的，不过自己用也够了吧
我这倒是有fp16的，你需要再说

7776169 发表于 2024-7-20 16:53

诚司发表于 2024-7-20 16:40
https://hf-mirror.com/bartowski/35b-beta-long-GGUF

这个gguf只有8bit以下的，不过自己用也够了吧

足够了
我也就8G显存而已

诚司发表于 2024-7-20 17:01

本帖最后由诚司于 2024-7-20 17:02 编辑

7776169 发表于 2024-7-20 16:53
足够了
我也就8G显存而已
那跑不起来的，不用下了，用causallm 7b吧
35b的这个基于command R，这模型没有GQA，8k左右长度下kv cache显存占的也多，至少也要两个16G或者24G的显卡

不过7b和35b是天壤之别，更别说8g只能跑量化后的7b，量化后的7b基本上各方面都不怎么行……而35b，我在酒馆拿来玩，基本上70%的情况下，跑三十多轮对话都不太会崩

7776169 发表于 2024-7-20 17:23

本帖最后由 7776169 于 2024-7-20 18:07 编辑

诚司发表于 2024-7-20 17:01
那跑不起来的，不用下了，用causallm 7b吧
35b的这个基于command R，这模型没有GQA，8k左右长度下kv cache ...
我也就是随便试试看而已
换显卡也是没钱的啦

试了下用这个https://hf-mirror.com/tastypear/ ... lpha-GGUF/tree/main

重新试了下，可以不量化跑
呃。。。。。。。

RookieTnT 发表于 2024-7-20 18:13

gpt4o mini 比 gpt4o 还要缩小.
并且这里面的识图价格和 gpt4o 是一样的. (强烈怀疑这识图就是4o)

这东西就是为了狙击 claude haiku 的.还杀死llm降价比赛.
closeAI 天天画饼. sora多少个月了出来了吗?

RookieTnT 发表于 2024-7-20 18:18

gpt4o跟claude 3.5 sonnet比简直就像弱智一样

池袋西柚 发表于 2024-7-20 18:27

RookieTnT 发表于 2024-7-20 18:18
gpt4o跟claude 3.5 sonnet比简直就像弱智一样

求问claude现在有什么好的使用渠道吗？之前账号老是被封禁就放弃使用了

RookieTnT 发表于 2024-7-20 18:53

池袋西柚发表于 2024-7-20 18:27
求问claude现在有什么好的使用渠道吗？之前账号老是被封禁就放弃使用了

IP问题, sim卡问题. 有能力的开张esim月抛来解决
特别注意注册时所用的环境与IP质量
解决不了就直接找API中转商把.
反正不贵. 代码能力比gpt4o强不少.

我的calude 是刚出就用Google账号注册了的. 一直用到现在

qratosones1337 发表于 2024-7-20 23:10

池袋西柚发表于 2024-7-20 18:27
求问claude现在有什么好的使用渠道吗？之前账号老是被封禁就放弃使用了

直接poe.com吧

7776169 发表于 2024-7-21 09:45

诚司发表于 2024-7-20 17:01
那跑不起来的，不用下了，用causallm 7b吧
35b的这个基于command R，这模型没有GQA，8k左右长度下kv cache ...

又试了下
勉强能跑35b-beta-long-IQ1_S.gguf这个

就是速度慢的像石头门的嘟嘟噜在说话
（（（（

诚司发表于 2024-7-21 09:53

本帖最后由诚司于 2024-7-21 09:55 编辑

7776169 发表于 2024-7-21 09:45
又试了下
勉强能跑35b-beta-long-IQ1_S.gguf这个

显存不够可以offload到内存上，cpu跑，大于8G的模型也可以。不过不够5 tokens/s的话，流式输出人类根本忍不了，一般14b人类还能忍，30+ B的用cpu都不太行

我试过Qwen1.5 32B可以搭配Qwen1.5 1.8B，llama.cpp用投机采样加速一点（但需要修改源码里的宏定义然后重新编译），但command r就没办法了，没有同样tokenizer的小模型，没法投机采样

页: [1] 2

Stage1st's Archiver

GPT4-o-mini发布，直接杀死了LLM降价比赛。更新：mini微调上线