卡片召唤师
精华
|
战斗力 鹅
|
回帖 0
注册时间 2025-1-8
|
离职掀桌!Mistral被曝“蒸馏”DeepSeek。
网友在推特上爆料,一位Mistral离职女员工群发邮件,直指公司多项黑幕。
其中最劲爆的就是:Mistral最新模型疑似直接蒸馏自DeepSeek,却对外包装成RL成功案例,并刻意歪曲基准测试结果。说到Mistral,这家公司被誉为欧洲版OpenAI,是全球开源明星玩家之一,模型性能一直备受好评。
也正因为声誉突出,这次爆料才显得格外震撼。
早在今年6月,就有博主通过“语言指纹”分析,发现Mistral-small-3.2和DeepSeek-v3很像。
有意思的是——今年2月,还有网友调侃DeepSeek是“中国的Mistral”。结果半年过去,剧情反转:Mistral不仅没跑赢DeepSeek,还被曝“借”了人家的成果。这波啊,这波叫回旋镖自带GPS,绕半圈又精准扎回自己身上。
Mistral蒸馏DeepSeek实锤
就像我们开头提到的,推特博主Sam Peach通过分析模型输出中过度使用的词汇模式(Slop),发现了Mistral-small-3.2与DeepSeek-v3之间令人惊讶的高度相似性。
这种相似性通常很难通过独立训练偶然出现,所以很可能就是蒸馏(distillation)的结果:Mistral-small-3.2“学习”了DeepSeek-v3的输出风格。具体来说,Sam Peach是这样做的。他先统计了模型在创意写作(creativewriting)的输出中,比人类文本更常出现的词和n-gram(词组)。然后他把这些把数据整合起来,形成一个特征集。最后把这些高频特征进行层次聚类(hierarchicalclustering),生成了一张“相似性图”。
通过比较相似性图中模型的远近位置,就可以发现Mistral-small-3.2和DeepSeek-v3在图中非常接近,这就表明了它们的输出模式高度相似。
最新的爆料则进一步指明,Mistral模型和DeepSeek相似不是巧合,而是可能使用了蒸馏。由于爆料人Susan Zhang的推特设置可见范围,更多爆料信息暂时无从得知。但这里需要说明,蒸馏并不是一件违规的事,现在很多模型都是通过这一方法快速提升能力。
Mistral的问题在于,可能隐藏了这部分事实。离职员工说,Mistral这样做是在假装自家模型的强化学习有效,这不仅歪曲了基准测试结果,而且误导公众。不少人也认同这一观点:蒸馏模型必须标注,保持透明性才是关键。
真不体面啊,欧公子
论坛助手,iPhone |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
评分
-
查看全部评分
|