华为ai超节点算力发展路线图,27年是今年7.5倍,30年是今年125倍
坛子里之前的帖子对韬定律讨论的很多,但是对关于ai算力发展的一张图讨论的较少,我把它单独拿出来发一篇帖子。https://p.sda1.dev/32/d78dcddc605967827a5c5c474aacfaff/image.jpg
如图,以今年阿特拉斯950超节点算力为基准,明年阿特拉斯960超节点算力可达其7.5倍,2030年的下一代超节点可达125倍。如果这个路线图基本为真,且可以用于大模型训练,那么我们完全可以期待国产模型在解决算力瓶颈的情况下会有怎样的表现。 950 单机 1P (FP8),8K 的 superpod 集群算 8E;如果 supoerpod 规模扩大 8 倍,单机需要提升 16 倍才能到 Z flops 这个级别;nvidia 最新的 Rubin FP8 是 17.5P,一个数量级
结论:如果按照上面的推演,2030 年 hw 单卡能达到 2026 年 rubin 同等级的 fp8 算力 950的8eflops是8192张卡的fp8
960的60eflops是15488张卡的fp4
这是说明超节点scaling做得好
你们别看张图就看图说话自己臆想。。
—— 来自 OPPO PKU110, Android 16, 鹅球 v3.5.99 本帖最后由 TuzDoDez 于 2026-5-25 22:07 编辑
昇腾超节点的算力和hbm容量本身是足够训练模型的,之前的问题不出在算力上,而是算子、精度对齐、生态等问题。
别说昇腾了,连tpu也被midjourney甩锅说拖慢训练进度导致落后。
非n卡的预训练本来就是得要大厂才有实力搞定的。gap主要在这里。 StrangerJ 发表于 2026-5-25 21:47
950的8eflops是8192张卡的fp8
960的60eflops是15488张卡的fp4
这是说明超节点scaling做得好
我也没有比单张芯片,是作为超节点整体来对比的。
ai算力卡又不是手机芯片要单张对单张,既然推理训练都是集群协同,那么就看整体算力,能训练多大规模的模型,能做出多大规模吞吐量即可。 不知 发表于 2026-5-25 23:30
我也没有比单张芯片,是作为超节点整体来对比的。
ai算力卡又不是手机芯片要单张对单张,既然推理训练都 ...
其他训练瓶颈都能想办法绕
但张量并行瓶颈没法绕, 老黄的nvl72就是上限了,这个大小决定了模型大小
华为的超节点理论上应付张量并行更好. 950/960的 8k/16k卡集群天然可以更快更好训练更大的模型
当然咯...具体落地如何,估计还得看deepseek的. 950开始往卡上塞的 net/访存 协处理器估计就是为这个服务的.
phorcys02 发表于 2026-5-26 02:01
其他训练瓶颈都能想办法绕
但张量并行瓶颈没法绕, 老黄的nvl72就是上限了,这个大小决定了模型大小
华为的 ...
如果华为接下来几年的目标是在晶体管大小变化不大的情况下尽力减小时延,那么cerebras这种思路是不是也值得做一下?不知道国内有没有人在这么做。 这样好么??那岂不是宣布现在不要买??? junqqq999 发表于 2026-5-26 08:48
这样好么??那岂不是宣布现在不要买???
说不定950和960的订单已经排到30年了呢。
—— 来自 LENOVO TB322FC, Android 16, 鹅球 v3.5.99 junqqq999 发表于 2026-5-26 08:48
这样好么??那岂不是宣布现在不要买???
AI就是这样,硬件抢到就是赚到,你抢了友商就没得用
页:
[1]