andychen 发表于 2023-11-11 08:24

本帖最后由 andychen 于 2023-11-11 08:28 编辑

DeepFishing 发表于 2023-11-10 18:54
提带宽,斩点算力还不行嘛,跑大规模训练本身瓶颈就不是单卡算力了,楼里吹国产加速器的,有几个真的用过的 ...
带宽早在上波制裁就被限制了,A800和H800对比原版唯一的阉割就是带宽。现在变成算力也要限制
至于国产加速器,单卡互联目前应该没有能和nvlink竞争的产品,不过这个老早就被限制了。集群间的话我们是有能和infiband竞争的技术,只是那是给军方超算开发的……不知道国家看到目前的情况会不会通过某种方式转移到民用

andychen 发表于 2023-11-11 08:28

Lokad 发表于 2023-11-10 19:08
华为的昇腾主要是产能吃紧,有说订单排到几年后的.求大于供买的肯定是有,不过华为市占率以前也就10%,这 ...

不相信产能会有瓶颈
现在麒麟9000s都放开出货了,升腾出货量和麒麟比就是零头,利润率还高,华为不是傻子

qieqie 发表于 2023-11-11 08:48

老美上一波制裁的指标是显存带宽,新一波(就是涵盖4090的这一波)改成算力/功耗比了。
但对于LLM任务,Transformer是典型的低计算访存比的模型(相对于视觉任务的CNN等模型),吃算力只有占比不多的Matmul,相关的优化方法也基本都是提升访存,比如page attention 和量化。提升core使用率主要靠大batch,但推理任务上不一定可以做到。

shiraikuroko 发表于 2023-11-11 09:17

Lokad 发表于 2023-11-10 19:08
华为的昇腾主要是产能吃紧,有说订单排到几年后的.求大于供买的肯定是有,不过华为市占率以前也就10%,这 ...

国内已经快垄断了

急需下一个竞争对手入场,否则华为坐摇拥超额利润,不利于行业竞争

—— 来自 HUAWEI ELE-AL00, Android 10上的 S1Next-鹅版 v2.5.4

shiraikuroko 发表于 2023-11-11 09:19

andychen 发表于 2023-11-11 08:24
带宽早在上波制裁就被限制了,A800和H800对比原版唯一的阉割就是带宽。现在变成算力也要限制
至于国产加速 ...

910b卡间互联是392gb/s,下一代说要翻倍,对标nvlink

做别的华为不好说,做通信那是肯定不虚任何人

—— 来自 HUAWEI ELE-AL00, Android 10上的 S1Next-鹅版 v2.5.4

Lokad 发表于 2023-11-11 09:37

pf67 发表于 2023-11-11 11:39

这贴坛友是怎么想的,推理速度当然也是瓶颈,特别是对于商用场景

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4

Slyvan 发表于 2023-11-11 11:41

老黄 : 你觉得我哪里比他好, 我改还不行么   

qratosones1337 发表于 2023-11-11 11:47

琉璃苑軒風 发表于 2023-11-10 17:28
黄世仁是懂,要打压国内,需要的是造不如买

现在断供几次,有不少国内入局了,而且中国市场足够养 ...

不是“足够养出”而是“已经在卖了”,之前华子的人来我司宣讲的时候说1017之前910B的意向订单已经10W卡了,1017之后估计要直接翻倍

qratosones1337 发表于 2023-11-11 11:49

andychen 发表于 2023-11-11 08:24
带宽早在上波制裁就被限制了,A800和H800对比原版唯一的阉割就是带宽。现在变成算力也要限制
至于国产加速 ...

同样是华子的人PPT上的指标,目前910B对比A100(充分调优的集群),平均单卡性能比例在0.8以上(取决于不同模型),目前最高的记录是LLama-70B的1.2,即910B平均单卡性能是A100的1.2倍

phorcys02 发表于 2023-11-11 22:02

andychen 发表于 2023-11-11 08:24
带宽早在上波制裁就被限制了,A800和H800对比原版唯一的阉割就是带宽。现在变成算力也要限制
至于国产加速 ...

910b 内就集成 对标 iB 的华子自己的 200Gb/s RoCE啊
还省个pci-e和ib网卡钱,交换机也现成的
华子自称比ib好...

shiraikuroko 发表于 2023-11-12 02:31

phorcys02 发表于 2023-11-11 22:02
910b 内就集成 对标 iB 的华子自己的 200Gb/s RoCE啊
还省个pci-e和ib网卡钱,交换机也现成的
华子自称比 ...

h100强在nvlink交换机,910b卡间互联就392g,还不能直接nvlink互联远端

—— 来自 HUAWEI ELE-AL00, Android 10上的 S1Next-鹅版 v2.5.4

苇原雪道 发表于 2023-11-12 02:43

本帖最后由 苇原雪道 于 2023-11-12 09:57 编辑

为啥推理只需要这么低的算力啊。。。

phorcys02 发表于 2023-11-12 04:17

本帖最后由 phorcys02 于 2023-11-12 04:27 编辑

shiraikuroko 发表于 2023-11-12 02:31
h100强在nvlink交换机,910b卡间互联就392g,还不能直接nvlink互联远端

—— 来自 HUAWEI ELE-AL00, And ...
你的理解可能有偏差,被 那个 392G带偏了

19年 910的时候 就是 3x 240G HCCS + 2x 100G RoCE + PCI-e 4.0x16


22年的新910b已经是 2x 100G RoCE(也有说200G的) + PCI-e 5.0 x 16 +3x 392G HCCS

910系列的HCCS是4卡全相联 + 组间RoCE交换 (单机8卡 两组4卡间也可以pci-e),不像 nvlink是全交换
但 nvlink 3时代堆满switch芯片也最多只有16卡,剩下的也得走IB了
h100 nv搞了nvlink-network,可以消耗nvlink端口转成可以跨机链接的网络
910的优势是每个卡都有 现成100G/200G RoCE,接上RoCE交换机就可以顺利scale up,做交换机是华子擅长的,以后也可以轻松升级到 400G 800G
所以互联带宽有差距,但没有简单对比 392 vs 900那么大



shiraikuroko 发表于 2023-11-12 08:41

phorcys02 发表于 2023-11-12 04:17
你的理解可能有偏差,被 那个 392G带偏了

19年 910的时候 就是 3x 240G HCCS + 2x 100G RoCE + PCI-e 4.0 ...

单机8卡是走两个cpu的,cpu间numa速度撑不起4卡借pcie5.0交换(不跨numa勉强吧)

nvlink switch可以把高速互联的节点扩大到至少256,这以内910b都是明显劣势

—— 来自 HUAWEI ELE-AL00, Android 10上的 S1Next-鹅版 v2.5.4

春眠不觉晓 发表于 2023-11-12 15:44

andychen 发表于 2023-11-11 08:24
带宽早在上波制裁就被限制了,A800和H800对比原版唯一的阉割就是带宽。现在变成算力也要限制
至于国产加速 ...

美国最近的规则取消带宽限制了

春眠不觉晓 发表于 2023-11-12 15:50

qratosones1337 发表于 2023-11-11 11:47
不是“足够养出”而是“已经在卖了”,之前华子的人来我司宣讲的时候说1017之前910B的意向订单已经10W卡 ...

910B大概啥价格啊?

qratosones1337 发表于 2023-11-12 16:13

春眠不觉晓 发表于 2023-11-12 15:50
910B大概啥价格啊?

京东搜Atlas300T

—— 来自 HUAWEI ALN-AL80, Android 12上的 S1Next-鹅版 v2.5.4

7776169 发表于 2023-11-12 16:36

qratosones1337 发表于 2023-11-12 16:13
京东搜Atlas300T

—— 来自 HUAWEI ALN-AL80, Android 12上的 S1Next-鹅版 v2.5.4

随便搜了下
13W7一件
妈妈耶

wewai 发表于 2023-11-12 23:28

Dylan Patel 老熟人了这位老喜欢玩中国**,至于有谁信就不好说了

比如之前9000S的时候吹N+2制程良率非常好,接着搞还可以搞出5nm,两年内追上GPT-4
另一方面是认为美国太拉,STEM 大半靠外国人撑着,国内没有 tinkering 的文化
至于目的是啥,后者它列了十一条促进美国半导体发展的建议,前者更是直接甩出二十条全面加强全产业链制裁的建议

他的东西你看两篇就知道对于每件事情他总是在往他的预设立场上解释,就比如这个定制硬件性能更好在专业领域本来是很正常的事情,他直接整了个 UC 系标题

shiraikuroko 发表于 2023-11-13 07:55

7776169 发表于 2023-11-12 16:36
随便搜了下
13W7一件
妈妈耶

64g hbm版本大概10万一张

—— 来自 HUAWEI ELE-AL00, Android 10上的 S1Next-鹅版 v2.5.4

shiraikuroko 发表于 2023-11-14 13:16

本帖最后由 shiraikuroko 于 2023-11-14 13:43 编辑

phorcys02 发表于 2023-11-12 04:17
你的理解可能有偏差,被 那个 392G带偏了

19年 910的时候 就是 3x 240G HCCS + 2x 100G RoCE + PCI-e 4.0 ...
你不会没分清gbit/s和gByte/s吧?

3*240gpbs HCCS+2* 100gbps,这里只有920gbps=115GB/S,哪怕加上PCI-E 4.0双向带宽64GB/S,也才是179GB/S

910B的3*392gbps+2*200gbps=197GB/S,加上PCI-E 5.0的128GB/S,最大互联带宽也仅有325GB/S,PCI-E带宽还是要打折的
华为写的说明更低:

stevenzero 发表于 2023-11-14 15:47

H20对比H800算力都被阉成狗了,就加了显存带宽。除非大家默认这卡就是可以有办法开核。

h89346 发表于 2023-11-14 16:44

飞火 发表于 2023-11-10 20:27
西大现在得半导体政策真是突出一个养狼政策。
对于自己优势商品不是搞倾销而是禁售,这是把资本主义玩脑抽 ...

这个是冷战时containment的策略,而且法律上也禁止了美国居民US Person在中国从事半导体工作,其实力度已经很大了。就看中国的半导体人才的培养速度了,这个比芯片本身更重要

h89346 发表于 2023-11-14 16:46

wewai 发表于 2023-11-12 23:28
Dylan Patel 老熟人了这位老喜欢玩中国**,至于有谁信就不好说了

比如之前9000S的时候吹N+2制程良 ...

STEM靠外国人撑太正常了,美国都这么做多少年了。要是美国没有德国科学家,还能扔原子弹?远了不说近了Elon Musk也是标准的移民。写这种文章一定是有利益在的

h89346 发表于 2023-11-14 16:53

auraria 发表于 2023-11-11 06:21
西大的目的是要限制东大的人工智能产业,自然就要限制东大的能获得的算力。放任资本主义搞倾销算力卡,虽 ...

应该是即使能突破,那么突破工艺的速度也比不上AI发展的速度。我记得以前看到过,说AI的发展速度会比其他技术更快地形成垄断。比如此时我比你慢3个月,有可能1个月之后,我就比你慢1年了。

但是AI最终真的有什么影响,我觉得也很说不好。不过我觉得无论如何,单靠美国吃不下整个全球市场,一般来说发达国家市场由美国占领,发展中国家市场就是中国的天下了,因为美国的产品在成本上基本打不过中国。

不过也有例外,比如非洲、东南亚国家,看视频也用Youtube,搜索也是google,而不是国内的平台。同理看短视频也是tiktok,而不是美国的本土软件
页: 1 [2]
查看完整版本: semianalysis:英伟达为中国市场最新特制的GPU比H100还强