oz01 发表于 2007-1-13 12:49

这河蟹话题还是要继续谈论一下的

CELL的性能论

2003年5月E3游戏展,CELL性能将达P4 CPU的1000倍,可以模拟整个地球能力。

03年的P4是啥?
0.13微米/90纳米Northwood?
确实
性能不错
不过那是在03年……


2004年5月E3游戏展,CELL的综合表现将超越P4 CPU 500倍,等同一个8岁儿童知
力水平。
我听说当时的Prescott功耗很高
不过似乎性能确实比Northwood强了很大一截

2005年1月CES,CELL的实际性能超过主流P4 CPU 250倍。


2005年3月GDC,CELL的实际性能可超过主流P4 CPU 100倍,100粒CELL联动性能
可媲美一个成年人的智力水平,1000粒CELL的联动可实现类似电影MATRIX的现实
模拟。


2005年5月E3,CELL的实际性能可达P4 CPU 35倍。

双核P4虽然并没有比单核真正的强了一倍
不过似乎05年的P4不仅仅是多了一个核心这一项进步……

2005年11月X05,CELL的“物理运算”将达至高阶P4 CPU 5倍。
当时据说扣肉应该快出了
至于“高阶P4 CPU ”……俺想知道英文原文是啥

2006年1月CES,CELL整体表现不会逊于P4 CPU。
P4还没停产吗?:awkward:


似乎某些人喜欢把0.13微米Northwood和扣肉E6700划等号
cell到底能发挥多大性能
现在除了反索人士以外
似乎谁也说不清

[ 本帖最后由 oz01 于 2007-1-13 12:52 编辑 ]

鱼肠剑 发表于 2007-1-13 13:00

oz01 发表于 2007-1-13 13:11

原帖由 鱼肠剑 于 2007-1-13 13:00 发表
0.13微米的p4和扣肉的性能没有差到十倍吧
老子的速龙XP2500+运行FFX的速度是扣肉E6700的1/40左右:talisman:
平均1FPS
要算性能的话
CPU指令集也要算上去的

[ 本帖最后由 oz01 于 2007-1-13 13:13 编辑 ]

death5341 发表于 2007-1-13 13:22

上次吹成功了,这次好像不行了。

其实想想,如果性能能差如此之大,SONY可以去卖CPU过日子了。

lionheart007 发表于 2007-1-13 13:24

久多说的是1000倍ps2.........1000倍p4那是网友结合ibm的宣传自己发挥的

[ 本帖最后由 lionheart007 于 2007-1-13 13:25 编辑 ]

oz01 发表于 2007-1-13 13:25

原帖由 lionheart007 于 2007-1-13 13:24 发表
久多说的是1000倍ps2.........1000倍p4那是网友结合ibm的广告自己发挥的
请给原文:talisman:

qyqgpower 发表于 2007-1-13 13:45

PS3用的Cell一共7个SPE,1个保留给hypervisor,还剩6个可用,XMB下解40Mbps 1080p h264时使用了3个SPE,设计标准是同时播放2个FullHD h264流

请给出可以流畅播放40Mbps 1080p h264流的PC配置

[ 本帖最后由 qyqgpower 于 2007-1-13 13:47 编辑 ]

阿斯兰64 发表于 2007-1-13 13:45

原帖由 oz01 于 2007-1-13 12:49 发表

03年的P4是啥?
0.13微米/90纳米Northwood?
确实
性能不错
不过那是在03年……

Northwood 没有90nm的版本。


我听说当时的Prescott功耗很高
不过似乎性能确实比Northwood强了很大一截


没有这种强了很大一截的说法,在不少应用中Prescott的同频表现甚至不如Northwood,去掉了倍速alu,但浮点部分有改进,外加sse3和增强ht。



双核P4虽然并没有比单核真正的强了一倍
不过似乎05年的P4不仅仅是多了一个核心这一项进步

双核的名称是pd,不叫p4了。部分型号多了vt,但非ee版全部去掉ht,用过的都应该知道ht对这个架构的重要性。


P4还没停产吗?

没有,在c2d发布后的这半年,netbrust仍是出货主力。


似乎某些人喜欢把0.13微米Northwood和扣肉E6700划等号
cell到底能发挥多大性能

请不要把理论性能与实际能发挥的能力划等号,部分pd的理论性能可以是k8的四倍,但是在实际游戏测试的表现中能否超越都是一个问题,而且很明显,pd已经没有机会再表现了。

阿斯兰64 发表于 2007-1-13 13:52

原帖由 qyqgpower 于 2007-1-13 13:45 发表
PS3用的Cell一共7个SPE,1个保留给hypervisor,还剩6个可用,XMB下解40Mbps 1080p h264时使用了3个SPE

请给出可以流畅播放40Mbps 1080p h264流的PC配置

术业有专攻,这种说法没有意义。可以拿更便宜高效的dsp做到,那为什么要用cell?

请问跑八皇后时,cell要什么频率才能赶上2g的k8?

oz01 发表于 2007-1-13 13:53

1 似乎是我记错了
2 求Prescott不如Northwood的实际例子
3、4 你没发现我故意混淆P4和PD吗?:talisman:
5 我承认我记错了:awkward:
6 这个算我sbl吧,理论性能与实际发挥之间的差距的话题请打住,这玩意不会讨论出结果的:talisman:

qyqgpower 发表于 2007-1-13 13:55

原帖由 阿斯兰64 于 2007-1-13 13:52 发表


术业有专攻,这种说法没有意义。可以拿更便宜高效的dsp做到,那为什么要用cell?

请问跑八皇后时,cell要什么频率才能赶上2g的k8?
这里用的就是纯粹的单精度浮点性能,连这都不敢比了吗:glasses1:
你把SPE当作dsp也可以,但没有SPE的cell就是废物

[ 本帖最后由 qyqgpower 于 2007-1-13 13:57 编辑 ]

阿斯兰64 发表于 2007-1-13 14:10

原帖由 oz01 于 2007-1-13 13:53 发表

2 求Prescott不如Northwood的实际例子



例子不想去翻了。Prescott更长的流水线,更大的L2延迟都是原因。其实不全是Prescott的错,相对northwood的内部改动造成了编译器优化需要做调整,使得在iic中为northwood优化的一些程序在Prescott上表现不佳。


原帖由 qyqgpower 于 2007-1-13 13:55 发表

这里用的就是纯粹的单精度浮点性能,连这都不敢比了吗:glasses1:
你把SPE当作dsp也可以,但没有SPE的cell就是废物


所以说这种对比没有意义,大家互有强项。双精度废材对应用的拓展有很大局限,还是期待cell BE 有更好的表现吧。

要知道,现在通用cpu设计的难度在于整数性能部分。某种程度上说,浮点性能是可以堆出来的。

qyqgpower 发表于 2007-1-13 14:18

PS3用Cell的双精度也并没有想象中这么低下,对于在主机上的应用基本已经够了,数据待查

你在概念上也有根本性错误,Cell BE是一种架构,PS3用Cell是它的一个实例

阿斯兰64 发表于 2007-1-13 14:30

原帖由 阿斯兰64 于 2007-1-13 14:10 发表

还是期待cell BE 有更好的表现吧。

所以 ...

呃,可能这句话的表达不清楚吧。

希望cell的SPE双精度性能增强版来表现这个架构的潜力吧。

Macro 发表于 2007-1-13 14:40

05年E3,RSX和CELL那华丽的性能柱状图把PC比的好像渣子----

qyqgpower 发表于 2007-1-13 14:45

3.2G下
单精度每SPU(SPE=SPU+MFC)25.6 GFLOPS,6SPE=153.6 GFLOPS

双精度共计14GFLOPS,Lawrence Berkeley国家实验室的评测为:
http://www.cs.berkeley.edu/~samw/projects/cell/CF06.pdf

注意这是8SPE版,也就是PS3用Cell的完整版

[ 本帖最后由 qyqgpower 于 2007-11-15 22:37 编辑 ]

阿斯兰64 发表于 2007-1-13 15:01

原帖由 qyqgpower 于 2007-1-13 14:45 发表
3.2G下
单精度每SPU(SPE=SPU+MFC)25.6 GFLOPS,6SPE=153.6 GFLOPS

双精度共计14GFLOPS,Lawrence Berkeley国家实验室的评测为:
http://www.cs.berkeley.edu/~samw/projects/cell/CF06.pdf

注意这是8SPE版,也就是PS3用Cel ...


不好意思,我这边打不开这个连接。是实测的还是理论值?如果是理论值的话,Pentium XE 965 的sse2双精度貌似也在此左右吧。



附件: CF06.pdf (2007-1-13 15:09, 212.6 K)

谢谢。

[ 本帖最后由 阿斯兰64 于 2007-1-13 15:13 编辑 ]

qyqgpower 发表于 2007-1-13 15:17

理论实测都有,pdf已上传,自己去看
对比的处理器是
Cell@3.2G功耗40W
Cray X1E MSP@1.13G功耗120W
AMD Opteron@2.2G功耗89W
Intel Itanium2@1.4G功耗130W

附送两张最新处理器的SGEMM和DGEMM图,Cell的GEMM可以很轻松达到理论值的效能(SP206.7,DP14.6)
结论是
SP:现在的桌面处理器还差Cell 10条马路
DP:Cell优势不大,也就3倍不到,算上PS3的Cell只有6SPE开放给应用程序,2倍于E6700吧

[ 本帖最后由 qyqgpower 于 2007-8-2 15:11 编辑 ]

qyqgpower 发表于 2007-1-13 15:59

那评测评的还只是8SPE的效能,由于所有SPE Full Load时PPE给SPE分配工作是很沉重的负担,所以PPE是基本不参与实际的性能输出的,PPE带的VMX具有的理论SP25.6和DP6.4性能很难被利用

阿斯兰64 发表于 2007-1-13 16:18

从测试数据上看,cell 的强大我也没有能力质疑。简单看了那篇pdf的sm2测试部分,里面提到了他们的选择:

Only 96*96 block sizes provide enough computational intensity to overcome the additional block loads and stores, and thus achieving near-peak performance— over 200Gflop/s.

Although the time to load a DP 64*64 block is twice that of the SP version, the time required to compute on a 64*64 DP block is about 14x as long as the SP counterpart (due to the limitations of the DP issue logic). Thus it is far easier for DP to reach its peak performance. — a mere 14.6Gflop/s.

而看了http://www.pcper.com/article.php?aid=265&type=expert&pid=3,并没有对这方面明确提及,所以我对实际的表现还是有所保留。

上次还有人提到目前ps3上只能用到4个spe ,再多的话性能会下降,加上据说当初ibm两个ppe的建议,cell性能的发挥也许真的障碍不少。

曾经17 发表于 2007-1-13 19:05

nothwood的同主频P4还不如AMD Barton
页: [1]
查看完整版本: 这河蟹话题还是要继续谈论一下的