albertfu 发表于 2017-3-5 12:02

Ryzen一些技术分析和IPC比较(挖掘机,haswell,kaby lake)

本帖最后由 albertfu 于 2017-3-5 12:49 编辑

SMU - 系统管理单元

正常运作时Ryzen所有的电源管理功能都开启,这一切都由SMU管理。电源管理功能包括了各种功耗,电流,温度,电压限制和开关

为了满足超频需要,Ryzen内置了一个超频模式,可以无视所有限制器(limiter解除!)(除了过热保护)
超频模式在提高基频时自动启动,SMU会发送一个0C信号到主板的80端口

在Ryzen里,MSR里定义的电压只是实际工作电压的上限,SMU会自动降低一点电压,这个降低的量和负载和温度都有关
在3.6和3.2GHz的测试表明这个降低量在120mV-144mV之间

当超频模式启用时,SMU不再自动降低电压
这样会大幅提高功耗,给人一种一超频就功耗爆炸的感觉。其实这是因为原来的自动降压没了,等于变相提高了50-150mV电压
因此建议超频时不要急于加压,因为一开始超频,什么都不做就已经在加压了

http://i.imgur.com/wBivhdh.png
正常模式时压降是121.5mV

"Normal-Mode" - P0 PState VID = 1.36250V, SMU voltage offset = ~ -120mV, effective voltage = 1.24250V.
"OC-Mode" - P0 PState VID = 1.36250V, SMU voltage offset = ±0mV, effective voltage = 1.36250V

超频模式的另一个缺点是:一超频,默认的Turbo和XFR就全没了
所以如果超不到原本XFR达到的频率(1800X是4.1GHz),单线程性能是降低的


XFR
正常情况下,XFR可以一直生效,也就是说1800X全核boost 3.7GHz,单核4.1GHz
但当温度或者功耗太高时,比如跑linpack,XFR无法生效

BCLK
Ryzen上面没有Outel经常有的STRAP(100 125 166 250等),BCLK超到125时没法通过STRAP把PCIE频率维持在100


CCX的频率关系
核心,L1、L2 cache始终是同一频率,L3 cache则是和同一CCX内最高频率的核心速度保持一致
data fabric(CCX之间的互联)的同步要求每个启用的CCX内有相同的启用核心数
这就是为什么8核的Ryzen(两个CCX)只有如下配置:
1(1+0)
2(2+0、1+1)
3(3+0)
4(4+0、2+2)
6(3+3)
8(4+4)

Data Fabric
Ryzen的北桥被称为Data Fabric,频率和内存控制器频率绑定,1:2。也就是说DDR3 2400时北桥频率1200

这样的后果就是提升内存速度也会提升北桥速度(提升CCX之间互联的带宽)
从表象上来看就是内存超频对CPU性能的增益超出一般内存超频该有的增益


超频
高端型号Ryzen的超频空间相当小,三棒14nm LPP的锅

http://i.imgur.com/8Rch6JF.png

如图所示,Ryzen在3.3GHz以下频率和电压是线性关系(25mV每100MHz)
第一个转折点在3.3GHz,第二个在3.5GHz,超出3.5GHz所需电压就非线性提高了

作为参考,过去的小aa CPU的“电压转折点”:
Vishera,32nm SHP SOI:4.4GHz    4.7GHz
Kaveri/Godavari,28nm “SHP” HPP **ar:4.3GHz    4.5GHz

在1800X型号上,3.6GHz基频的电压在1.2-1.3V之间,但XFR的最大频率4.1GHz所需电压可以高达1.475V

AMD尚未提供可持续使用的最高安全电压(VDDCR_CPU和VDDCR_SOC),但可以猜测1.45V以上并不适合持续满负载状态

尽管1.475V以下就可以满足XFR单核4.1GHz,但同样的电压并不能保证全核上4.1GHz,因为单核和全核满载的各种条件都大不同

全核超出4.1GHz完全可能,但所需功耗和频率提升不成比例

最后就是之前提到的:超频就会禁用Boost和XFR,如果超不到XFR单核上限,单线程性能是有损失的



功耗

当前的Prime95 (28.10)并不能在Ryzen上实现烤机的目的,需要使用firestarter和linpack

峰值烤机功耗和频率的关系
http://i.imgur.com/K9N5Aev.png

基于SmallPT的Monte Carlo raytracer - MCRT可以提供更接近现实使用环境的功耗

每瓦性能
http://i.imgur.com/wCSkAUV.png
http://i.imgur.com/yMXFJxi.png


cTDP
Ryzen支持cTDP,尽管官方并没有列出

cTDP和性能的关系
http://i.imgur.com/9oVGc83.png

30W时实现850分,绝对性能不高,但是每瓦性能很高
频率此时为1.9GHz多点
顺带一提默认时单核成绩是162,TDP限制为30W时成绩为155


单核IPC比较

http://i.imgur.com/F74m49G.png
http://i.imgur.com/kmUAkU8.png
http://i.imgur.com/S7pDFzv.png
http://i.imgur.com/aKajE9b.png
http://i.imgur.com/mdhQBPt.png
http://i.imgur.com/0APMpqq.png
http://i.imgur.com/s8oOSFC.png
http://i.imgur.com/rnaZY4K.png
http://i.imgur.com/jD7TXFy.png
http://i.imgur.com/HaI84JU.png
http://i.imgur.com/bUeUrh0.png

相对单核IPC比较(ER表示去除最大值和最小值)
http://i.imgur.com/1SM0BwW.png

绝对单核IPC比较
http://i.imgur.com/lK7gSAo.png




4C4T IPC比较
http://i.imgur.com/3rBelDs.png
http://i.imgur.com/Xw9UQU1.png
http://i.imgur.com/EISapgr.png
http://i.imgur.com/bEh2iaz.png
http://i.imgur.com/w93Bvz6.png
http://i.imgur.com/oEPrygV.png
http://i.imgur.com/5Mvcff9.png
http://i.imgur.com/SIj3kKu.png
http://i.imgur.com/mGZsLri.png
http://i.imgur.com/xSBeI5v.png


4C4T相对IPC
http://i.imgur.com/rJgFms3.png




4C8T IPC比较
http://i.imgur.com/ERNxTjo.png
http://i.imgur.com/tZexP7N.png
http://i.imgur.com/eOHfWcT.png
http://i.imgur.com/iKaxgNQ.png
http://i.imgur.com/550MYFc.png
http://i.imgur.com/cc2vrwX.png
http://i.imgur.com/rbx7dBO.png
http://i.imgur.com/Px6lm66.png
http://i.imgur.com/3QxBjCo.png
http://i.imgur.com/tBhzauR.png


4C8T相对IPC
http://i.imgur.com/rjhozNu.png




开启超线程(HT SMT)后的性能比较
http://i.imgur.com/D5Si4uW.png
http://i.imgur.com/bIKZZtG.png
http://i.imgur.com/aB2Rp9Z.png
http://i.imgur.com/IMuwKHV.png
http://i.imgur.com/KH7Wlek.png
http://i.imgur.com/tYlOrAA.png
http://i.imgur.com/RDvvhN0.png
http://i.imgur.com/waBKd5e.png
http://i.imgur.com/wOeKjz6.png
http://i.imgur.com/BXUnfBB.png


相对性能(1800X 5960X 7700K)
http://i.imgur.com/yaECOxc.png



开启HT/SMT的性能增益
http://i.imgur.com/pkSTqqk.png
http://i.imgur.com/pJPz0II.png
http://i.imgur.com/LkPCkOC.png
http://i.imgur.com/qbsiyYe.png
http://i.imgur.com/tSV5hnT.png
http://i.imgur.com/Go0W7zR.png
http://i.imgur.com/kRFcCln.png
http://i.imgur.com/CX8L4LD.png
http://i.imgur.com/eMcmRDy.png
http://i.imgur.com/eGlmJQD.png

平均HT/SMT带来的增益
http://i.imgur.com/GzZdx4q.png


从上面的结果可以看出,Ryzen对FMA指令集支持不好(bullet,himeno,nbody,linpack) (图我没全放




Ryzen在Windows内,Cache和逻辑处理器的mapping有误

当前的RyzenLogical Processor to Cache Map:
*---------------Data Cache          0, Level 1,   32 KB, Assoc   8, LineSize64
*---------------Instruction Cache   0, Level 1,   64 KB, Assoc   4, LineSize64
*---------------Unified Cache       0, Level 2,512 KB, Assoc   8, LineSize64
*---------------Unified Cache       1, Level 3,   16 MB, Assoc16, LineSize64
-*--------------Data Cache          1, Level 1,   32 KB, Assoc   8, LineSize64
-*--------------Instruction Cache   1, Level 1,   64 KB, Assoc   4, LineSize64
-*--------------Unified Cache       2, Level 2,512 KB, Assoc   8, LineSize64
-*--------------Unified Cache       3, Level 3,   16 MB, Assoc16, LineSize64
--*-------------Data Cache          2, Level 1,   32 KB, Assoc   8, LineSize64
--*-------------Instruction Cache   2, Level 1,   64 KB, Assoc   4, LineSize64
--*-------------Unified Cache       4, Level 2,512 KB, Assoc   8, LineSize64
--*-------------Unified Cache       5, Level 3,   16 MB, Assoc16, LineSize64
---*------------Data Cache          3, Level 1,   32 KB, Assoc   8, LineSize64
---*------------Instruction Cache   3, Level 1,   64 KB, Assoc   4, LineSize64
---*------------Unified Cache       6, Level 2,512 KB, Assoc   8, LineSize64
---*------------Unified Cache       7, Level 3,   16 MB, Assoc16, LineSize64
----*-----------Data Cache          4, Level 1,   32 KB, Assoc   8, LineSize64
----*-----------Instruction Cache   4, Level 1,   64 KB, Assoc   4, LineSize64
----*-----------Unified Cache       8, Level 2,512 KB, Assoc   8, LineSize64
----*-----------Unified Cache       9, Level 3,   16 MB, Assoc16, LineSize64
-----*----------Data Cache          5, Level 1,   32 KB, Assoc   8, LineSize64
-----*----------Instruction Cache   5, Level 1,   64 KB, Assoc   4, LineSize64
-----*----------Unified Cache      10, Level 2,512 KB, Assoc   8, LineSize64
-----*----------Unified Cache      11, Level 3,   16 MB, Assoc16, LineSize64
------*---------Data Cache          6, Level 1,   32 KB, Assoc   8, LineSize64
------*---------Instruction Cache   6, Level 1,   64 KB, Assoc   4, LineSize64
------*---------Unified Cache      12, Level 2,512 KB, Assoc   8, LineSize64
------*---------Unified Cache      13, Level 3,   16 MB, Assoc16, LineSize64
-------*--------Data Cache          7, Level 1,   32 KB, Assoc   8, LineSize64
-------*--------Instruction Cache   7, Level 1,   64 KB, Assoc   4, LineSize64
-------*--------Unified Cache      14, Level 2,512 KB, Assoc   8, LineSize64
-------*--------Unified Cache      15, Level 3,   16 MB, Assoc16, LineSize64
--------*-------Data Cache          8, Level 1,   32 KB, Assoc   8, LineSize64
--------*-------Instruction Cache   8, Level 1,   64 KB, Assoc   4, LineSize64
--------*-------Unified Cache      16, Level 2,512 KB, Assoc   8, LineSize64
--------*-------Unified Cache      17, Level 3,   16 MB, Assoc16, LineSize64
---------*------Data Cache          9, Level 1,   32 KB, Assoc   8, LineSize64
---------*------Instruction Cache   9, Level 1,   64 KB, Assoc   4, LineSize64
---------*------Unified Cache      18, Level 2,512 KB, Assoc   8, LineSize64
---------*------Unified Cache      19, Level 3,   16 MB, Assoc16, LineSize64
----------*-----Data Cache         10, Level 1,   32 KB, Assoc   8, LineSize64
----------*-----Instruction Cache10, Level 1,   64 KB, Assoc   4, LineSize64
----------*-----Unified Cache      20, Level 2,512 KB, Assoc   8, LineSize64
----------*-----Unified Cache      21, Level 3,   16 MB, Assoc16, LineSize64
-----------*----Data Cache         11, Level 1,   32 KB, Assoc   8, LineSize64
-----------*----Instruction Cache11, Level 1,   64 KB, Assoc   4, LineSize64
-----------*----Unified Cache      22, Level 2,512 KB, Assoc   8, LineSize64
-----------*----Unified Cache      23, Level 3,   16 MB, Assoc16, LineSize64
------------*---Data Cache         12, Level 1,   32 KB, Assoc   8, LineSize64
------------*---Instruction Cache12, Level 1,   64 KB, Assoc   4, LineSize64
------------*---Unified Cache      24, Level 2,512 KB, Assoc   8, LineSize64
------------*---Unified Cache      25, Level 3,   16 MB, Assoc16, LineSize64
-------------*--Data Cache         13, Level 1,   32 KB, Assoc   8, LineSize64
-------------*--Instruction Cache13, Level 1,   64 KB, Assoc   4, LineSize64
-------------*--Unified Cache      26, Level 2,512 KB, Assoc   8, LineSize64
-------------*--Unified Cache      27, Level 3,   16 MB, Assoc16, LineSize64
--------------*-Data Cache         14, Level 1,   32 KB, Assoc   8, LineSize64
--------------*-Instruction Cache14, Level 1,   64 KB, Assoc   4, LineSize64
--------------*-Unified Cache      28, Level 2,512 KB, Assoc   8, LineSize64
--------------*-Unified Cache      29, Level 3,   16 MB, Assoc16, LineSize64
---------------*Data Cache         15, Level 1,   32 KB, Assoc   8, LineSize64
---------------*Instruction Cache15, Level 1,   64 KB, Assoc   4, LineSize64
---------------*Unified Cache      30, Level 2,512 KB, Assoc   8, LineSize64
---------------*Unified Cache      31, Level 3,   16 MB, Assoc16, LineSize643770K的长这样Logical Processor to Cache Map:
**------Data Cache          0, Level 1,   32 KB, Assoc   8, LineSize64
**------Instruction Cache   0, Level 1,   32 KB, Assoc   8, LineSize64
**------Unified Cache       0, Level 2,256 KB, Assoc   8, LineSize64
********Unified Cache       1, Level 3,    8 MB, Assoc16, LineSize64
--**----Data Cache          1, Level 1,   32 KB, Assoc   8, LineSize64
--**----Instruction Cache   1, Level 1,   32 KB, Assoc   8, LineSize64
--**----Unified Cache       2, Level 2,256 KB, Assoc   8, LineSize64
----**--Data Cache          2, Level 1,   32 KB, Assoc   8, LineSize64
----**--Instruction Cache   2, Level 1,   32 KB, Assoc   8, LineSize64
----**--Unified Cache       3, Level 2,256 KB, Assoc   8, LineSize64
------**Data Cache          3, Level 1,   32 KB, Assoc   8, LineSize64
------**Instruction Cache   3, Level 1,   32 KB, Assoc   8, LineSize64
------**Unified Cache       4, Level 2,256 KB, Assoc   8, LineSize64Ryzen的应该长这样Logical Processor to Cache Map:
**--------------Data Cache          0, Level 1,   32 KB, Assoc   8, LineSize64
**--------------Instruction Cache   0, Level 1,   64 KB, Assoc   4, LineSize64
**--------------Unified Cache       0, Level 2,512 KB, Assoc   8, LineSize64
********--------Unified Cache       1, Level 3,    8 MB, Assoc16, LineSize64
--**------------Data Cache          1, Level 1,   32 KB, Assoc   8, LineSize64
--**------------Instruction Cache   1, Level 1,   64 KB, Assoc   4, LineSize64
--**------------Unified Cache       2, Level 2,512 KB, Assoc   8, LineSize64
----**----------Data Cache          2, Level 1,   32 KB, Assoc   8, LineSize64
----**----------Instruction Cache   2, Level 1,   64 KB, Assoc   4, LineSize64
----**----------Unified Cache       3, Level 2,512 KB, Assoc   8, LineSize64
------**--------Data Cache          3, Level 1,   32 KB, Assoc   8, LineSize64
------**--------Instruction Cache   3, Level 1,   64 KB, Assoc   4, LineSize64
------**--------Unified Cache       4, Level 2,512 KB, Assoc   8, LineSize64
--------**------Data Cache          5, Level 1,   32 KB, Assoc   8, LineSize64
--------**------Instruction Cache   5, Level 1,   64 KB, Assoc   4, LineSize64
--------**------Unified Cache       5, Level 2,512 KB, Assoc   8, LineSize64
--------********Unified Cache       6, Level 3,    8 MB, Assoc16, LineSize64
----------**----Data Cache          6, Level 1,   32 KB, Assoc   8, LineSize64
----------**----Instruction Cache   6, Level 1,   64 KB, Assoc   4, LineSize64
----------**----Unified Cache       7, Level 2,512 KB, Assoc   8, LineSize64
------------**--Data Cache          7, Level 1,   32 KB, Assoc   8, LineSize64
------------**--Instruction Cache   7, Level 1,   64 KB, Assoc   4, LineSize64
------------**--Unified Cache       8, Level 2,512 KB, Assoc   8, LineSize64
--------------**Data Cache          8, Level 1,   32 KB, Assoc   8, LineSize64
--------------**Instruction Cache   8, Level 1,   64 KB, Assoc   4, LineSize64
--------------**Unified Cache       9, Level 2,512 KB, Assoc   8, LineSize6416MB L3 Cache被错认了16遍 23333



Draw Call能力低下
某网友自制测试中 (https://forums.anandtech.com/thr ... erformance.2499609/)
Ryzen 3.6GHz+R9 Nano = 12.80fps (Win10)   14.69fps(Win7)

https://s5.postimg.org/csu0jia9j/1_16000.png

图中同样使用Nano的i7 4771 3.9GHz在此测试中达到了17.78fps(Win10)



CCX之间互联带宽低下
德国佬和法国佬都给出了22GB/s这个数据,相比之下Haswell-EP、Broadwell-EP的QPI带宽则是38.4GB/s

网友自制的编译小测试中,将所有线程绑定在一个CCX内(4C8T),编译速度比8C16T全开时提高了很多

http://i.imgur.com/72cbLFr.png

相似的情况发生在双路CPU上,胶水双CCX看来是坐实了


出处:
https://forums.anandtech.com/thr ... ical.2500572/page-9


zmw_831110 发表于 2017-3-5 12:14

1700配七彩虹超3.7全核,应该是不错的选择

----发送自 STAGE1 App for Android.

STAGE11 发表于 2017-3-5 12:18

AMD全面翻身 已经订了1700x

bigtit 发表于 2017-3-5 13:04

albertfu 发表于 2017-3-5 13:24

bigtit 发表于 2017-3-5 13:04
跑个分就叫技术分析了?
好歹分析下rob和iq调度算法对跑分的影响吧

我就是个翻译,屁都不懂

欢迎你去阿三科技论坛直接问那人去

lumia 发表于 2017-3-5 15:01

无名的旅人 发表于 2017-3-5 15:13

实际使用中总会有诸多后台任务,理论单核频率几乎不会出现,超频频率达不到XFR单核最高值其实也无所谓

Data Fabric绑定内存控制器的话,那解决高频内存支持的问题就更是当务之急了
又或者说正因为这个机制,才导致了诸多问题以及高频内存支持不佳

买Ryzen双CCX本质上是买了双路平台,想想心里还有点小激动呢(大误)

最后……怎么涉及压缩的两个项目Haswell是最高的……

qwased 发表于 2017-3-5 15:22

无名的旅人 发表于 2017-3-5 15:13
实际使用中总会有诸多后台任务,理论单核频率几乎不会出现,超频频率达不到XFR单核最高值其实也无所谓

Dat ...

WINRAR跑分好像只看内存带宽

zmw_831110 发表于 2017-3-5 16:25

qwased 发表于 2017-3-5 15:22
WINRAR跑分好像只看内存带宽

那也没道理啊
haswell只有ddr3啊

搞不好是哈士奇 发表于 2017-3-5 16:28

lumia 发表于 2017-3-5 15:01
感觉Ryzen就是相处的intel Snb,期待后续改进

相处

什么意思

qwased 发表于 2017-3-5 16:30

zmw_831110 发表于 2017-3-5 16:25
那也没道理啊
haswell只有ddr3啊

5960x 4通道啊

—— 来自 Jiayu S3, Android 7.1.1上的 S1Next-鹅版

zmw_831110 发表于 2017-3-5 16:31

qwased 发表于 2017-3-5 16:30
5960x 4通道啊

—— 来自 Jiayu S3, Android 7.1.1上的 S1Next-鹅版

忘记这个了.
那么这个评测...

albertfu 发表于 2017-3-7 19:38

zmw_831110 发表于 2017-3-5 16:31
忘记这个了.
那么这个评测...

翻了一下原帖没看到注明5960x用的双通道还是四通道 2333
页: [1]
查看完整版本: Ryzen一些技术分析和IPC比较(挖掘机,haswell,kaby lake)