Ryzen一些技术分析和IPC比较（挖掘机，haswell，kaby lake）

albertfu 发表于 2017-3-5 12:02

本帖最后由 albertfu 于 2017-3-5 12:49 编辑

SMU - 系统管理单元

正常运作时Ryzen所有的电源管理功能都开启，这一切都由SMU管理。电源管理功能包括了各种功耗，电流，温度，电压限制和开关

为了满足超频需要，Ryzen内置了一个超频模式，可以无视所有限制器（limiter解除！）（除了过热保护）
超频模式在提高基频时自动启动，SMU会发送一个0C信号到主板的80端口

在Ryzen里，MSR里定义的电压只是实际工作电压的上限，SMU会自动降低一点电压，这个降低的量和负载和温度都有关
在3.6和3.2GHz的测试表明这个降低量在120mV-144mV之间

当超频模式启用时，SMU不再自动降低电压
这样会大幅提高功耗，给人一种一超频就功耗爆炸的感觉。其实这是因为原来的自动降压没了，等于变相提高了50-150mV电压
因此建议超频时不要急于加压，因为一开始超频，什么都不做就已经在加压了

http://i.imgur.com/wBivhdh.png
正常模式时压降是121.5mV

"Normal-Mode" - P0 PState VID = 1.36250V, SMU voltage offset = ~ -120mV, effective voltage = 1.24250V.
"OC-Mode" - P0 PState VID = 1.36250V, SMU voltage offset = ±0mV, effective voltage = 1.36250V

超频模式的另一个缺点是：一超频，默认的Turbo和XFR就全没了
所以如果超不到原本XFR达到的频率（1800X是4.1GHz），单线程性能是降低的

XFR
正常情况下，XFR可以一直生效，也就是说1800X全核boost 3.7GHz，单核4.1GHz
但当温度或者功耗太高时，比如跑linpack，XFR无法生效

BCLK
Ryzen上面没有Outel经常有的STRAP（100 125 166 250等），BCLK超到125时没法通过STRAP把PCIE频率维持在100

CCX的频率关系
核心，L1、L2 cache始终是同一频率，L3 cache则是和同一CCX内最高频率的核心速度保持一致
data fabric（CCX之间的互联）的同步要求每个启用的CCX内有相同的启用核心数
这就是为什么8核的Ryzen（两个CCX）只有如下配置：
1（1+0）
2（2+0、1+1）
3（3+0）
4（4+0、2+2）
6（3+3）
8（4+4）

Data Fabric
Ryzen的北桥被称为Data Fabric，频率和内存控制器频率绑定，1：2。也就是说DDR3 2400时北桥频率1200

这样的后果就是提升内存速度也会提升北桥速度（提升CCX之间互联的带宽）
从表象上来看就是内存超频对CPU性能的增益超出一般内存超频该有的增益

超频
高端型号Ryzen的超频空间相当小，三棒14nm LPP的锅

http://i.imgur.com/8Rch6JF.png

如图所示，Ryzen在3.3GHz以下频率和电压是线性关系（25mV每100MHz）
第一个转折点在3.3GHz，第二个在3.5GHz，超出3.5GHz所需电压就非线性提高了

作为参考，过去的小aa CPU的“电压转折点”：
Vishera，32nm SHP SOI：4.4GHz 4.7GHz
Kaveri/Godavari，28nm “SHP” HPP **ar：4.3GHz 4.5GHz

在1800X型号上，3.6GHz基频的电压在1.2-1.3V之间，但XFR的最大频率4.1GHz所需电压可以高达1.475V

AMD尚未提供可持续使用的最高安全电压（VDDCR_CPU和VDDCR_SOC），但可以猜测1.45V以上并不适合持续满负载状态

尽管1.475V以下就可以满足XFR单核4.1GHz，但同样的电压并不能保证全核上4.1GHz，因为单核和全核满载的各种条件都大不同

全核超出4.1GHz完全可能，但所需功耗和频率提升不成比例

最后就是之前提到的：超频就会禁用Boost和XFR，如果超不到XFR单核上限，单线程性能是有损失的

功耗

当前的Prime95 （28.10）并不能在Ryzen上实现烤机的目的，需要使用firestarter和linpack

峰值烤机功耗和频率的关系
http://i.imgur.com/K9N5Aev.png

基于SmallPT的Monte Carlo raytracer - MCRT可以提供更接近现实使用环境的功耗

每瓦性能
http://i.imgur.com/wCSkAUV.png
http://i.imgur.com/yMXFJxi.png

cTDP
Ryzen支持cTDP，尽管官方并没有列出

cTDP和性能的关系
http://i.imgur.com/9oVGc83.png

30W时实现850分，绝对性能不高，但是每瓦性能很高
频率此时为1.9GHz多点
顺带一提默认时单核成绩是162，TDP限制为30W时成绩为155

单核IPC比较

http://i.imgur.com/F74m49G.png
http://i.imgur.com/kmUAkU8.png
http://i.imgur.com/S7pDFzv.png
http://i.imgur.com/aKajE9b.png
http://i.imgur.com/mdhQBPt.png
http://i.imgur.com/0APMpqq.png
http://i.imgur.com/s8oOSFC.png
http://i.imgur.com/rnaZY4K.png
http://i.imgur.com/jD7TXFy.png
http://i.imgur.com/HaI84JU.png
http://i.imgur.com/bUeUrh0.png

相对单核IPC比较（ER表示去除最大值和最小值）
http://i.imgur.com/1SM0BwW.png

绝对单核IPC比较
http://i.imgur.com/lK7gSAo.png

4C4T IPC比较
http://i.imgur.com/3rBelDs.png
http://i.imgur.com/Xw9UQU1.png
http://i.imgur.com/EISapgr.png
http://i.imgur.com/bEh2iaz.png
http://i.imgur.com/w93Bvz6.png
http://i.imgur.com/oEPrygV.png
http://i.imgur.com/5Mvcff9.png
http://i.imgur.com/SIj3kKu.png
http://i.imgur.com/mGZsLri.png
http://i.imgur.com/xSBeI5v.png

4C4T相对IPC
http://i.imgur.com/rJgFms3.png

4C8T IPC比较
http://i.imgur.com/ERNxTjo.png
http://i.imgur.com/tZexP7N.png
http://i.imgur.com/eOHfWcT.png
http://i.imgur.com/iKaxgNQ.png
http://i.imgur.com/550MYFc.png
http://i.imgur.com/cc2vrwX.png
http://i.imgur.com/rbx7dBO.png
http://i.imgur.com/Px6lm66.png
http://i.imgur.com/3QxBjCo.png
http://i.imgur.com/tBhzauR.png

4C8T相对IPC
http://i.imgur.com/rjhozNu.png

开启超线程（HT SMT）后的性能比较
http://i.imgur.com/D5Si4uW.png
http://i.imgur.com/bIKZZtG.png
http://i.imgur.com/aB2Rp9Z.png
http://i.imgur.com/IMuwKHV.png
http://i.imgur.com/KH7Wlek.png
http://i.imgur.com/tYlOrAA.png
http://i.imgur.com/RDvvhN0.png
http://i.imgur.com/waBKd5e.png
http://i.imgur.com/wOeKjz6.png
http://i.imgur.com/BXUnfBB.png

相对性能（1800X 5960X 7700K）
http://i.imgur.com/yaECOxc.png

开启HT/SMT的性能增益
http://i.imgur.com/pkSTqqk.png
http://i.imgur.com/pJPz0II.png
http://i.imgur.com/LkPCkOC.png
http://i.imgur.com/qbsiyYe.png
http://i.imgur.com/tSV5hnT.png
http://i.imgur.com/Go0W7zR.png
http://i.imgur.com/kRFcCln.png
http://i.imgur.com/CX8L4LD.png
http://i.imgur.com/eMcmRDy.png
http://i.imgur.com/eGlmJQD.png

平均HT/SMT带来的增益
http://i.imgur.com/GzZdx4q.png

从上面的结果可以看出，Ryzen对FMA指令集支持不好（bullet，himeno，nbody，linpack）（图我没全放

Ryzen在Windows内，Cache和逻辑处理器的mapping有误

当前的RyzenLogical Processor to Cache Map:
*---------------Data Cache       0, Level 1, 32 KB, Assoc 8, LineSize64
*---------------Instruction Cache 0, Level 1, 64 KB, Assoc 4, LineSize64
*---------------Unified Cache    0, Level 2,512 KB, Assoc 8, LineSize64
*---------------Unified Cache    1, Level 3, 16 MB, Assoc16, LineSize64
-*--------------Data Cache       1, Level 1, 32 KB, Assoc 8, LineSize64
-*--------------Instruction Cache 1, Level 1, 64 KB, Assoc 4, LineSize64
-*--------------Unified Cache    2, Level 2,512 KB, Assoc 8, LineSize64
-*--------------Unified Cache    3, Level 3, 16 MB, Assoc16, LineSize64
--*-------------Data Cache       2, Level 1, 32 KB, Assoc 8, LineSize64
--*-------------Instruction Cache 2, Level 1, 64 KB, Assoc 4, LineSize64
--*-------------Unified Cache    4, Level 2,512 KB, Assoc 8, LineSize64
--*-------------Unified Cache    5, Level 3, 16 MB, Assoc16, LineSize64
---*------------Data Cache       3, Level 1, 32 KB, Assoc 8, LineSize64
---*------------Instruction Cache 3, Level 1, 64 KB, Assoc 4, LineSize64
---*------------Unified Cache    6, Level 2,512 KB, Assoc 8, LineSize64
---*------------Unified Cache    7, Level 3, 16 MB, Assoc16, LineSize64
----*-----------Data Cache       4, Level 1, 32 KB, Assoc 8, LineSize64
----*-----------Instruction Cache 4, Level 1, 64 KB, Assoc 4, LineSize64
----*-----------Unified Cache    8, Level 2,512 KB, Assoc 8, LineSize64
----*-----------Unified Cache    9, Level 3, 16 MB, Assoc16, LineSize64
-----*----------Data Cache       5, Level 1, 32 KB, Assoc 8, LineSize64
-----*----------Instruction Cache 5, Level 1, 64 KB, Assoc 4, LineSize64
-----*----------Unified Cache    10, Level 2,512 KB, Assoc 8, LineSize64
-----*----------Unified Cache    11, Level 3, 16 MB, Assoc16, LineSize64
------*---------Data Cache       6, Level 1, 32 KB, Assoc 8, LineSize64
------*---------Instruction Cache 6, Level 1, 64 KB, Assoc 4, LineSize64
------*---------Unified Cache    12, Level 2,512 KB, Assoc 8, LineSize64
------*---------Unified Cache    13, Level 3, 16 MB, Assoc16, LineSize64
-------*--------Data Cache       7, Level 1, 32 KB, Assoc 8, LineSize64
-------*--------Instruction Cache 7, Level 1, 64 KB, Assoc 4, LineSize64
-------*--------Unified Cache    14, Level 2,512 KB, Assoc 8, LineSize64
-------*--------Unified Cache    15, Level 3, 16 MB, Assoc16, LineSize64
--------*-------Data Cache       8, Level 1, 32 KB, Assoc 8, LineSize64
--------*-------Instruction Cache 8, Level 1, 64 KB, Assoc 4, LineSize64
--------*-------Unified Cache    16, Level 2,512 KB, Assoc 8, LineSize64
--------*-------Unified Cache    17, Level 3, 16 MB, Assoc16, LineSize64
---------*------Data Cache       9, Level 1, 32 KB, Assoc 8, LineSize64
---------*------Instruction Cache 9, Level 1, 64 KB, Assoc 4, LineSize64
---------*------Unified Cache    18, Level 2,512 KB, Assoc 8, LineSize64
---------*------Unified Cache    19, Level 3, 16 MB, Assoc16, LineSize64
----------*-----Data Cache       10, Level 1, 32 KB, Assoc 8, LineSize64
----------*-----Instruction Cache10, Level 1, 64 KB, Assoc 4, LineSize64
----------*-----Unified Cache    20, Level 2,512 KB, Assoc 8, LineSize64
----------*-----Unified Cache    21, Level 3, 16 MB, Assoc16, LineSize64
-----------*----Data Cache       11, Level 1, 32 KB, Assoc 8, LineSize64
-----------*----Instruction Cache11, Level 1, 64 KB, Assoc 4, LineSize64
-----------*----Unified Cache    22, Level 2,512 KB, Assoc 8, LineSize64
-----------*----Unified Cache    23, Level 3, 16 MB, Assoc16, LineSize64
------------*---Data Cache       12, Level 1, 32 KB, Assoc 8, LineSize64
------------*---Instruction Cache12, Level 1, 64 KB, Assoc 4, LineSize64
------------*---Unified Cache    24, Level 2,512 KB, Assoc 8, LineSize64
------------*---Unified Cache    25, Level 3, 16 MB, Assoc16, LineSize64
-------------*--Data Cache       13, Level 1, 32 KB, Assoc 8, LineSize64
-------------*--Instruction Cache13, Level 1, 64 KB, Assoc 4, LineSize64
-------------*--Unified Cache    26, Level 2,512 KB, Assoc 8, LineSize64
-------------*--Unified Cache    27, Level 3, 16 MB, Assoc16, LineSize64
--------------*-Data Cache       14, Level 1, 32 KB, Assoc 8, LineSize64
--------------*-Instruction Cache14, Level 1, 64 KB, Assoc 4, LineSize64
--------------*-Unified Cache    28, Level 2,512 KB, Assoc 8, LineSize64
--------------*-Unified Cache    29, Level 3, 16 MB, Assoc16, LineSize64
---------------*Data Cache       15, Level 1, 32 KB, Assoc 8, LineSize64
---------------*Instruction Cache15, Level 1, 64 KB, Assoc 4, LineSize64
---------------*Unified Cache    30, Level 2,512 KB, Assoc 8, LineSize64
---------------*Unified Cache    31, Level 3, 16 MB, Assoc16, LineSize643770K的长这样Logical Processor to Cache Map:
**------Data Cache       0, Level 1, 32 KB, Assoc 8, LineSize64
**------Instruction Cache 0, Level 1, 32 KB, Assoc 8, LineSize64
**------Unified Cache    0, Level 2,256 KB, Assoc 8, LineSize64
********Unified Cache    1, Level 3, 8 MB, Assoc16, LineSize64
--**----Data Cache       1, Level 1, 32 KB, Assoc 8, LineSize64
--**----Instruction Cache 1, Level 1, 32 KB, Assoc 8, LineSize64
--**----Unified Cache    2, Level 2,256 KB, Assoc 8, LineSize64
----**--Data Cache       2, Level 1, 32 KB, Assoc 8, LineSize64
----**--Instruction Cache 2, Level 1, 32 KB, Assoc 8, LineSize64
----**--Unified Cache    3, Level 2,256 KB, Assoc 8, LineSize64
------**Data Cache       3, Level 1, 32 KB, Assoc 8, LineSize64
------**Instruction Cache 3, Level 1, 32 KB, Assoc 8, LineSize64
------**Unified Cache    4, Level 2,256 KB, Assoc 8, LineSize64Ryzen的应该长这样Logical Processor to Cache Map:
**--------------Data Cache       0, Level 1, 32 KB, Assoc 8, LineSize64
**--------------Instruction Cache 0, Level 1, 64 KB, Assoc 4, LineSize64
**--------------Unified Cache    0, Level 2,512 KB, Assoc 8, LineSize64
********--------Unified Cache    1, Level 3, 8 MB, Assoc16, LineSize64
--**------------Data Cache       1, Level 1, 32 KB, Assoc 8, LineSize64
--**------------Instruction Cache 1, Level 1, 64 KB, Assoc 4, LineSize64
--**------------Unified Cache    2, Level 2,512 KB, Assoc 8, LineSize64
----**----------Data Cache       2, Level 1, 32 KB, Assoc 8, LineSize64
----**----------Instruction Cache 2, Level 1, 64 KB, Assoc 4, LineSize64
----**----------Unified Cache    3, Level 2,512 KB, Assoc 8, LineSize64
------**--------Data Cache       3, Level 1, 32 KB, Assoc 8, LineSize64
------**--------Instruction Cache 3, Level 1, 64 KB, Assoc 4, LineSize64
------**--------Unified Cache    4, Level 2,512 KB, Assoc 8, LineSize64
--------**------Data Cache       5, Level 1, 32 KB, Assoc 8, LineSize64
--------**------Instruction Cache 5, Level 1, 64 KB, Assoc 4, LineSize64
--------**------Unified Cache    5, Level 2,512 KB, Assoc 8, LineSize64
--------********Unified Cache    6, Level 3, 8 MB, Assoc16, LineSize64
----------**----Data Cache       6, Level 1, 32 KB, Assoc 8, LineSize64
----------**----Instruction Cache 6, Level 1, 64 KB, Assoc 4, LineSize64
----------**----Unified Cache    7, Level 2,512 KB, Assoc 8, LineSize64
------------**--Data Cache       7, Level 1, 32 KB, Assoc 8, LineSize64
------------**--Instruction Cache 7, Level 1, 64 KB, Assoc 4, LineSize64
------------**--Unified Cache    8, Level 2,512 KB, Assoc 8, LineSize64
--------------**Data Cache       8, Level 1, 32 KB, Assoc 8, LineSize64
--------------**Instruction Cache 8, Level 1, 64 KB, Assoc 4, LineSize64
--------------**Unified Cache    9, Level 2,512 KB, Assoc 8, LineSize6416MB L3 Cache被错认了16遍 23333

Draw Call能力低下
某网友自制测试中（https://forums.anandtech.com/thr ... erformance.2499609/）
Ryzen 3.6GHz+R9 Nano = 12.80fps （Win10） 14.69fps（Win7）

https://s5.postimg.org/csu0jia9j/1_16000.png

图中同样使用Nano的i7 4771 3.9GHz在此测试中达到了17.78fps（Win10）

CCX之间互联带宽低下
德国佬和法国佬都给出了22GB/s这个数据，相比之下Haswell-EP、Broadwell-EP的QPI带宽则是38.4GB/s

网友自制的编译小测试中，将所有线程绑定在一个CCX内（4C8T），编译速度比8C16T全开时提高了很多

http://i.imgur.com/72cbLFr.png

相似的情况发生在双路CPU上，胶水双CCX看来是坐实了

出处：
https://forums.anandtech.com/thr ... ical.2500572/page-9

zmw_831110 发表于 2017-3-5 12:14

1700配七彩虹超3.7全核，应该是不错的选择

----发送自 STAGE1 App for Android.

STAGE11 发表于 2017-3-5 12:18

AMD全面翻身已经订了1700x

bigtit 发表于 2017-3-5 13:04

albertfu 发表于 2017-3-5 13:24

bigtit 发表于 2017-3-5 13:04
跑个分就叫技术分析了?
好歹分析下rob和iq调度算法对跑分的影响吧

我就是个翻译，屁都不懂

欢迎你去阿三科技论坛直接问那人去

lumia 发表于 2017-3-5 15:01

无名的旅人 发表于 2017-3-5 15:13

实际使用中总会有诸多后台任务，理论单核频率几乎不会出现，超频频率达不到XFR单核最高值其实也无所谓

Data Fabric绑定内存控制器的话，那解决高频内存支持的问题就更是当务之急了
又或者说正因为这个机制，才导致了诸多问题以及高频内存支持不佳

买Ryzen双CCX本质上是买了双路平台，想想心里还有点小激动呢（大误）

最后……怎么涉及压缩的两个项目Haswell是最高的……

qwased 发表于 2017-3-5 15:22

无名的旅人发表于 2017-3-5 15:13
实际使用中总会有诸多后台任务，理论单核频率几乎不会出现，超频频率达不到XFR单核最高值其实也无所谓

Dat ...

WINRAR跑分好像只看内存带宽

zmw_831110 发表于 2017-3-5 16:25

qwased 发表于 2017-3-5 15:22
WINRAR跑分好像只看内存带宽

那也没道理啊
haswell只有ddr3啊

搞不好是哈士奇 发表于 2017-3-5 16:28

qwased 发表于 2017-3-5 16:30

zmw_831110 发表于 2017-3-5 16:25
那也没道理啊
haswell只有ddr3啊

5960x 4通道啊

—— 来自 Jiayu S3, Android 7.1.1上的 S1Next-鹅版

zmw_831110 发表于 2017-3-5 16:31

qwased 发表于 2017-3-5 16:30
5960x 4通道啊

—— 来自 Jiayu S3, Android 7.1.1上的 S1Next-鹅版

忘记这个了.
那么这个评测...

albertfu 发表于 2017-3-7 19:38

zmw_831110 发表于 2017-3-5 16:31
忘记这个了.
那么这个评测...

翻了一下原帖没看到注明5960x用的双通道还是四通道 2333

页: [1]

Stage1st's Archiver

Ryzen一些技术分析和IPC比较（挖掘机，haswell，kaby lake）