Ryzen一些技术分析和IPC比较（挖掘机，haswell，kaby lake）

albertfu · 发表于 2017-3-5 12:02

本帖最后由 albertfu 于 2017-3-5 12:49 编辑

SMU - 系统管理单元

正常运作时Ryzen所有的电源管理功能都开启，这一切都由SMU管理。电源管理功能包括了各种功耗，电流，温度，电压限制和开关

为了满足超频需要，Ryzen内置了一个超频模式，可以无视所有限制器（limiter解除！）（除了过热保护）
超频模式在提高基频时自动启动，SMU会发送一个0C信号到主板的80端口

在Ryzen里，MSR里定义的电压只是实际工作电压的上限，SMU会自动降低一点电压，这个降低的量和负载和温度都有关
在3.6和3.2GHz的测试表明这个降低量在120mV-144mV之间

当超频模式启用时，SMU不再自动降低电压
这样会大幅提高功耗，给人一种一超频就功耗爆炸的感觉。其实这是因为原来的自动降压没了，等于变相提高了50-150mV电压
因此建议超频时不要急于加压，因为一开始超频，什么都不做就已经在加压了

正常模式时压降是121.5mV

"Normal-Mode" - P0 PState VID = 1.36250V, SMU voltage offset = ~ -120mV, effective voltage = 1.24250V.
"OC-Mode" - P0 PState VID = 1.36250V, SMU voltage offset = ±0mV, effective voltage = 1.36250V

超频模式的另一个缺点是：一超频，默认的Turbo和XFR就全没了
所以如果超不到原本XFR达到的频率（1800X是4.1GHz），单线程性能是降低的

XFR
正常情况下，XFR可以一直生效，也就是说1800X全核boost 3.7GHz，单核4.1GHz
但当温度或者功耗太高时，比如跑linpack，XFR无法生效

BCLK
Ryzen上面没有Outel经常有的STRAP（100 125 166 250等），BCLK超到125时没法通过STRAP把PCIE频率维持在100

CCX的频率关系
核心，L1、L2 cache始终是同一频率，L3 cache则是和同一CCX内最高频率的核心速度保持一致
data fabric（CCX之间的互联）的同步要求每个启用的CCX内有相同的启用核心数
这就是为什么8核的Ryzen（两个CCX）只有如下配置：
1（1+0）
2（2+0、1+1）
3（3+0）
4（4+0、2+2）
6（3+3）
8（4+4）

Data Fabric
Ryzen的北桥被称为Data Fabric，频率和内存控制器频率绑定，1：2。也就是说DDR3 2400时北桥频率1200

这样的后果就是提升内存速度也会提升北桥速度（提升CCX之间互联的带宽）
从表象上来看就是内存超频对CPU性能的增益超出一般内存超频该有的增益

超频
高端型号Ryzen的超频空间相当小，三棒14nm LPP的锅

如图所示，Ryzen在3.3GHz以下频率和电压是线性关系（25mV每100MHz）
第一个转折点在3.3GHz，第二个在3.5GHz，超出3.5GHz所需电压就非线性提高了

作为参考，过去的小aa CPU的“电压转折点”：
Vishera，32nm SHP SOI：4.4GHz 4.7GHz
Kaveri/Godavari，28nm “SHP” HPP **ar：4.3GHz 4.5GHz

在1800X型号上，3.6GHz基频的电压在1.2-1.3V之间，但XFR的最大频率4.1GHz所需电压可以高达1.475V

AMD尚未提供可持续使用的最高安全电压（VDDCR_CPU和VDDCR_SOC），但可以猜测1.45V以上并不适合持续满负载状态

尽管1.475V以下就可以满足XFR单核4.1GHz，但同样的电压并不能保证全核上4.1GHz，因为单核和全核满载的各种条件都大不同

全核超出4.1GHz完全可能，但所需功耗和频率提升不成比例

最后就是之前提到的：超频就会禁用Boost和XFR，如果超不到XFR单核上限，单线程性能是有损失的

功耗

当前的Prime95 （28.10）并不能在Ryzen上实现烤机的目的，需要使用firestarter和linpack

峰值烤机功耗和频率的关系

基于SmallPT的Monte Carlo raytracer - MCRT可以提供更接近现实使用环境的功耗

每瓦性能

cTDP
Ryzen支持cTDP，尽管官方并没有列出

cTDP和性能的关系

30W时实现850分，绝对性能不高，但是每瓦性能很高
频率此时为1.9GHz多点
顺带一提默认时单核成绩是162，TDP限制为30W时成绩为155

单核IPC比较

相对单核IPC比较（ER表示去除最大值和最小值）

绝对单核IPC比较

4C4T IPC比较

4C4T相对IPC

4C8T IPC比较

4C8T相对IPC

开启超线程（HT SMT）后的性能比较

相对性能（1800X 5960X 7700K）

开启HT/SMT的性能增益

平均HT/SMT带来的增益

从上面的结果可以看出，Ryzen对FMA指令集支持不好（bullet，himeno，nbody，linpack）（图我没全放

Ryzen在Windows内，Cache和逻辑处理器的mapping有误

当前的Ryzen

Logical Processor to Cache Map:
*--------------- Data Cache 0, Level 1, 32 KB, Assoc 8, LineSize 64
*--------------- Instruction Cache 0, Level 1, 64 KB, Assoc 4, LineSize 64
*--------------- Unified Cache 0, Level 2, 512 KB, Assoc 8, LineSize 64
*--------------- Unified Cache 1, Level 3, 16 MB, Assoc 16, LineSize 64
-*-------------- Data Cache 1, Level 1, 32 KB, Assoc 8, LineSize 64
-*-------------- Instruction Cache 1, Level 1, 64 KB, Assoc 4, LineSize 64
-*-------------- Unified Cache 2, Level 2, 512 KB, Assoc 8, LineSize 64
-*-------------- Unified Cache 3, Level 3, 16 MB, Assoc 16, LineSize 64
--*------------- Data Cache 2, Level 1, 32 KB, Assoc 8, LineSize 64
--*------------- Instruction Cache 2, Level 1, 64 KB, Assoc 4, LineSize 64
--*------------- Unified Cache 4, Level 2, 512 KB, Assoc 8, LineSize 64
--*------------- Unified Cache 5, Level 3, 16 MB, Assoc 16, LineSize 64
---*------------ Data Cache 3, Level 1, 32 KB, Assoc 8, LineSize 64
---*------------ Instruction Cache 3, Level 1, 64 KB, Assoc 4, LineSize 64
---*------------ Unified Cache 6, Level 2, 512 KB, Assoc 8, LineSize 64
---*------------ Unified Cache 7, Level 3, 16 MB, Assoc 16, LineSize 64
----*----------- Data Cache 4, Level 1, 32 KB, Assoc 8, LineSize 64
----*----------- Instruction Cache 4, Level 1, 64 KB, Assoc 4, LineSize 64
----*----------- Unified Cache 8, Level 2, 512 KB, Assoc 8, LineSize 64
----*----------- Unified Cache 9, Level 3, 16 MB, Assoc 16, LineSize 64
-----*---------- Data Cache 5, Level 1, 32 KB, Assoc 8, LineSize 64
-----*---------- Instruction Cache 5, Level 1, 64 KB, Assoc 4, LineSize 64
-----*---------- Unified Cache 10, Level 2, 512 KB, Assoc 8, LineSize 64
-----*---------- Unified Cache 11, Level 3, 16 MB, Assoc 16, LineSize 64
------*--------- Data Cache 6, Level 1, 32 KB, Assoc 8, LineSize 64
------*--------- Instruction Cache 6, Level 1, 64 KB, Assoc 4, LineSize 64
------*--------- Unified Cache 12, Level 2, 512 KB, Assoc 8, LineSize 64
------*--------- Unified Cache 13, Level 3, 16 MB, Assoc 16, LineSize 64
-------*-------- Data Cache 7, Level 1, 32 KB, Assoc 8, LineSize 64
-------*-------- Instruction Cache 7, Level 1, 64 KB, Assoc 4, LineSize 64
-------*-------- Unified Cache 14, Level 2, 512 KB, Assoc 8, LineSize 64
-------*-------- Unified Cache 15, Level 3, 16 MB, Assoc 16, LineSize 64
--------*------- Data Cache 8, Level 1, 32 KB, Assoc 8, LineSize 64
--------*------- Instruction Cache 8, Level 1, 64 KB, Assoc 4, LineSize 64
--------*------- Unified Cache 16, Level 2, 512 KB, Assoc 8, LineSize 64
--------*------- Unified Cache 17, Level 3, 16 MB, Assoc 16, LineSize 64
---------*------ Data Cache 9, Level 1, 32 KB, Assoc 8, LineSize 64
---------*------ Instruction Cache 9, Level 1, 64 KB, Assoc 4, LineSize 64
---------*------ Unified Cache 18, Level 2, 512 KB, Assoc 8, LineSize 64
---------*------ Unified Cache 19, Level 3, 16 MB, Assoc 16, LineSize 64
----------*----- Data Cache 10, Level 1, 32 KB, Assoc 8, LineSize 64
----------*----- Instruction Cache 10, Level 1, 64 KB, Assoc 4, LineSize 64
----------*----- Unified Cache 20, Level 2, 512 KB, Assoc 8, LineSize 64
----------*----- Unified Cache 21, Level 3, 16 MB, Assoc 16, LineSize 64
-----------*---- Data Cache 11, Level 1, 32 KB, Assoc 8, LineSize 64
-----------*---- Instruction Cache 11, Level 1, 64 KB, Assoc 4, LineSize 64
-----------*---- Unified Cache 22, Level 2, 512 KB, Assoc 8, LineSize 64
-----------*---- Unified Cache 23, Level 3, 16 MB, Assoc 16, LineSize 64
------------*--- Data Cache 12, Level 1, 32 KB, Assoc 8, LineSize 64
------------*--- Instruction Cache 12, Level 1, 64 KB, Assoc 4, LineSize 64
------------*--- Unified Cache 24, Level 2, 512 KB, Assoc 8, LineSize 64
------------*--- Unified Cache 25, Level 3, 16 MB, Assoc 16, LineSize 64
-------------*-- Data Cache 13, Level 1, 32 KB, Assoc 8, LineSize 64
-------------*-- Instruction Cache 13, Level 1, 64 KB, Assoc 4, LineSize 64
-------------*-- Unified Cache 26, Level 2, 512 KB, Assoc 8, LineSize 64
-------------*-- Unified Cache 27, Level 3, 16 MB, Assoc 16, LineSize 64
--------------*- Data Cache 14, Level 1, 32 KB, Assoc 8, LineSize 64
--------------*- Instruction Cache 14, Level 1, 64 KB, Assoc 4, LineSize 64
--------------*- Unified Cache 28, Level 2, 512 KB, Assoc 8, LineSize 64
--------------*- Unified Cache 29, Level 3, 16 MB, Assoc 16, LineSize 64
---------------* Data Cache 15, Level 1, 32 KB, Assoc 8, LineSize 64
---------------* Instruction Cache 15, Level 1, 64 KB, Assoc 4, LineSize 64
---------------* Unified Cache 30, Level 2, 512 KB, Assoc 8, LineSize 64
---------------* Unified Cache 31, Level 3, 16 MB, Assoc 16, LineSize 64

复制代码

3770K的长这样

Logical Processor to Cache Map:
**------ Data Cache 0, Level 1, 32 KB, Assoc 8, LineSize 64
**------ Instruction Cache 0, Level 1, 32 KB, Assoc 8, LineSize 64
**------ Unified Cache 0, Level 2, 256 KB, Assoc 8, LineSize 64
******** Unified Cache 1, Level 3, 8 MB, Assoc 16, LineSize 64
--**---- Data Cache 1, Level 1, 32 KB, Assoc 8, LineSize 64
--**---- Instruction Cache 1, Level 1, 32 KB, Assoc 8, LineSize 64
--**---- Unified Cache 2, Level 2, 256 KB, Assoc 8, LineSize 64
----**-- Data Cache 2, Level 1, 32 KB, Assoc 8, LineSize 64
----**-- Instruction Cache 2, Level 1, 32 KB, Assoc 8, LineSize 64
----**-- Unified Cache 3, Level 2, 256 KB, Assoc 8, LineSize 64
------** Data Cache 3, Level 1, 32 KB, Assoc 8, LineSize 64
------** Instruction Cache 3, Level 1, 32 KB, Assoc 8, LineSize 64
------** Unified Cache 4, Level 2, 256 KB, Assoc 8, LineSize 64

复制代码

Ryzen的应该长这样

Logical Processor to Cache Map:
**-------------- Data Cache 0, Level 1, 32 KB, Assoc 8, LineSize 64
**-------------- Instruction Cache 0, Level 1, 64 KB, Assoc 4, LineSize 64
**-------------- Unified Cache 0, Level 2, 512 KB, Assoc 8, LineSize 64
********-------- Unified Cache 1, Level 3, 8 MB, Assoc 16, LineSize 64
--**------------ Data Cache 1, Level 1, 32 KB, Assoc 8, LineSize 64
--**------------ Instruction Cache 1, Level 1, 64 KB, Assoc 4, LineSize 64
--**------------ Unified Cache 2, Level 2, 512 KB, Assoc 8, LineSize 64
----**---------- Data Cache 2, Level 1, 32 KB, Assoc 8, LineSize 64
----**---------- Instruction Cache 2, Level 1, 64 KB, Assoc 4, LineSize 64
----**---------- Unified Cache 3, Level 2, 512 KB, Assoc 8, LineSize 64
------**-------- Data Cache 3, Level 1, 32 KB, Assoc 8, LineSize 64
------**-------- Instruction Cache 3, Level 1, 64 KB, Assoc 4, LineSize 64
------**-------- Unified Cache 4, Level 2, 512 KB, Assoc 8, LineSize 64
--------**------ Data Cache 5, Level 1, 32 KB, Assoc 8, LineSize 64
--------**------ Instruction Cache 5, Level 1, 64 KB, Assoc 4, LineSize 64
--------**------ Unified Cache 5, Level 2, 512 KB, Assoc 8, LineSize 64
--------******** Unified Cache 6, Level 3, 8 MB, Assoc 16, LineSize 64
----------**---- Data Cache 6, Level 1, 32 KB, Assoc 8, LineSize 64
----------**---- Instruction Cache 6, Level 1, 64 KB, Assoc 4, LineSize 64
----------**---- Unified Cache 7, Level 2, 512 KB, Assoc 8, LineSize 64
------------**-- Data Cache 7, Level 1, 32 KB, Assoc 8, LineSize 64
------------**-- Instruction Cache 7, Level 1, 64 KB, Assoc 4, LineSize 64
------------**-- Unified Cache 8, Level 2, 512 KB, Assoc 8, LineSize 64
--------------** Data Cache 8, Level 1, 32 KB, Assoc 8, LineSize 64
--------------** Instruction Cache 8, Level 1, 64 KB, Assoc 4, LineSize 64
--------------** Unified Cache 9, Level 2, 512 KB, Assoc 8, LineSize 64

复制代码

16MB L3 Cache被错认了16遍 23333

Draw Call能力低下
某网友自制测试中（https://forums.anandtech.com/thr ... erformance.2499609/）
Ryzen 3.6GHz+R9 Nano = 12.80fps （Win10） 14.69fps（Win7）

图中同样使用Nano的i7 4771 3.9GHz在此测试中达到了17.78fps（Win10）

CCX之间互联带宽低下
德国佬和法国佬都给出了22GB/s这个数据，相比之下Haswell-EP、Broadwell-EP的QPI带宽则是38.4GB/s

网友自制的编译小测试中，将所有线程绑定在一个CCX内（4C8T），编译速度比8C16T全开时提高了很多

相似的情况发生在双路CPU上，胶水双CCX看来是坐实了

出处：
https://forums.anandtech.com/thr ... ical.2500572/page-9

zmw_831110 · 发表于 2017-3-5 12:14

1700配七彩虹超3.7全核，应该是不错的选择

----发送自 STAGE1 App for Android.

STAGE11 · 发表于 2017-3-5 12:18

AMD全面翻身已经订了1700x

bigtit · 发表于 2017-3-5 13:04

提示: 作者被禁止或删除内容自动屏蔽

albertfu · 发表于 2017-3-5 13:24

bigtit 发表于 2017-3-5 13:04
跑个分就叫技术分析了?
好歹分析下rob和iq调度算法对跑分的影响吧

我就是个翻译，屁都不懂

欢迎你去阿三科技论坛直接问那人去

lumia · 发表于 2017-3-5 15:01

提示: 作者被禁止或删除内容自动屏蔽

无名的旅人 · 发表于 2017-3-5 15:13

实际使用中总会有诸多后台任务，理论单核频率几乎不会出现，超频频率达不到XFR单核最高值其实也无所谓

Data Fabric绑定内存控制器的话，那解决高频内存支持的问题就更是当务之急了
又或者说正因为这个机制，才导致了诸多问题以及高频内存支持不佳

买Ryzen双CCX本质上是买了双路平台，想想心里还有点小激动呢（大误）

最后……怎么涉及压缩的两个项目Haswell是最高的……

qwased · 发表于 2017-3-5 15:22

无名的旅人发表于 2017-3-5 15:13
实际使用中总会有诸多后台任务，理论单核频率几乎不会出现，超频频率达不到XFR单核最高值其实也无所谓

Dat ...

WINRAR跑分好像只看内存带宽

zmw_831110 · 发表于 2017-3-5 16:25

qwased 发表于 2017-3-5 15:22
WINRAR跑分好像只看内存带宽

那也没道理啊
haswell只有ddr3啊

搞不好是哈士奇 · 发表于 2017-3-5 16:28

提示: 作者被禁止或删除内容自动屏蔽

qwased · 发表于 2017-3-5 16:30

zmw_831110 发表于 2017-3-5 16:25
那也没道理啊
haswell只有ddr3啊

5960x 4通道啊

—— 来自 Jiayu S3, Android 7.1.1上的 S1Next-鹅版

zmw_831110 · 发表于 2017-3-5 16:31

qwased 发表于 2017-3-5 16:30
5960x 4通道啊

—— 来自 Jiayu S3, Android 7.1.1上的 S1Next-鹅版

忘记这个了.
那么这个评测...

albertfu · 发表于 2017-3-7 19:38

zmw_831110 发表于 2017-3-5 16:31
忘记这个了.
那么这个评测...

翻了一下原帖没看到注明5960x用的双通道还是四通道 2333

		自动登录	找回密码
密码			立即注册

bigtit bigtit 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2012-1-5 头像被屏蔽	发表于 2017-3-5 13:04 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

lumia lumia 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2013-1-20 头像被屏蔽	发表于 2017-3-5 15:01 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

搞不好是哈士奇搞不好是哈士奇当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2015-2-25 头像被屏蔽	发表于 2017-3-5 16:28 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

[硬件] Ryzen一些技术分析和IPC比较（挖掘机，haswell，kaby lake）