Haswell ---> 坑爹 - 第3页 - ＰＣ数码 - Stage1st

鸡蛋灌饼 发表于 2013-5-17 16:10

引用第77楼卖哥于2013-05-17 16:04发表的 :

正是超标量才让编译器不再是纯当翻译完事，编译器可以做指令对齐来避免冲突提高性能，而乱序执行最初实现同样是这个功能。

拆分支就是投机超线程，分支两边同时做。
images/back.gif

乱序的基础在于超标量流水线（至少，最自然的方案是这样），没有超标量流水线怎么乱序执行指令
所以我说两者互为表里。
而指令调度这事只需要流水线CPU（又想起体系结构的作业了，每次都靠蒙）

另外投机这事对于90%+的分支预测命中率来说是不是太费了点啊……

卖哥发表于 2013-5-17 16:11

引用第72楼IOSYS于2013-05-17 15:51发表的:

这不就和intel的架构一模一样了嘛。。。。。。。。。。。只不过把“核”改名叫了“模块”
不对，这更像power7一点，真实现了是能打趴intel的。。。。。。。。。 images/back.gif

和英特尔完全不一样
在结构上跟RISC那些更接近，执行端口趋于单功能

但是在超线程上，英特尔和Power都属于SMT，用其他线程来填气泡。
AMD的模式属于FMT，也就是GPU的做法，目的是让其他线程来掩饰延迟。

鸡蛋灌饼 发表于 2013-5-17 16:15

引用第81楼卖哥于2013-05-17 16:11发表的:
但是在超线程上，英特尔和Power都属于SMT，用其他线程来填气泡。
AMD的模式属于FMT，也就是GPU的做法，目的是让其他线程来掩饰延迟。images/back.gif

其实在我看来，如果不严格从电路设计上划分“核”这个区域的话，这两种策略很难划出一条清晰的界限。

IOSYS 发表于 2013-5-17 16:17

IOSYS 发表于 2013-5-17 16:19

鸡蛋灌饼 发表于 2013-5-17 16:22

引用第83楼IOSYS于2013-05-17 16:17发表的 :

我指的是灌饼说理想版推土机
按照现在推土机的架构，肯定和SMT是天南地北了。

掩盖延迟的话，是掩盖哪部分的？解码？缓存？调度？ images/back.gif

内存
看过CUDA手册的都知道片上内存（shared memory）和寄存器只用一个周期，访问显存就要飚到几百个（印象中是500-600？）
于是GPU的策略是开上千个线程，一个堵了执行另一个。
越强大的处理器内存（缓存）性能就越重要，因为内存实在太慢了
Intel手机CPU跑分碾压ARM也是沾内存性能的光。

这也是我为什么对Haswell如此失望的原因，看针脚就知道四通道无望，现在又没有DDR4。我日，Intel的tick-tock是不是打算进化成rolling release啊

IOSYS 发表于 2013-5-17 16:25

卖哥发表于 2013-5-17 16:27

引用第83楼IOSYS于2013-05-17 16:17发表的:

我指的是灌饼说理想版推土机
按照现在推土机的架构，肯定和SMT是天南地北了。

掩盖延迟的话，是掩盖哪部分的？解码？缓存？调度？ images/back.gif

自然是解码和浮点这两部分共享的

鸡蛋灌饼 发表于 2013-5-17 16:30

引用第86楼IOSYS于2013-05-17 16:25发表的:

但是CPU有巨大的1，2，3级缓存啊 images/back.gif

你应该这么想：正是因为内存性能影响那么大所以才不得已的塞上那么大的缓存。GT3e都塞到用不起SRAM只能用DRAM了
GPU缓存我看过的手册里没见过上M的

然后因为要堆Cache堆不了ALU就成为黄老板攻击CPU的罪证了

IOSYS 发表于 2013-5-17 16:33

卖哥发表于 2013-5-17 16:40

至于理想化推土机
我认为是AMD想设计一种较少晶体管的双核
他的目标就是最终单模块有接近双核的性能，但是面积只比单核增加50%
其实基本上也达到了目的，独立的整数部分只有整个模块12%的面积。

宅男的爱 发表于 2013-5-17 17:28

感觉N年了，都是【Intel这次太坑爹了！让我们来批判一下AMD！】的节奏……

allenz 发表于 2013-5-17 18:28

说了半天，早就预测Haswell性能不提升了吧，功耗测试在哪里？

sakamoto 发表于 2013-5-17 19:31

引用第40楼IOSYS于2013-05-17 09:52发表的:

TSX就一内存管理机制改进而已，和所谓的逆向超线程（这玩意真的有实现的理论基础？）八杆子打不到 images/back.gif

玩笑而已...

推土机设计其实不错的，如果调整下前端，不跑那么高频，吞吐量很容易堆上去。当然单线性能别想了。我一直很期待2M4T+GCN的apu。

johnie 发表于 2013-5-17 19:31

cexo 发表于 2013-5-17 20:17

引用第64楼john于2013-05-17 15:19发表的:

PS4
Memory 8 GB GDDR5 (unified)

最近论坛里这种一本正经批评别人的半瓶子水怎么越来越多了 images/back.gif

我确实是半桶水。

PS4的确用的是GDDR5，我弄错了。
= =|||而且现在才明白GDDR5的确和DDR5之间的关系差得不是一点半点。

其实也不是想要说什么。
只是实在看不惯I厨不分场合不分地点啥都不管的喷AMD那副嘴脸。

……不过仔细想想，也没什么。
他们喷AMD其实跟我也没啥关系。

冲动了，装逼了，不好意思。

johnie 发表于 2013-5-17 21:14

PLD 发表于 2013-5-17 21:56

jamboo 发表于 2013-5-17 22:47

发觉体系结构都白学了，你们的讨论已经看不太懂了

----发送自 Meizu M040,Android 4.1.1

IOSYS 发表于 2013-5-17 22:50

sakamoto 发表于 2013-5-17 23:27

在S1黑小aa都90%都是小aa用户

页: 1 2 [3]

Stage1st's Archiver