引用第77楼卖哥于2013-05-17 16:04发表的 :
正是超标量才让编译器不再是纯当翻译完事,编译器可以做指令对齐来避免冲突提高性能,而乱序执行最初实现同样是这个功能。
拆分支就是投机超线程,分支两边同时做。
images/back.gif
乱序的基础在于超标量流水线(至少,最自然的方案是这样),没有超标量流水线怎么乱序执行指令
所以我说两者互为表里。
而指令调度这事只需要流水线CPU(又想起体系结构的作业了,每次都靠蒙)
另外投机这事对于90%+的分支预测命中率来说是不是太费了点啊……
引用第72楼IOSYS于2013-05-17 15:51发表的:
这不就和intel的架构一模一样了嘛。。。。。。。。。。。只不过把“核”改名叫了“模块”
不对,这更像power7一点,真实现了是能打趴intel的。。。。。。。。。 images/back.gif
和英特尔完全不一样
在结构上跟RISC那些更接近,执行端口趋于单功能
但是在超线程上,英特尔和Power都属于SMT,用其他线程来填气泡。
AMD的模式属于FMT,也就是GPU的做法,目的是让其他线程来掩饰延迟。
引用第81楼卖哥于2013-05-17 16:11发表的:
但是在超线程上,英特尔和Power都属于SMT,用其他线程来填气泡。
AMD的模式属于FMT,也就是GPU的做法,目的是让其他线程来掩饰延迟。images/back.gif
其实在我看来,如果不严格从电路设计上划分“核”这个区域的话,这两种策略很难划出一条清晰的界限。
引用第83楼IOSYS于2013-05-17 16:17发表的 :
我指的是灌饼说理想版推土机
按照现在推土机的架构,肯定和SMT是天南地北了。
掩盖延迟的话,是掩盖哪部分的?解码?缓存?调度? images/back.gif
内存
看过CUDA手册的都知道片上内存(shared memory)和寄存器只用一个周期,访问显存就要飚到几百个(印象中是500-600?)
于是GPU的策略是开上千个线程,一个堵了执行另一个。
越强大的处理器内存(缓存)性能就越重要,因为内存实在太慢了
Intel手机CPU跑分碾压ARM也是沾内存性能的光。
这也是我为什么对Haswell如此失望的原因,看针脚就知道四通道无望,现在又没有DDR4。我日,Intel的tick-tock是不是打算进化成rolling release啊
引用第83楼IOSYS于2013-05-17 16:17发表的:
我指的是灌饼说理想版推土机
按照现在推土机的架构,肯定和SMT是天南地北了。
掩盖延迟的话,是掩盖哪部分的?解码?缓存?调度? images/back.gif
自然是解码和浮点这两部分共享的
引用第86楼IOSYS于2013-05-17 16:25发表的:
但是CPU有巨大的1,2,3级缓存啊 images/back.gif
你应该这么想:正是因为内存性能影响那么大所以才不得已的塞上那么大的缓存。GT3e都塞到用不起SRAM只能用DRAM了
GPU缓存我看过的手册里没见过上M的
然后因为要堆Cache堆不了ALU就成为黄老板攻击CPU的罪证了
至于理想化推土机
我认为是AMD想设计一种较少晶体管的双核
他的目标就是最终单模块有接近双核的性能,但是面积只比单核增加50%
其实基本上也达到了目的,独立的整数部分只有整个模块12%的面积。
感觉N年了,都是【Intel这次太坑爹了!让我们来批判一下AMD!】的节奏……
说了半天,早就预测Haswell性能不提升了吧,功耗测试在哪里?
引用第40楼IOSYS于2013-05-17 09:52发表的:
TSX就一内存管理机制改进而已,和所谓的逆向超线程(这玩意真的有实现的理论基础?)八杆子打不到 images/back.gif
玩笑而已...
推土机设计其实不错的,如果调整下前端,不跑那么高频,吞吐量很容易堆上去。当然单线性能别想了。我一直很期待2M4T+GCN的apu。
引用第64楼john于2013-05-17 15:19发表的:
PS4
Memory 8 GB GDDR5 (unified)
最近论坛里这种一本正经批评别人的半瓶子水怎么越来越多了 images/back.gif
我确实是半桶水。
PS4的确用的是GDDR5,我弄错了。
= =|||而且现在才明白GDDR5的确和DDR5之间的关系差得不是一点半点。
其实也不是想要说什么。
只是实在看不惯I厨不分场合不分地点啥都不管的喷AMD那副嘴脸。
……不过仔细想想,也没什么。
他们喷AMD其实跟我也没啥关系。
冲动了,装逼了,不好意思。
发觉体系结构都白学了,你们的讨论已经看不太懂了
----发送自 Meizu M040,Android 4.1.1
在S1黑小aa都90%都是小aa用户
