婆罗门
精华
|
战斗力 鹅
|
回帖 0
注册时间 2017-3-1
|
让ai总结了一下,这个和1.5的键合应该是对应的, 粒度上细很多所以键合距离比dielet之间的堆叠更近
LogicFolding 相比 Feynman 这种 GPU logic die 垂直堆叠,难点更偏设计闭环和制造协同,而不是单纯“把两片 die 叠起来”。
最核心的难度有几个:
粒度太细
Feynman 垂直堆叠大概率是 die/tile 级:每层还是相对完整的 GPU 逻辑块,层间连接主要服务 NoC、cache、partition、memory fabric 等较粗粒度接口。
LogicFolding 如果真做到 gate/FF/critical-path 级折叠,就要把一个 timing path 拆到上下 wafer layer。这样 placement、routing、clock tree、reset、scan、power grid 都要跨层一起优化,EDA 难度高很多。
不能只“堆”,还要保证 timing 变好
Die stacking 的收益主要来自更短的 die-to-die 距离和更高连接密度;只要接口设计合理,就能获得带宽/面积收益。
LogicFolding 的收益要求每条被折叠的 critical path 的总延迟真的下降。垂直连接本身有 parasitic、landing pad、bonding pitch、keepout、via/metal transition。如果折叠后多了太多接口开销,可能 timing 反而不赚。
EDA 工具链要重做
普通 P&R 假设大部分逻辑在 2D 平面内完成。LogicFolding 需要 3D-aware synthesis、partition、placement、routing、STA、IR drop、EM、thermal、DFT 全流程协同。
Feynman 的 3D die stacking 也需要先进封装工具,但每个 die 内部仍可较传统地设计,跨 die 边界相对清楚。LogicFolding 的边界可能在标准单元之间,复杂度更高。
制造容错更难
Die-level stacking 可以先测 die,再做 known-good-die stacking,坏 die 可以筛掉。
Wafer/cell-level folding 如果层间连接密度极高、耦合到关键路径,良率、对准误差、bond defect、局部冗余都会更难处理。一个小 bonding defect 可能直接打断 timing-critical logic。
供电、时钟、热的局部约束更紧
把关键逻辑折到垂直方向后,局部功率密度可能升高,clock skew 和 power integrity 也更难控。尤其如果上下层都有高切换率逻辑,局部热点和 IR drop 会影响 timing closure。
收益更依赖具体电路
Feynman 的堆叠收益对 GPU 这种大规模并行芯片比较直接:更多近距离互连、更高封装带宽、更紧凑集成。
LogicFolding 不是所有逻辑都适合折。只有长线占主导、critical path 明显、布线拥塞严重的区域收益大。短路径、局部计算密集、时钟/功耗受限区域可能不值得折。
总结:Feynman 难在高功耗大 die 的 3D 封装、散热、供电和系统架构;LogicFolding 难在把 3D 从封装层推进到电路实现层,并让 timing、良率、EDA、测试全部闭环。前者像“把完整楼层叠起来并解决电梯和空调”,后者像“把每个房间的墙、管线、电路都重新按三维方式设计”。
|
评分
-
查看全部评分
|