韬（τ）定律？万物皆可叠？

gp1390 · 发表于 2026-5-25 11:44

这是上周三的小作文，当时还以为是假的，知道smic和华为在搞堆叠，没想到这么快9050就上了

Re:Source

孤舟垂钓 · 发表于 2026-5-25 11:47

兔子土特产要增加了

sellboy · 发表于 2026-5-25 11:49

holmesjerry 发表于 2026-5-25 11:23
这画饼画的

n+3也没有155密度啊怎么一步就跳到236了

实际只有理论密度的60~75%吧

qwased · 发表于 2026-5-25 11:50

真能解决那美股崩盘就是两年内的事情了

平贺才人 · 发表于 2026-5-25 11:53

381030691 · 发表于 2026-5-25 11:55

我要梭哈了，谭友们来点代码

nukacolamania · 发表于 2026-5-25 11:57

河水发表于 2026-5-25 10:14
叠词词是对的

—— 来自 Xiaomi Redmi K20 Pro Premium Edition, Android 11, 鹅球 v3.5.99

wuli 韬韬

—— 来自 motorola moto g51 5G, Android 11, 鹅球 v3.5.99

Litccc · 发表于 2026-5-25 11:59

381030691 发表于 2026-5-25 11:55
我要梭哈了，谭友们来点代码

上面不是说了吗，中芯国际，但今天追高的应该是妥妥的韭菜😅

Eroco · 发表于 2026-5-25 12:00

再结合前一段任正非出现在新闻联播，还是在芯片基础技术研究实验室

百特曼 · 发表于 2026-5-25 12:03

这是真的换道超车了，摩尔定律是几何微缩，韬定律是时间微缩，所以韬定律是没有传统意义上的nm极限的，摩尔普遍认为是1-2nm
关键是韬定律光靠duv就能在绝大多数主流民用场景性能赶上反超euv摩尔定律路径这太可怕了，哪怕性能等效，到duv的成本优势和良率优势可太大了，成本降低50%以上，良率涨10几20几，直接就是价格降维打击
韬定律简直是华子划时代的原创成果，只能用恐怖来形容，目前已经量产381款芯片，今年秋天麒麟芯片正式商用，实现理论到商用的闭环验证了，工程真正落地了，官方给的2031年的1.4nm可是全面反超euv摩尔路径的时间表，估计2028年就可能局部反超了…

wuuuuuud · 发表于 2026-5-25 12:07

这啥？莫非7nm+7nm=3.5nm的段子成真了

—— 来自鹅球 v3.3.96-alpha

tillnight · 发表于 2026-5-25 12:10

百特曼发表于 2026-5-25 12:03
这是真的换道超车了，摩尔定律是几何微缩，韬定律是时间微缩，所以韬定律是没有传统意义上的nm极限的，摩尔 ...

1.4nm可不是反超，台积电今年公布的roadmap是2030到1nm。2031到1.4只是没有被扩大差距但也没追近。不过这个预告2030到2031的第二次大跃进暗示的东西很明确，再后面可能就要逐步追平了。

fanny · 发表于 2026-5-25 12:11

我看到别人发的。然后用DS翻译的不确保准确性和专业性
多层电子系统的时间缩放理论
何庭波
华为

摘要
过去六十年中，摩尔定律的几何缩放驱动了半导体行业的进步。然而，这一行业规则已不再成立：单纯靠缩小尺寸带来的收益已经趋于平缓，领先节点的设计预算已超过每颗芯片十亿美元，而最先进节点上的每晶体管成本也不再下降。本文提出了一种新的缩放原则——τ缩放——它采用时间本身（而非晶体管面积）作为进步的主要度量指标，并将一个统一的特征时间常数τ作为从开关晶体管到数据中心工作负载、跨越十二个数量级的共同优化目标。文中展示了两个生产级验证案例。在移动SoC上，LogicFolding（一种将数字、模拟和存储电路分布在垂直堆叠的有源层中的方法）在固定器件节点上实现了55%的晶体管密度阶跃提升和41%的能效增益。在AI系统方面，通过共同设计的栈——包括内存语义的统一总线（Unified Bus）架构、近封装的光学I/O Hi-ONE以及边缘到表面的3D Folding——预计到2035年硬件集成度将增长超过100倍。更深层的结论是方法论的：τ缩放是自Dennard缩放以来第一个为整个计算栈建立统一优化目标的缩放原则。

导语
自20世纪60年代中期以来，半导体行业一直以纳米为单位衡量进步。每十八个月，晶体管缩小，频率上升，每逻辑门的成本下降。摩尔定律……

1. 几何时代的终结
在其历史的大部分时间里，半导体行业只有一项任务：让晶体管变得更小。戈登·摩尔1965年的观察——晶体管密度大约每两年翻一番——在十年后得到了罗伯特·登纳德缩放理论的补充，该理论指出，按比例缩小电压和尺寸可以维持恒定的电场。几何缩放与登纳德缩放共同作用，在近五十年里带来了每瓦性能与每美元性能的指数级提升。

这种安排在两个阶段中瓦解。大约在2005年，登纳德缩放首先失效：电压不再随特征尺寸按比例缩小，暗硅时代开始了。几何缩放持续得更久一些，由FinFET及随后的全环绕栅极（GAA）器件架构支撑。然而，在7nm之后，纯尺寸缩放的收益已经趋于平缓。其原因已有充分记载：速度饱和使本征延迟对沟道长度的依赖从二次降为线性；局部互连的寄生电阻和电容在标准单元延时预算中占据主导地位；掩模成本、EUV折旧和设计规则复杂性导致领先节点（2nm）的芯片设计预算超过每颗芯片十亿美元。

经济后果同样不可避免。先进节点的每晶体管成本已趋于平缓，而在最前沿，成本甚至开始上升。支撑了过去五十年的行业规则——每一代用更低的成本获得更多的晶体管——已不再成立。

对于华为半导体而言，这一转变伴随着一个额外的约束：对最先进光刻设备的获取受限。寄希望于下一个节点来解决问题已不再可行。六年前，几何路线图趋于平缓，迫使我们面对一个更根本的问题——回过头来看，整个行业最终都将不得不面对这个问题。

2. 时间，而非空间：摩尔时代的真正通货
归结到对最终用户的实际影响，摩尔定律从根本上说从来不是关于几何的。更小的晶体管之所以提升系统性能，是因为它们开关更快。更密集的互连提升性能，是因为信号传输距离更短。更高的集成度提升性能，是因为数据跨越的边界更少。每一代产品所交付的核心本质上是时间的缩短——在器件层面从皮秒到纳秒，在芯片层面从纳秒到微秒，在系统层面从微秒到秒。空间缩放仅仅是压缩时间的一种手段。

一旦认识到这一点，一个显而易见的重构便呈现出来：时间本身应被作为主要度量指标。可以在栈的每一层——晶体管、电路、芯片和系统——定义一个特征时间常数τ，并将其缩减作为统一的优化目标。几何缩放因此成为减少τ的众多技术之一，而非唯一技术。

这一原则被称为τ缩放，本文提出将其作为几何摩尔缩放之后的半导体演进指导原则。形式上，τ被视为一个分层构造，可分解为：

τ = f(τ_transistor, τ_circuit, τ_chip, τ_system)

其中τ_transistor、τ_circuit、τ_chip、τ_system分别代表晶体管、电路、芯片和系统层的时间常数。每一层的τ由下层τ以及该层引入的组织和通信开销共同构成。τ的工作空间大约跨越十二个时间量级（皮秒到秒）和相似的空间量级（纳米到千米）。在每一层，都有不同的机制可用于减少τ：

晶体管：本征开关延迟，通过迁移率增强、应变工程、高k金属栅极和GAA架构来解决，并且越来越多地通过减少局部互连的寄生R和C来解决——这些寄生参数现在已超过本征传输时间的数倍。

电路：沿信号路径的RC传播延迟，通过更低电阻率的导体、低k电介质，以及最关键的——通过垂直集成减少线长来解决。

芯片：计算和存储访问延迟，通过架构选择、流水线深度、存储层次和片上互连结构来解决。

系统：端到端的消息和同步时间，通过互连拓扑、协议栈和结构设计来解决。

τ_{n+1} = τ_n / α

其中缩放因子α是特定于应用而非普适的。迄今的生产经验表明：对功耗受限的移动设备，α≈每年1.3倍；对安全关键型自主系统，α≈每年1.5倍；对AI工作负载，α可高达每年10倍，在此吞吐量直接转化为经济价值。

使τ成为一个有用的主要度量指标（而非对现有指标的重新标记）的原因在于，它在整个栈中是同一个度量标准。频率、延迟、带宽和吞吐量都在其各自层面受τ支配。工艺技术专家、电路设计人员和系统架构师可以用相同的单位来讨论同一个量。τ是支持端到端栈协同优化的语言——而各层独立优化、时序仅作为残余结果的时代已经结束。

3. LogicFolding：移动SoC的验证点
τ缩放的第一个生产级测试是在移动领域进行的。智能手机SoC是一种特殊情况：单颗芯片即构成整个系统。多路并行不可用；没有千节点互连可以掩盖慢速链路。传递给用户的所有性能都源自一颗芯片，在几瓦的功耗预算和手持形态的热限制下运行。

2020年后，当对领先节点的获取受限时，面临的关键问题是：在节点固定的情况下，如何在一颗芯片上实现代际改进？

得到的答案被称为LogicFolding。

定义。LogicFolding是一种设计方法，它将数字、模拟和存储电路分布在垂直堆叠的有源层中，遵循时间缩放原则，协同优化性能、功耗和面积。

数字电路分为组合逻辑（寄存器之间的布尔网络）和时序逻辑（保存状态的触发器）。数字系统的性能上限由相邻触发器级之间的关键路径延迟决定，而该延迟又主要受互连RC和该路径上的门数影响。传统优化将门排列在一个平面内，并通过上方的金属堆栈布线；线越长，寄生RC越大，关键路径越慢。

LogicFolding放弃了平面假设。关键路径上的门分布在两个（并最终更多）垂直堆叠的有源层中，通过超细间距混合键合连接。从电路设计者的角度看，这两个层表现为一个连续的整体，单元跨晶圆边界分布，仿佛晶圆边界只是一层额外的金属层。信号线大幅缩短，寄生RC急剧下降，时钟偏移收紧，芯片在相同的器件节点上以更高的时钟频率运行。

为了帮助LogicFolding实现这些增益，保持混合键合间距与顶层金属间距之间的齿轮比较低是有利的——实践中大致低于3，且更低的比值通常更好。以当前顶层金属间距约720nm来看，这对应于混合键合间距低于2μm——理想情况下齿轮比约为1，此时键合界面处的鸟笼布线开销基本消失。实现这一间距，以及所需的对准精度（<0.5μm）、TSV缩放（CD和KOZ小于1.5μm，间距小于6μm）和良率（通过智能冗余实现~100%），需要在供应商和合作伙伴生态系统中进行多年的工艺开发。

在Kirin 2026上测得的成果是具体的：

晶体管密度在一代之内从155 MT/mm²阶跃提升至238 MT/mm²（晶体管密度按公式2/(CPP + 单元高度)计算；Kirin SoC设计的面积利用率为68%）——这一改进幅度以往需要三年的几何缩放。

SoC性能核心的能效提高了41%，最高时钟频率提升了近13%。

一条横跨上下两层的高速全局片上网络数据通路将数据通路面积减少了55%，同时改善了电源输送稳定性。一种硅后时钟偏移调整方案独立贡献了超过5%的SoC性能。在SRAM上——其访问速度、每比特能量和面积强烈依赖于位线和字线长度——LogicFolding缩短了关键路径，降低了每比特能量，并将工作频率提高了超过40%。在一个代表性处理核心上，双层折叠架构将时钟缓冲器数量减少了50%以上，时钟偏移减少了25%，线长减少了约30%。这些增益是在固定器件节点上实现的，并非通过新的光刻步骤，而是通过在三维空间中对逻辑空间分布进行拓扑重组。

Kirin 2026中交付的LogicFolding实现是刻意保守的。混合键合间距达到了1.5μm；TSV landing仅从顶层金属向下推进了一步；折叠仅沿关键路径选择性应用，而非覆盖整个设计。即便如此，今年CPU性能核心频率已回到3.1 GHz。未来十年，LogicFolding预计将从局部关键路径折叠演变为全面的多层折叠——每个封装内有三层、四层甚至更多有源层——这得益于更低温度的混合键合（放宽了层间的热预算）以及TSV landing从顶层金属下移到M6，从而释放了超过30%的高层布线资源。从2026年到2035年，晶体管密度预计将向400 MT/mm²及以上迈进。同时，LogicFolding使Kirin能够大幅提升CPU核心频率，并为迈向4 GHz及以上铺平了道路（表1）。该路线图是可行的，并且在成本上是经济可行的。

表1. Kirin CPU性能核心工作频率趋势

年份芯片技术频率(GHz) 状态
2023 Kirin 9000s 平面 2.6 量产
2024 Kirin 9020 平面 2.65 量产
2025 Kirin 9030 Pro 平面 2.75 量产
2026 Kirin 2026 LogicFolding 3.1 硅片
2027 Kirin 2027 LogicFolding 3.39 硅片
2028 Kirin 2028 LogicFolding 3.71 预硅
2029 Kirin 2029 LogicFolding 4 预硅
侧边栏 A — LogicFolding 概览
混合键合间距：低于2μm（Kirin 2026为1.5μm；目标齿轮比≈1）

对准精度：低于0.5μm

TSV CD/KOZ：低于1.5μm；间距低于6μm；失效率<100 ppm；修复率99.9%

良率：通过智能冗余接近100%

晶体管密度：单步从155提升至238 MT/mm²

能效/频率增益（SoC P核）：+41% / +13%

SRAM工作频率：+40%以上

代表性核心上的时钟缓冲器数量/时钟偏移/线长：-50% / -25% / -30%

4. 从皮秒到微秒：AI数据中心中的τ缩放
一个自然的问题是：在毫瓦级智能手机领域发展出的原则，能否在吉瓦级AI训练和推理领域得以延续？AI工作负载处于τ谱系的另一端：不是单颗芯片，而是成百上千颗芯片共同构成一台机器，其总算力在过去十年中增长了约六个数量级。答案是肯定的——前提是将τ作为系统级目标，并应用于整个链条，而非局限于单个加速器内。

两个事实塑造了AI侧τ论证。第一，AI系统持续增长——从一颗芯片到数十颗，再到数百颗，并越来越多地达到数万颗。第二，现代AI系统的能量预算和物料预算由数据主导，而非由计算主导。在大型AI集群中，超过80%的能量消耗在数据搬移上；超过70%的系统成本分配给了数据存储。其直接含义是：减少数据在传输中花费的时间——在芯片之间、机架之间以及封装内部——至少与减少计算所花费的时间同等重要。

τ缩放在AI规模上通过三个协同层实现：系统互连结构（统一总线）、近封装光引擎（Hi-ONE）以及封装本身的拓扑重组（3D Folding）。

4.1 统一总线 —— 一种τ优先的系统互连结构
传统的多节点、多加速器架构通过多个堆叠的协议移动数据：到主机的PCIe，机箱内的NVLink或专有互连，机箱间的以太网或InfiniBand，以及顶层的软件栈远程内存访问。每一层都带来协议转换、额外的串行化、一个额外的DMA缓冲区和一次额外的握手。每次转换都会增加延迟、降低可靠性并增加额外成本。

统一总线（UB）用一个单一的协议取代了这一堆栈，该协议在机箱内部和机箱之间均可运行——一个完全点对点的互连结构，在整个系统中原生暴露内存语义。数据搬移被简化为内存语义层上的无转换、点对点传输，并采用硬件管理的缓存一致性替代软件栈的消息传递。

实测收益约为两个数量级：端到端远程访问延迟从TCP/IP类堆栈常见的几十微秒下降到约100纳秒——系统τ在主要通信轴向上减少了约500倍。在机架规模上，这使得系统渐近地接近一台单一的、结构一致性的机器——内部称为“系统即单芯片”（System-as-One-Chip）。

4.2 Hi-ONE —— 封装级的光学I/O
一旦通信延迟降低，下一个瓶颈便浮现出来。在单个机架内增加芯片密度会推动功率密度和可靠性越过其极限——同时也会使电SerDes越过其极限。在每颗AI芯片400 Gb/s的速率下，铜缆仍然是成熟可靠的。但在每颗芯片多Tb/s的速率下，铜缆在物理上变得不切实际：SerDes传输距离收缩，线缆变得过于笨重，面板安装变得不可行，热和电源输送余量被耗尽。

华为半导体开发的方法是高密度光互连节点引擎Hi-ONE——一种近封装光引擎，每个模块提供8 Tb/s的带宽，与一颗AI芯片的UB带宽在单条光链路上匹配。它将所需的SerDes传输距离从约100厘米缩短到约5厘米，消除了笨重的线缆，并将传输距离从不足1米扩展到100米，使分布式、吉瓦级数据中心的高密度互连在物理上成为现实。

Hi-ONE的设计理念本身就是一个τ缩放的论证。Hi-ONE没有采用用于高信号保真度的重型DSP，而是采用线性方法——一个模拟均衡增强型驱动器和跨阻放大器——并允许UB协议容忍故意放松的误码率。这种协议层与物理层之间的跨层权衡降低了功耗、成本和集成复杂度，是τ优先方法论所奖励的跨层交换的典范。

4.3 N²与N的困境，以及3D Folding为何不可避免
AI加速器不会止步于2.5D扇出的最深层次原因是几何的，这一点值得明确表述，因为它决定了2030年后的路线图。

在传统的2.5D AI芯片中，逻辑芯片位于封装中心，HBM堆栈和SerDes排列在其边缘，电压调节器围绕封装外围。每个存储信号、每个互连信号以及每个安培的供电电流都必须经过芯片的边缘才能到达内部的计算资源。如果芯片的边长为N，那么：

计算能力随N²（面积）增长，但存储带宽、互连和电源输送——所有这些都由2.5D扇出沿边缘承载——仅随N（周长）增长。

这些二次曲线和线性曲线之间不断扩大的差距构成了“扇出困境”，它解释了2.5D缩放为何停滞不前，无论底层逻辑节点变得多么激进。没有任何晶体管级的改进能够弥补拓扑上的缺陷。

3D Folding通过将原本受限于边缘的资源重新定位到表面上，解决了这一困境。电源输送（通过背面供电和集成电压调节器）、高速存储（通过与逻辑芯片的混合键合）和光学I/O（通过近封装Hi-ONE）都从周长迁移到垂直表面——并且一旦位于表面上，它们便随N²缩放，与计算的二次增长速度相匹配。封装不再是一个被存储和SerDes腰带包围的逻辑芯片；它成为一个垂直集成的堆栈，其中存储、互连结构、电源和逻辑都共同缩放。

该路线图将这一演进放在了一个明确的时间表上。大约到2030年，AI加速器（Ascend SuperPoD系列——2025年的Ascend 910C、2026年的Ascend 950以及后续的990）依赖于成熟技术的组合：芯粒、2.5D扇出以及通过微凸点和标准间距混合键合实现的3D堆叠。大约在2030年，Ascend 990将把LogicFolding引入AI加速器类别，从那时起，3D Folding将成为α的主要载体，直至2035年。沿着这条路径，到2035年，硬件集成度预计将增长超过100倍，τ的减少分布在栈的每一层，而非集中在器件级别。

侧边栏 B — AI系统规模下的τ
UB远程访问延迟：几十微秒 → 约100纳秒（约500倍τ减少）

Hi-ONE每模块带宽：8 Tb/s（与单芯片UB带宽匹配）

Hi-ONE SerDes传输距离：约100厘米 → 约5厘米；面板到面板距离：<1米 → 100米

扇出困境：计算 ∝ N²，受限于周长的带宽/I/O/电源 ∝ N

3D Folding：将带宽、光学I/O和电源输送从边缘重新定位到表面，恢复N²的匹配

2026→2035 预计硬件集成度增长：超过100倍

5. 逻辑与存储：从解耦到再融合
τ缩放的一个含义值得单独讨论，因为其后果不仅是技术上的，也是产业上的。

在8086时代，行业有意通过标准存储总线将处理器和存储解耦。这种解耦允许两个产业独立缩放：处理器性能沿着摩尔曲线快速进步，而存储供应商在其旁发展出一个庞大的独立市场。

AI时代正在逆转这种解耦。计算密度的持续扩张正将存储带宽、延迟、功耗和封装推向极限。HBM、混合键合和3D堆叠SRAM都是同一个基本事实的症状：对于现代AI工作负载，数据搬移与计算本身同样关键，逻辑和存储正再次被推向紧密的物理集成。随着它们融合，供应链中的影响力平衡正在向存储和封装供应商转移。

技术方向是明确的，但经济上的解决方案尚未确定。在AI硬件时代，持久的成功将属于那些能够在技术上融合逻辑与存储，并建立一种让两个产业都能长期分享融合收益的经济伙伴关系的企业。这不仅仅是一个研究问题；它是行业在未来十年需要解决的一个结构性问题。通过使每一次分离的跨层成本变得可见，τ缩放确保这个问题无法再被推迟。

6. 开放挑战
将τ缩放描述为一个已完成的系统将是一种误导。仍有几个实质性问题悬而未决，在此指出，既是为了突出正在进行的工作，也是为了邀请合作。

工具链和方法论。今天的EDA是为一个将面积、时序和功耗沿着三个独立轴进行优化、系统τ仅作为残余结果的时代而开发的。全面的LogicFolding要求工具链将多个堆叠芯片视为一个单一连续的设计实体——以单元粒度（而非模块粒度）进行逻辑分区，在整个三维体积内依据统一成本函数进行布局，并在垂直互连寄生参数、KOZ排除区域和晶圆间工艺变化以传统2D训练工具无法充分处理的方式相互作用的跨芯片路径上完成时序收敛。内部已有初步工具产生了有用的结果，方法论细节将在未来几个月内公布。一个τ原生的工具链——开放的、多物理场的、3D原生的——是未来十年最重要的赋能投资。

晶圆间工艺变化。LogicFolding键合可能来自不同批次——有时甚至是不同节点——的晶圆。晶圆间在Vth、驱动电流和互连RC上的变化远大于晶圆内的变化，并且对时钟分布和保持时间余量影响最大。智能冗余、自适应补偿和τ感知的签核流程是应对措施的必要组成部分。

垂直互连开销。每个混合键合和每个TSV都会带来有限的电阻和电容惩罚，并且TSV的KOZ会挤占标准单元的位置。因此，LogicFolding必须逐层通过简单的不等式来证明其合理性：

τ_收益（有效硅面积 + 线长减少） > τ_惩罚（垂直互连RC）

对于移动关键路径和存储，这一阈值已经被跨越；该阈值是工作负载特定的，边界将随着键合间距的缩小而移动。

能量。τ是时间律，而非焦耳律。一个运行速度快10倍但功耗也大10倍的超级节点不违反任何缩放原则，但会超出电网容量。因此，τ缩放需要一个能量伴生：消除协议栈开销的内存语义互连结构、将每比特皮焦耳数降低数个数量级的近封装/共封装光学、背面供电、存内/近存计算，以及将τ余量转换为功率（数据中心规模的DVFS——与实现智能手机电池续航的机制相同）的严格实践。重要的是，τ余量本身在向该方向分配时提供了能量余量。

基准测试。行业当前的性能基准——Linpack、MLPerf、SPEC——是为每个工作负载单个标量就足够的时代设计的。一个τ缩放的行业需要τ剖面基准——向量，它们暴露系统每一层的主要τ以及该层剩余的余量。占主导地位的τ层，按照定义，就是下一个投资方向。

7. 六年回顾，十年展望
在2020年5月至2026年5月期间，华为半导体设计并量产了381颗芯片，服务于移动、AI、汽车、工业和基础设施市场。在整个产品组合中，τ缩放的论点一直成立：

在器件和电路层面，晶体管密度已从155 MT/mm²向2031年的400+ MT/mm²迈进。

在芯片层面，LogicFolding已在领先的移动SoC上证明，关键路径频率、能效和密度可以在固定器件节点上持续进步。

在系统层面，统一总线和Hi-ONE已证明，数百微秒的通信τ可以压缩到数百纳秒，并且一个多机架AI集群可以表现为一台单一的一致性机器。

展望未来，CPU性能核心频率预计在2029年前后达到4 GHz及以上，Kirin SoC的能效预计在典型使用场景下三到五年内翻倍以上，AI硬件集成度预计到2035年增长超过100倍。

更深层的论断，超越任何单个产品，是方法论的。τ缩放是自Dennard缩放以来第一个为整个栈提供统一优化目标的缩放原则。它向工艺技术专家、电路设计人员、架构师、系统工程师和软件团队表明，这些社群现在正在用相同的单位优化同一个量，并且任何单一层面的改进都必须传播到系统τ才能算数。它也向行业战略家和资本配置者表明，下一个美元应该跟随τ，而不是节点——竞争性性能不再需要永久停留在光刻的最前沿，而封装、存储带宽和互连结构设计现在拥有了此前仅由领先逻辑节点占据的战略权重。

对于一代接受“摩尔定律”即“进步”同义词教育的工程师来说，这是一个艰难的转变。几何时代事实上已经结束；否认这一事实不是一个可行的策略。通过微缩实现加速的时代正在让位于通过跨多层电子系统的τ优化实现加速的时代——而在未来六到十年内将τ作为首要目标的公司、研究团体和生态系统，将决定此后十年的计算形态。

未来十年的工作范围已定。许多开放问题依然存在，没有哪个组织能够独自解决所有问题——工具链、标准、基准测试、器件物理和经济模型都需要来自任何单一公司之外的贡献。因此，本文既是一份来自一线的报告，也是一份邀请。

前方的路线图要求严苛，但方向是明确的。

作者
何庭波领导华为的半导体业务。她所领导的团队在2020年至2026年间设计并量产了381颗芯片，覆盖移动、AI、汽车和基础设施市场，并且是本文所述的τ缩放方法论以及LogicFolding、统一总线和Hi-ONE技术的源头。

致谢
本文凝聚了华为半导体及其代工厂、设备、EDA和系统合作伙伴生态系统中数千名工程师六年的工作。作者感谢那些以耐心使这项工作成为可能的客户。

参考文献
G. E. Moore, "Cramming more components onto integrated circuits," Electronics, vol. 38, no. 8, pp. 114-117, Apr. 1965 (reprinted in Proc. IEEE, vol. 86, no. 1, Jan. 1998).

R. H. Dennard et al., "Design of ion-implanted MOSFETs with very small physical dimensions," IEEE J. Solid-State Circuits, vol. 9, no. 5, pp. 256-268, 1974.

J. L. Hennessy and D. A. Patterson, "A new golden age for computer architecture," Commun. ACM, vol. 62, no. 2, pp. 48-60, Feb. 2019.

M. Horowitz, "Computing's energy problem (and what we can do about it)," ISSCC Dig. Tech. Papers, pp. 10-14, Feb. 2014.

International Roadmap for Devices and Systems (IRDS) — Interconnect and More-than-Moore chapters, 2023/2024 update.

P. Batude et al., "3D sequential integration: a key enabling technology for heterogeneous co-integration of new functions with CMOS," IEEE J. Electron Devices Soc., vol. 3, no. 3, pp. 205-216, 2015.

人形玩偶 · 发表于 2026-5-25 12:13

hairen · 发表于 2026-5-25 12:15

降低通信延迟应该更利好AI一点

—— 来自鹅球 v3.5.99

sellboy · 发表于 2026-5-25 12:18

其中最劲爆的是

里的30% Cost Reduction呀

要知道14nm后，半导体工艺只有密度提升没有成本降低了。

GMJ · 发表于 2026-5-25 12:18

tillnight 发表于 2026-5-25 10:36
我觉得怎么实现对普通人不重要，华为官方明确表态今年芯片性能越升就已经说明了问题。第一是能吹芯片性能了 ...

测试我感觉都说早了，现在怕不是在做产能爬升，开始量产备货了

zknym · 发表于 2026-5-25 12:20

堆叠的话，散热真的压得住吗？

—— 来自 HONOR PTP-AN70, Android 16, 鹅球 v3.5.99-alpha

平贺才人 · 发表于 2026-5-25 12:22

GMJ 发表于 2026-5-25 12:18
测试我感觉都说早了，现在怕不是在做产能爬升，开始量产备货了

mate今年提档到9月了，那现在备货都备了一阵了应该

不过感觉和去年9030pro一样，应该mate90上也只有pro max这个级别能用上

GMJ · 发表于 2026-5-25 12:30

Sza 发表于 2026-5-25 11:35
这算是芯片逻辑计算部分的3D堆叠吗？堆叠+高主频，芯片积热靠内部铜线导出？

另外2030～2031的密度跃 ...

看上去账面性能可以把酷睿12代的**干穿？

百特曼 · 发表于 2026-5-25 12:32

tillnight 发表于 2026-5-25 12:10
1.4nm可不是反超，台积电今年公布的roadmap是2030到1nm。2031到1.4只是没有被扩大差距但也没追近。不过这 ...

台积电的技术方案已经碰到硅基物理的死亡天花板了，虽然理论密度更高，但是量子隧穿反而导致实际效能下降，而且台积电的升级路线面临很大变数，成功率可能不到5成，哪怕落地了也会直接被1.4nm的duv韬定律路径在成本、产能、良率、效能的全方位压制，可能也就只在极致的峰值性能上有一点点优势，真的就那么一点点

sellboy · 发表于 2026-5-25 12:35

百特曼发表于 2026-5-25 12:32
台积电的技术方案已经碰到硅基物理的死亡天花板了，虽然理论密度更高，但是量子隧穿反而导致实际效能下降 ...

不冲突的，EUV也可以堆叠，堆叠也可以EUV。
因为具体条件不同，先行的方向先后有别，但殊途同归。

StrangerJ · 发表于 2026-5-25 12:37

有点好奇逻辑堆逻辑的话散热怎么解决，之前都是存储堆在逻辑芯片上吧，要是能做出来确实是一大突破

—— 来自 OPPO PKU110, Android 16, 鹅球 v3.5.99

帕林马哲理 · 发表于 2026-5-25 12:49

https://www.zhihu.com/question/2042180586194948787/answer/2042207737661183535

这里有润色版本的演讲稿，讲的真的很细致，我这种纯外行也能看明白一点是怎么做到的。

螺纹 · 发表于 2026-5-25 12:50

mate80pm买错了

—— 来自 HUAWEI SGT-AL10, Android 12, 鹅球 v3.5.99

coldhot3 · 发表于 2026-5-25 12:52

sellboy 发表于 2026-5-25 12:35
不冲突的，EUV也可以堆叠，堆叠也可以EUV。
因为具体条件不同，先行的方向先后有别，但殊途同归。 ...

感觉现在比得是大陆人先干出euv还是te人先干出堆叠设计工具和配套工艺了。

Sza · 发表于 2026-5-25 12:54

fanny 发表于 2026-5-25 12:11
我看到别人发的。然后用DS翻译的不确保准确性和专业性
多层电子系统的时间缩放理论
何庭波

请问有文章出处吗？

百特曼 · 发表于 2026-5-25 12:55

sellboy 发表于 2026-5-25 12:35
不冲突的，EUV也可以堆叠，堆叠也可以EUV。
因为具体条件不同，先行的方向先后有别，但殊途同归。 ...

台积电不可能跑去韬定律赛道的，EUV已经把线宽做到纳米级，再做逻辑折叠，信号路径缩短的边际收益急剧下降，远不如在成熟DUV上的效果显著，那台积电会放弃euv重回duv吗那相当于自废这么多年的先进制程技术积累的武功，也不可能，所以台积电就是两头堵，真没办法，这也是为什么这次的新路径意义重大的原因

Sza · 发表于 2026-5-25 12:58

GMJ 发表于 2026-5-25 12:30
看上去账面性能可以把酷睿12代的**干穿？

这个问题可以参考3nm工艺的苹果A17Pro和A18系列芯片的性能，不过麒麟同代的大核应该比A系列弱一点

泪指环 · 发表于 2026-5-25 13:03

会有散热问题吗?

fanny · 发表于 2026-5-25 13:04

Sza 发表于 2026-5-25 12:54
请问有文章出处吗？

https://chinaxiv.org/abs/202605.00224

ww279620040 · 发表于 2026-5-25 13:11

帕林马哲理发表于 2026-5-25 12:49
https://www.zhihu.com/question/2042180586194948787/answer/2042207737661183535

这里有润色版本的演讲 ...

粗略看了一下，是整个系统所有环节延迟时间同步优化的意思么？

coldhot3 · 发表于 2026-5-25 13:19

ww279620040 发表于 2026-5-25 13:11
粗略看了一下，是整个系统所有环节延迟时间同步优化的意思么？

问题是除了华为，还有哪个公司能从操作系统到芯片工艺垂直整合。
苹果没工艺。

marko556 · 发表于 2026-5-25 13:20

应该前几天准备发了，就看懂子来会不会说话，要是像之前撂狠话直接发布打脸

帕林马哲理 · 发表于 2026-5-25 13:21

ww279620040 发表于 2026-5-25 06:11
粗略看了一下，是整个系统所有环节延迟时间同步优化的意思么？

俺是这样理解的：
传统芯片还处在古代城市的阶段，功能区全部是摊大饼，中间通过简单道路相连。韬理论是要在城市建设前就设计好各功能区的最短路径，修成一整座摩天大楼。
本质上这是系统科学在设计芯片领域的一次应用，不得不感谢钱老了。

KDConan · 发表于 2026-5-25 13:23

我承认自己是基本没看懂，从平面传输增加几条立体传输通道？对齐颗粒度？

—— 来自 Xiaomi 23013RK75C, Android 15, 鹅球 v3.5.99

orangee · 发表于 2026-5-25 13:25

看了以后的感觉，这以后个人用电脑会不会完全和ai服务器变成两个物种了，比现在的游戏显卡和计算卡的差距还大

—— 来自鹅球 v3.3.96

Dementia · 发表于 2026-5-25 13:27

原来是韬啊，我还以为是Tau星系的Sentient呢

ch23 · 发表于 2026-5-25 13:27

ww279620040 发表于 2026-5-25 13:11
粗略看了一下，是整个系统所有环节延迟时间同步优化的意思么？

感觉堆叠就是类似每一层有一部分模块，类似上下楼层连接起来，每一层都不是完整的逻辑电路，通过上下来缩短同一面积下的长度

大暴死 · 发表于 2026-5-25 13:30

coldhot3 发表于 2026-5-25 13:19
问题是除了华为，还有哪个公司能从操作系统到芯片工艺垂直整合。
苹果没工艺。 ...

曾经的三丧

—— 来自 Xiaomi 25019PNF3C, Android 16, 鹅球 v3.5.99

		自动登录	找回密码
密码			立即注册

[科技] 韬（τ）定律？万物皆可叠？

评分

评分