
今天分享的是:2025年扁平化智算网络架构研究报告嘉理证券
报告共计:48页
智算网络迎来扁平化革命:十万卡集群成本难题有了新解法
在大模型算力需求呈指数级增长的当下,智算网络正经历一场关键变革。开放数据中心委员会(ODCC)最新发布的《扁平化智算网络架构研究报告》显示,随着大模型参数规模突破万亿、训练集群XPU(AI加速器)数量从千卡级跃升至二十万卡级,传统网络架构已难以平衡规模、成本与性能,而“扁平化”成为破局的核心方向,将深刻影响未来智算基础设施的发展格局。
大模型的“双向扩张”正持续重构智算网络需求。一方面,遵循“扩展定律”,模型参数与训练数据量的增长推动集群规模不断扩大,形成大规模Scale-out(SO)网络需求——五年间前沿大模型算力需求年均增长5倍,而单XPU算力仅增长1.35倍,供需差催生了从万卡到十万卡级集群的跃迁。另一方面,模型稀疏化趋势显著,Google Gemini 2.5、Kimi K2等模型专家数大幅增加,例如Kimi K2专家数达384,这类模型需要更大规模局部高带宽互连,驱动Scale-up(SU)网络持续扩容,当前业界已将1024卡低成本互连作为短期核心目标。
展开剩余85%智算集群的网络需求并非单一维度,而是由三类功能各异的网络协同支撑。前端(VPC)网络作为数据中心主干,承担大规模数据进出任务,延迟容忍度较高(>100μs),需支持数百租户;SO网络专注于多XPU服务器间协作,以10μs级低延迟、800Gb/s高带宽为核心,支撑分布式训练与推理的“东西向”流量;SU网络则聚焦XPU间超高速互连,追求μs级极致延迟与多链路设计,旨在突破“内存墙”,形成虚拟大XPU。其中,SO与SU网络的成本与规模矛盾最为突出,成为扁平化优化的重点领域。
传统组网架构的瓶颈已日益凸显。在SO网络领域,当前主流的胖树拓扑虽能通过叠加层级扩展规模,但成本随层级呈线性增长——每增加一层,需额外部署n个交换机端口与2n个光模块,十万卡级集群若采用传统三层胖树,成本将难以承受。Meta与阿里的实践代表了两种典型路径:Meta采用“框式交换机+电互连”,通过7:1收敛比控制成本,依托DAC电缆高可靠性(FIT值仅为光模块的1/100)提升稳定性;阿里则以“盒式交换机+双平面光互连”实现无收敛设计,适配多任务场景,但光互连的可靠性与长距离部署成本仍存挑战。此外,多轨组网虽能优化稠密模型通信,但在稀疏模型占主导的当下,其“故障影响范围大”“对Any2Any流量无收益”的缺点逐渐暴露,单轨组网因适配稀疏模型流量特征,预计将成为未来主流。
SU网络的传统方案同样面临成本困境。英伟达NVL72超节点通过1层胖树实现72个GPU互联,但若扩展至576卡的NVL576,需采用两层Clos拓扑,仅光互联额外成本就超560万美元,每GPU分摊成本达9700美元。谷歌TPU集群采用Torus拓扑降低成本,TPUv4训练成本较英伟达方案低40%,但该拓扑对稀疏模型关键的All-to-All通信支持不足,带宽利用率仅为8/k(k为每维节点数),规模扩大后性能下降明显。
“扁平化”通过重构拓扑与技术协同,为SO与SU网络提供了低成本扩容路径。对于SO网络,多平面胖树拓扑成为当前核心探索方向——利用交换机端口拆分技术,将51.2T交换机的扇出数从128(400G端口)提升至512(100G端口)嘉理证券,再通过四平面设计满足400G接入带宽需求,可实现两层十万卡(128K)集群组网,较传统三层胖树成本降低40%以上。该方案需突破三大关键技术:支持X1模式MAC以实现最小端口速率、通过“多芯片盒子”简化光纤布线、端网协同实现多平面负载均衡与故障隔离——例如采用逐包负载均衡,可让单条流同时利用多平面带宽,避免性能折损。
SU网络的扁平化则聚焦“单级全光互联”。ODCC启动的ETH-X Ultra项目提出全新架构:计算节点不再保留本地交换机,GPU通过光拉远连接至外部单级交换机,实现256-512卡超节点。相比传统多级电互联,该方案将每GPU网络成本增幅控制在较低水平,同时实现计算与网络解耦——标准服务器只需新增互连端口,即可通过组网灵活形成不同规模超节点。不过,其落地需解决光互连可靠性(需端网协同提升系统级稳定性)、端侧X1模式MAC支持(最大化单层组网规模),以及光模块功耗与时延优化(当前插拔光模块时延110ns,采用NPO技术可降至20ns)三大难题。
展望未来,智算网络将向“更优拓扑”与“多网融合”两大方向演进。在拓扑创新上,Balanced Sparse Tree(BST)与Slim Fly展现出巨大潜力:BST通过稀疏互联设计,在两层架构下即可实现50K节点规模,是传统两层胖树的6倍;Slim Fly基于图论优化,在同等性能下成本较Clos拓扑降低35%以上,且支持任意流量“可重排无阻塞”,虽存在布线复杂问题,但已在实测中展现出与Clos拓扑互有胜负的性能表现。而长期来看,多网融合将是降低总拥有成本(TCO)的关键——当前SO、SU与VPC网络分别承载RDMA、LD/ST与TCP流量,需求差异显著,未来若能实现协议与物理层面的合一,将进一步简化架构,但需突破多业务性能隔离难题,这也将成为业界长期攻坚的方向。
从技术落地来看,扁平化架构的实现并非单一企业可独立完成,而是需要芯片商、设备商与用户的深度协同。无论是端侧网卡与IO Die的高扇出能力突破,还是网侧交换机的低功耗光电互连技术,亦或是端网协同的负载均衡算法,都需产业链形成联合攻坚生态。随着这些技术的逐步成熟,智算网络将真正迈入“大规模、低成本、高性能”的新阶段,为通用人工智能的产业化应用提供坚实的基础设施支撑。
以下为报告节选内容
报告共计: 48页
中小未来圈嘉理证券,你需要的资料,我这里都有!
发布于:广东省美港通证券提示:文章来自网络,不代表本站观点。