华为应用“系统论”解决芯片问题的方式
理论启发与整体思路
华为在解决芯片问题时受到系统工程的启发,钱学森的《论系统工程》核心思想是把研究对象看做一个整体而非孤立的点,通过整体优化弥补单点落后。华为认识到算力基础设施是复杂的系统,在外部制裁围堵、单芯片落后美国一代的情况下,运用“系统论”来突破困境。
内部协同作战
华为把各个部分打通,在内部组织了算力会战,将华为云、模型、底座、芯片、硬件工程、基础软件的研发力量集结在一起,进行跨部门作战与深度协同。这样的环境和机制能产生协同效应和系统工程的整合,实现“大杂烩”技术的有效利用和协同创新。
技术补短板策略
数学补物理
华为提出“用数学补物理,非摩尔补摩尔,用群计算补单芯片”的思路。虽然单芯片还是落后美国一代,但通过数学方法对计算系统进行建模、仿真,让各部分完美配合、高效协同,在结果上达到实用状况。
系统补单点
以CloudMatrix384超节点技术为例,它从堆芯片到拼架构,以系统补单点。该技术的核心指标比肩英伟达,成为中国AI发展的坚实算力底座。其算力总规模达300Pflops,是英伟达旗舰NVL72的1.7倍;网络互联总带宽达269TB/s,比英伟达NVL72提升107%;内存总带宽达1229TB/s,比英伟达NVL72提升113%。并且它还能扩展为包含数万卡的Atlas900SuperCluster超节点集群,未来可支撑更大规模的模型演进。
提升芯片算力利用率
华为技术专家指出单芯片制程每代性能提升有限,而华为通过高效的超节点系统提升了芯片算力利用率。例如在MoE大模型训练中,华为以前MFU(模型算力利用率)是30%,业界也差不多这个水平,最新公布的数据提升到41%,实验室达到45%多,从30%提升到45%,利用率相当于提升了50%。在硬件不变的情况下,通过系统工程的优化和资源的高效调度,一定程度上弥补了芯片工艺的不足。
架构创新应对产业变革
随着大模型Scaling Law(尺度定律)的持续演进,AI行业产生巨量算力需求,传统计算集群出现瓶颈,无限制堆卡会产生“内存墙”“规模墙”和“通信墙”问题。华为重新定义架构,解决集群内部算力卡和服务器通信协调问题,避免算力闲置,适应产业发展需求