华为盘古大模型5.5问世,推理与智能体能力大爆发
发布背景与模型特色
在2025年6月20日的华为开发者大会2025(HDC2025)上,华为重磅推出了盘古大模型5.5。在国产大模型领域,华为盘古大模型一直较为独特,强调“不作诗,只做事”,深耕行业以推动产业智能化升级。此次发布的盘古大模型5.5自然语言处理(NLP)能力比肩国际一流模型,且在多模态世界模型方面做到全国首创。
NLP领域的核心组成
盘古UltraMoE
模型参数与地位:盘古UltraMoE是7180亿参数的MoE深度思考模型,属于准万亿参数级别的大模型,基于升腾全栈软硬件协同打造,达到国内领先、比肩世界一流水平。
技术创新:针对训练超大规模和极高稀疏性的MoE模型稳定性难题,华为盘古团队进行了创新性设计。提出了Depth - ScaledSandwich - Norm(DSSN)稳定架构和TinyInit小初始化的方法,实现了在升腾NPU上10 + Ttoken数据的长期稳定训练。还提出了EPgrouploss负载优化方法,保证专家间负载均衡,提升专家领域特化能力。同时使用了业界先进的MLA和MTP架构,训练时采用Dropless训练策略。
核心能力与表现:该模型具备高效长序列、高效思考、DeepDiver、低幻觉等核心能力,在知识推理、自然科学、数学等领域的大模型榜单上位列前沿。
盘古ProMoE
模型参数与打榜成绩:盘古ProMoE是一个72B A16B的模型,每次工作时激活160亿参数。在五月底SuperCLUE榜单上,在千亿参数量以内的模型中排行并列国内第一,智能体任务打榜成绩比肩6710亿参数的DeepSeek - R1,在文本理解和创作领域达到开源模型的第一名。
技术创新与性能提升:针对不同芯片上专家负载不均衡问题,提出分组混合专家MoGE算法,实现跨芯片计算的负载均衡,显著提升盘古训推系统的吞吐效率。可在300I Duo上实现每秒321token的吞吐量,在800I A2上吞吐速度可达每秒1529token,领先同规模业界模型15%以上。
盘古Embedding
模型规模与优势:这是一个7B级小模型,但在学科知识、编码、数学和对话能力方面均优于同期同规模模型。
技术创新:后训练阶段使用渐进式SFT和多维度奖励的强化学习提高推理能力。针对长序列优化,提出AdaptiveSWA和ESA两项关键技术降低长序列场景中的计算量和KVCache,能轻松应对100万token长度的上下文。还提出知识边界判定、结构化思考验证等创新方案提升模型推理准确度。
其他重要特性
除了上述三个核心模型,盘古5.5还具备快慢思考合一的高效推理策略以及盘古深度研究产品DeepDiver,进一步增强了模型的推理和研究能力