adminqwq管理员

文章48851
浏览1822827

搜索

« 2025年11月 »
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

并行优化H（MindSpeed全面支持FSDP训练后端）

adminqwq 2026-02-06 信息披露 14 次浏览 0个评论

来源：市场资讯

（来源：华为计算）

当前，超大规模模型训练中，分布式框架易用性与性能往往难以兼顾。Megatron 3D并行性能强劲，但需侵入式修改代码、调参繁琐，让开发者陷入底层工程细节，开源生态对轻量化、低适配成本的方案需求迫切。昇腾MindSpeed训练加速库全面支持FSDP训练后端，以模型无感知设计破局，无缝亲和PyTorch生态，依托FSDP、专家并行、上下文并行、显存优化等技术，兼顾低显存与高效能，灵活适配多场景，开发者专注模型创新，使能昇腾训练好用易用。

大模型分布式训练框架从“模型侵入式+精细调优”走向“模型无感+轻量化”

当前开源大模型生态以 Hugging Face Transformers 为核心，训练聚焦微调与强化学习，对框架的易用性、泛化能力与适配成本提出更高要求。Megatron 虽性能优异，但依赖复杂的 3D 并行策略，需深度侵入式改造与精细调参，显著抬高使用门槛，制约算法创新效率。相比之下，基于 ZeRO-3 的 PyTorch FSDP 以“低侵入、高兼容”脱颖而出：仅需简单封装即可启用分布式训练，自动分片参数、梯度与优化器状态，显著降低显存占用，同时保持单卡代码结构。

随着FSDP2的技术演进，FSDP已成为LlamaFactory、TorchTitan等主流项目的首选。构建轻量、灵活且兼容HF生态的FSDP训练后端，正成为提升大模型研发效率的关键路径。

Megatron 3D并行和FSDP对比

基于FSDP训练后端的MindSpeed训练加速库架构全景

MindSpeed FSDP：轻量、泛化、高性能三位一体的训练后端

MindSpeed作为昇腾训练加速库，长期以来提供类似 Megatron 的 3D 并行策略，有效支撑了客户的大模型训练业务。为进一步提升易用性与模型泛化能力，全新支持 FSDP 训练后端，以“模型无感知+轻量化”为核心设计，重塑分布式训练体验。

MindSpeed FSDP 训练后端并非开源 FSDP 的简单复刻，而是面向大模型全训练场景、深度亲和 PyTorch 生态的轻量化训练底座，凭借三大核心亮点打造差异化优势，精准平衡易用性、泛化性与高性能。

轻量无侵入：原生无缝兼容PyTorch生态，无需依赖 Megatron等重型框架，开发者无需修改模型代码、无需关注底层分布式细节，仅通过YAML配置即可启用分布式加速，大幅降低适配与调试成本；

泛化强兼容：采用高内聚低耦合架构，按维度模块化拆解各类加速能力，遵循统一 “模块获取 — 模块使能” 范式，可灵活组合调用，无缝适配大语言模型、多模态、MoE 等复杂场景，单底座覆盖预训练、微调等全训练链路；

全维度性能优化：原子化封装FSDP、EP、CP、显存优化、通信加速等能力，支持用户按需灵活组合，在易用性与极致性能间取得最佳平衡。

MindSpeed FSDP 无缝对接 Hugging Face、LLaMA-Factory 等主流开源生态，上层套件与后端能力深度融合，实现模型加载、训练到部署的全链路高效协同，助力大模型训练低门槛、高效率落地。

组合泛化的高性能加速引擎

MindSpeed FSDP构建了一套原子化、可组合的高性能加速引擎。开发者可根据模型规模、硬件资源和训练场景，灵活启用所需能力，无需耦合冗余逻辑。

（1）FSDP核心能力

作为MindSpeed FSDP后端的基础能力，其沿用PyTorch ZeRO-3核心思想，实现模型参数、梯度及优化器状态的自动分片存储。相较于传统DDP（Distributed Data Parallel，分布式数据并行），该特性无需手动配置分片逻辑，仅在计算时通过按需通信聚合参数，计算后立即释放资源，既大幅降低单卡显存占用，又能实现通信与计算掩盖，在保障性能的同时延续了后端易用性优势。

FSDP方案[1]

（2）EP专家并行优化

针对MoE模型训练的通信开销瓶颈，MindSpeed FSDP后端提供两种高效EP方案，精准解决AllToAll通信耗时过高的问题。其中EP MC2融合算子依托昇腾自研alltoallv_gmm融合算子，通过细粒度通算协同、自适应矩阵切分及均衡调度策略，打破通信与计算的耦合壁垒；Domino EP则采用批次拆分与流水并行思路，以低限制、高可操作性设计，可快速适配现有模型框架，满足不同研发场景需求。

EP MC2方案

Domino EP方案[2]

（3）CP长序列优化

长序列场景下，Attention计算显存需求随序列长度呈平方级增长，极易引发单卡显存溢出，这是大模型训练的核心瓶颈之一。MindSpeed FSDP后端针对性集成三类CP策略，无需侵入式修改模型代码，即可灵活适配不同硬件配置与序列长度需求，兼顾泛化性与易用性，突破单个硬件设备对可处理序列长度的限制。

（4）多维显存优化

显存资源紧张是制约大模型训练规模与效率的关键瓶颈，尤其激活值堆积、优化器状态占用、大词表损失计算引发的显存峰值，易导致训练中断。MindSpeed FSDP后端针对性打造三大显存优化特性：

SwapActivation采用异步卸载与多流并行机制，智能筛选高价值激活值跨设备调度，隐藏数据迁移开销；

SwapOptimizer将FP32精度的优化器状态存于主机内存，通过三级流水线并行实现按需加载与回传，大幅降低显存占用；

ChunkLoss针对多模态大词表场景，按序列分块执行损失计算并即时释放显存，有效缓解大词表与超长序列带来的显存压力和内存碎片问题。

SwapActivation方案

SwapOptimizer方案

（5）通信优化增强

ChunkBatchSize特性作为通信优化的关键补充，通过微批次拆分机制提升通信性价比。该特性将输入切分为独立微批次，单次参数聚合通信即可支撑多微批次计算，同时通过即时释放激活值节省显存，既解决单层参数过大导致的显存受限问题，又强化计算对通信的掩盖能力，显著提升整体训练吞吐量。

ChunkBatchSize方案

开箱即用的模型训练套件

依托MindSpeed FSDP轻量化训练后端，昇腾推出两大开箱即用的模型训练套件——MindSpeed LLM（大语言模型套件）与 MindSpeed MM（多模态模型套件），全面覆盖主流大模型训练场景，真正实现“无需改码、配置即训”。

MindSpeed LLM深度集成Hugging Face生态，通过 ModelFactory、DataFactory及OptimizerFactory三大核心组件，实现训练全链路解耦重构。开发者仅需编写一份YAML配置文件，即可在不修改任何模型代码的前提下，自动注入FSDP分布式训练能力。

MindSpeed MM则面向多模态大模型，构建了一套灵活高效的分布式训练框架。它解耦并行策略与模型结构，支持FSDP、EP、CP的自由组合与动态编排，适配任意模态架构。框架具备跨硬件平台支持能力，可高效运行于多种计算设备，确保在不同硬件环境下的训练效率。

两大套件均以MindSpeed FSDP为统一底座，共享轻量、泛化、亲和PyTorch的技术基因，让开发者从“调并行”回归“做模型”，加速大模型创新落地。以MindSpeed LLM模型套件库为例，其支持基于Hugging Face权重自动构建模型--用户只需配置权重路径，即可实现Hugging Face模型的开箱即用，其中模型构建部分仅需一行代码：

model = AutoModelForCausalLM.from_pretrained( model_args.model_name_or_path, config=hf_config, trust_remote_code=trust_remote_code, torch_dtype=torch.float32, low_cpu_mem_usage=True, device_map="cpu" )

MindSpeed FSDP训练后端的进展与计划

MindSpeed FSDP训练后端已完成核心训练底座搭建，全面支持 Hugging Face模型开箱即用，并彻底解耦Megatron等重型依赖。

在功能层面，当前版本已稳定支持：

长序列优化：Ulysses、Ring Attention、KVAllGather-CP 三种策略均已上线，灵活应对长序列训练需求；

显存优化：SwapActivation、SwapOptimizer、ChunkLoss特性全面启用，有效缓解显存压力。

针对FSDP的高阶特性，将在26H1优先完成全量适配与上线，使能训练高性能：

并行与通信优化：加速推进EP MC2、Domino EP方案的落地，实现 ChunkBatchSize 通信优化特性的集成；

硬件协同优化：全量接入GMM、Permute/Unpermute等融合算子，构建昇腾训练专属Triton算子库；

生态协同优化：持续拓展主流开源模型适配覆盖范围，强化与上层模型套件的联动能力，构建“后端能力完备、生态适配广泛”的大模型训练加速库方案。

结语

随着模型向更大规模、更多模态、更长上下文演进，MindSpeed将持续投入，不断融合前沿并行策略、显存优化与硬件加速能力，打造昇腾平台上最敏捷的大模型训练底座。

欢迎开发者体验、贡献与共建！

开源仓库：

https://gitcode.com/Ascend/MindSpeed

https://gitcode.com/Ascend/MindSpeed-LLM

https://gitcode.com/Ascend/MindSpeed-MM

昇腾开源微信小助手：ascendosc

参考资料：

[1]https://docs.pytorch.org/tutorials/intermediate/FSDP_tutorial.html

[2]https://github.com/InternLM/xtuner

转载请注明来自海坡下载，本文标题：《并行优化H（MindSpeed全面支持FSDP训练后端）》

本文标签：并行优化H

adminqwq 88862篇文章站点微博

每一天，每一秒，你所做的决定都会改变你的人生！

发表评论取消回复

评论列表（暂无评论，14人围观）参与讨论

adminqwq管理员

搜索

标签列表

并行优化H（MindSpeed全面支持FSDP训练后端）

发表评论取消回复

还没有评论，来说两句吧...

文章目录