Deepseek 开源周第二天|DeepEP:首个面向MoE模型的开源EP通信库

Deepseek 开源周第二天|DeepEP:首个面向MoE模型的开源EP通信库

智汇资源库【zhzyk.vip】
2025-02-25 / 0 评论 / 55 阅读 / 正在检测是否收录...

Deepseek 开源周第二天,DeepEP:首个面向MoE模型的开源EP通信库,支持实现了混合专家模型训练推理的全栈优化。DeepEP 提供高效且优化的全到全通信,支持节点内和节点间通信,兼容 NVLink 和 RDMA,用于训练和推理预填充的高吞吐量内核,用于推理解码的低延迟内核,原生 FP8 调度支持,灵活的 GPU 资源控制,实现计算与通信的重叠。

DeepEP

概述

DeepEP 是一个专为混合专家模型(Mixture-of-Experts, MoE)和专家并行(expert parallelism, EP)设计的通信库。它提供了高吞吐量和低延迟的全到全 GPU 内核,这些内核也被称为 MoE 分派和组合。该库还支持低精度操作,包括 FP8。

特性

  1. 高效且优化的全到全通信:DeepEP 提供了高效且优化的全到全通信内核,适用于 MoE 模型的分派和组合操作。
  2. 支持节点内和节点间通信:兼容 NVLink 和 RDMA,确保在不同节点和不同通信域之间高效传输数据。
  3. 高吞吐量内核:优化后的内核支持高吞吐量,适用于训练和推理预填充任务。
  4. 低延迟内核:用于推理解码,确保低延迟,适合对延迟敏感的应用场景。
  5. 原生 FP8 调度支持:支持低精度操作,提高计算效率。
  6. 灵活的 GPU 资源控制:支持 SM(Streaming Multiprocessors)数量控制,实现计算与通信的重叠,提高资源利用率。

性能测试

常规内核

在 H800 GPU 上测试(NVLink 最大带宽约为 160 GB/s),每个 GPU 连接一个 CX7 InfiniBand 400 Gb/s RDMA 网卡(最大带宽约为 50 GB/s)。测试设置遵循 DeepSeek-V3/R1 预训练设置(每批 4096 个 token,7168 个隐藏单元,4 个顶级组,8 个顶级专家,FP8 分派和 BF16 组合)。

类型分派 #EP瓶颈带宽组合 #EP瓶颈带宽
节点内8153 GB/s (NVLink)8158 GB/s (NVLink)
节点间1643 GB/s (RDMA)1643 GB/s (RDMA)
节点间3244 GB/s (RDMA)3247 GB/s (RDMA)
节点间6446 GB/s (RDMA)6445 GB/s (RDMA)

低延迟内核

在 H800 GPU 上测试,每个 GPU 连接一个 CX7 InfiniBand 400 Gb/s RDMA 网卡(最大带宽约为 50 GB/s)。测试设置遵循 DeepSeek-V3/R1 生产设置(每批 128 个 token,7168 个隐藏单元,8 个顶级专家,FP8 分派和 BF16 组合)。

分派 #EP延迟RDMA 带宽组合 #EP延迟RDMA 带宽
8163 us46 GB/s8318 us46 GB/s
16173 us43 GB/s16329 us44 GB/s
32182 us41 GB/s32350 us41 GB/s
64186 us40 GB/s64353 us41 GB/s
128192 us39 GB/s128369 us39 GB/s
256194 us39 GB/s256360 us40 GB/s

快速开始

要求

  • Hopper GPU(未来可能支持更多架构或设备)
  • Python 3.8 及以上
  • CUDA 12.3 及以上
  • PyTorch 2.1 及以上
  • NVLink 用于节点内通信
  • RDMA 网络用于节点间通信

项目地址

0

评论 (0)

取消
已运行 00000000