首页
留言
关于
统计
更多
友链
壁纸
直播
推荐
实得惠
爱步街
Search
1
M4 Mac mini一键开启2K HiDPI终极教程:告别模糊,解锁高清显示!
699 阅读
2
【急急急!】官网崩了?手把手教你白嫖DeepSeek满血版R1模型,打工人自救指南!
488 阅读
3
Claude 3.7 Sonnet 终极使用指南:从入门到专家级应用|无需注册官方账号免费用的方法
409 阅读
4
保姆级教程:巧妙利用飞书多维表格让无数个满血版的Deepseek R1 为你批量打工!
337 阅读
5
【果粉狂喜】M4 Mac mini 16G 本地部署国产最强AI!DeepSeek-R1 保姆级教程 | 附Enchanted神器💫
308 阅读
生活
电子书
音乐
视频
技术
教程
软件
登录
Search
标签搜索
夸克网盘
1080P高清
电商运营
4K HDR
韩国电影
1080P高清资源
免费下载
中文字幕
内容创作
夸克网盘分享
高清资源下载
动画电影
2025
FLAC
PDF电子书
电子书下载
王菲
简繁英字幕
英语中字1080P
高清下载
智汇资源库
累计撰写
1,307
篇文章
累计收到
2
条评论
首页
栏目
生活
电子书
音乐
视频
技术
教程
软件
页面
留言
关于
统计
友链
壁纸
直播
推荐
实得惠
爱步街
搜索到
1
篇与
高效全到全通信
的结果
2025-02-25
Deepseek 开源周第二天|DeepEP:首个面向MoE模型的开源EP通信库
Deepseek 开源周第二天,DeepEP:首个面向MoE模型的开源EP通信库,支持实现了混合专家模型训练推理的全栈优化。DeepEP 提供高效且优化的全到全通信,支持节点内和节点间通信,兼容 NVLink 和 RDMA,用于训练和推理预填充的高吞吐量内核,用于推理解码的低延迟内核,原生 FP8 调度支持,灵活的 GPU 资源控制,实现计算与通信的重叠。概述DeepEP 是一个专为混合专家模型(Mixture-of-Experts, MoE)和专家并行(expert parallelism, EP)设计的通信库。它提供了高吞吐量和低延迟的全到全 GPU 内核,这些内核也被称为 MoE 分派和组合。该库还支持低精度操作,包括 FP8。特性高效且优化的全到全通信:DeepEP 提供了高效且优化的全到全通信内核,适用于 MoE 模型的分派和组合操作。支持节点内和节点间通信:兼容 NVLink 和 RDMA,确保在不同节点和不同通信域之间高效传输数据。高吞吐量内核:优化后的内核支持高吞吐量,适用于训练和推理预填充任务。低延迟内核:用于推理解码,确保低延迟,适合对延迟敏感的应用场景。原生 FP8 调度支持:支持低精度操作,提高计算效率。灵活的 GPU 资源控制:支持 SM(Streaming Multiprocessors)数量控制,实现计算与通信的重叠,提高资源利用率。性能测试常规内核在 H800 GPU 上测试(NVLink 最大带宽约为 160 GB/s),每个 GPU 连接一个 CX7 InfiniBand 400 Gb/s RDMA 网卡(最大带宽约为 50 GB/s)。测试设置遵循 DeepSeek-V3/R1 预训练设置(每批 4096 个 token,7168 个隐藏单元,4 个顶级组,8 个顶级专家,FP8 分派和 BF16 组合)。类型分派 #EP瓶颈带宽组合 #EP瓶颈带宽节点内8153 GB/s (NVLink)8158 GB/s (NVLink)节点间1643 GB/s (RDMA)1643 GB/s (RDMA)节点间3244 GB/s (RDMA)3247 GB/s (RDMA)节点间6446 GB/s (RDMA)6445 GB/s (RDMA)低延迟内核在 H800 GPU 上测试,每个 GPU 连接一个 CX7 InfiniBand 400 Gb/s RDMA 网卡(最大带宽约为 50 GB/s)。测试设置遵循 DeepSeek-V3/R1 生产设置(每批 128 个 token,7168 个隐藏单元,8 个顶级专家,FP8 分派和 BF16 组合)。分派 #EP延迟RDMA 带宽组合 #EP延迟RDMA 带宽8163 us46 GB/s8318 us46 GB/s16173 us43 GB/s16329 us44 GB/s32182 us41 GB/s32350 us41 GB/s64186 us40 GB/s64353 us41 GB/s128192 us39 GB/s128369 us39 GB/s256194 us39 GB/s256360 us40 GB/s快速开始要求Hopper GPU(未来可能支持更多架构或设备)Python 3.8 及以上CUDA 12.3 及以上PyTorch 2.1 及以上NVLink 用于节点内通信RDMA 网络用于节点间通信项目地址{anote icon="fa-download" href="https://github.com/deepseek-ai/DeepEP" type="error" content="点此查看项目"/}
2025年02月25日
55 阅读
0 评论
0 点赞