DeepSeek開源第四彈:并行優(yōu)化策略3項(xiàng)齊開

2月27日消息,DeepSeek開源周第四日,DeepSeek開源了并行優(yōu)化策略(Optimized Parallelism Strategies),一次開源了3項(xiàng):

DualPipe:一種用于V3/R1模型訓(xùn)練中實(shí)現(xiàn)計(jì)算與通信重疊的雙向流水線并行算法

EPLB:一個(gè)針對(duì)V3/R1的專家并行負(fù)載均衡工具

Profile-data:訓(xùn)練和推理框架的分析數(shù)據(jù)

GitHub地址:

https://github.com/deepseek-ai/DualPipe

https://github.com/deepseek-ai/eplb

https://github.com/deepseek-ai/profile-data

一、DualPipe

DualPipe是DeepSeek-V3技術(shù)報(bào)告中提出的一種創(chuàng)新雙向流水線并行算法。

它能夠?qū)崿F(xiàn)前向與后向計(jì)算和通信階段的完全重疊,同時(shí)有效減少流水線氣泡(空閑時(shí)間)。

DeepSeek展示了在8個(gè)流水線并行階段和20個(gè)micro-batches情況下,DualPipe在兩個(gè)方向上的調(diào)度示例。(來(lái)自DeepSeek-V3技術(shù)報(bào)告)

反向方向的微批次與前向方向?qū)ΨQ,為了簡(jiǎn)化圖示,這里省略了反向方向的批次 ID。圖中由同一個(gè)黑色邊框包圍的兩個(gè)單元格具有相互重疊的計(jì)算和通信。

流水線氣泡與內(nèi)存使用比較

表中,

2025-02-27
DeepSeek開源第四彈:并行優(yōu)化策略3項(xiàng)齊開
DeepSeek展示了在8個(gè)流水線并行階段和20個(gè)micro-batches情況下,DualPipe在兩個(gè)方向上的調(diào)度示例。反向方向的微批次與前向方向?qū)ΨQ,為了簡(jiǎn)化圖示,這里省略了反向方向的批次 ID。如DeepSeek-V3論文所述,研究人員采用了冗余專家策略,對(duì)高負(fù)載專家進(jìn)行復(fù)制。為了便于復(fù)制和部署,DeepSeek團(tuán)隊(duì)在eplb.py中開源了部署的EP負(fù)載平衡算法。同時(shí),DeepSeek還公開了這些數(shù)據(jù)的訓(xùn)練和推理過(guò)程。

長(zhǎng)按掃碼 閱讀全文