圖:比較模型狀態(tài)的每設(shè)備內(nèi)存消耗,以及三個(gè)階段的ZeRO-DP優(yōu)化。Ψ表示模型大小(參數(shù)數(shù)量),K表示優(yōu)化器狀態(tài)的內(nèi)存乘數(shù),N_d表示DP度。在本例中,我們假設(shè)模型尺寸ψ=7.5B,DP為N_d=64,K=12,基于Adam優(yōu)化器的混合精度訓(xùn)練。以上增益全部源自對(duì)梯度和優(yōu)化器狀態(tài)進(jìn)行分區(qū)。研究人員討論了參數(shù)分區(qū),并說明它可以線性地減少內(nèi)存(與GPU數(shù)量成比例)。 因此64個(gè)GPU可以運(yùn)行64倍大的模型,并且僅需要50%的通信帶寬。不過有待商榷的是,研究人員實(shí)際上并沒有對(duì)此進(jìn)行任何實(shí)現(xiàn)。 2 冪律關(guān)系網(wǎng)友u/AxeLond表示,根據(jù)GPT-3引用OpenAI自家論文《Scaling Laws for Neural Language Models》的方法,我們能得出一個(gè)經(jīng)驗(yàn)規(guī)律,即語言模型的性能與參數(shù)量、數(shù)據(jù)集規(guī)模和訓(xùn)練吞吐量存在簡(jiǎn)單的冪律關(guān)系。