开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開APP
          userphoto
          未登錄

          開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

          開通VIP
          GPT-3沒有親自上手,不如展望一下GPT-4?

          那不如我們直接瞻仰一下GPT-4吧。

          啊這?難道GPT-4已經(jīng)誕生了?
          并沒有,但是我們今天來討論一下實(shí)現(xiàn)GPT-4所需要的大概20萬億參數(shù)量的可行性。
          reddit近日有一個(gè)議題引起了熱烈討論,樓主u/AxeLond稱自己發(fā)現(xiàn)一篇論文(ZeRO)能基本解釋從GPT-2到GPT-3的增益,即從15億參數(shù)增加到1,750億參數(shù),是如何實(shí)現(xiàn)的。語言模型的性能與參數(shù)量、數(shù)據(jù)集規(guī)模和訓(xùn)練吞吐量存在簡(jiǎn)單的冪律關(guān)系。他甚至據(jù)此推出了下一代GPT即GPT-4的參數(shù)量、訓(xùn)練數(shù)據(jù)量和訓(xùn)練費(fèi)用,規(guī)模驚人,稱得上是“國(guó)家級(jí)”語言模型,即便是巨頭科技企業(yè)都很可能負(fù)擔(dān)不起GPT-4的訓(xùn)練。

          ZeRO論文地址:https://arxiv.org/abs/1910.02054 
          現(xiàn)有的訓(xùn)練大型深度學(xué)習(xí)模型的方法,例如數(shù)據(jù)和模型并行,已經(jīng)顯示出基本的局限性,即無法將模型擬合到有限的內(nèi)存中,同時(shí)兼具計(jì)算、通信和開發(fā)效率。
          在論文中,研究人員開發(fā)了一種新穎的解決方案ZeRO以優(yōu)化內(nèi)存,在大大提高訓(xùn)練速度的同時(shí),增加模型參數(shù)。       
          圖:使用ZeRO-100B的600億參數(shù)模型的超線性可擴(kuò)展性和訓(xùn)練吞吐量。
          ZeRO消除了數(shù)據(jù)和模型并行訓(xùn)練中的內(nèi)存冗余,同時(shí)保持了低通信量和高計(jì)算粒度,從而能夠按設(shè)備數(shù)量成比例地縮放模型參數(shù)。
          研究人員通過分析內(nèi)存需求和通訊量,表明ZeRO可以使用現(xiàn)有的硬件擴(kuò)展到超過1萬億個(gè)參數(shù)。
           
          1

          內(nèi)存優(yōu)化
          基本的數(shù)據(jù)并行化不會(huì)減少每個(gè)設(shè)備的內(nèi)存,如果要訓(xùn)練超過14億參數(shù)的模型,32GB內(nèi)存(GPU)是不足的。
          論文還討論了如何對(duì)優(yōu)化器狀態(tài)、梯度進(jìn)行巧妙分區(qū),來減少GPU節(jié)點(diǎn)之間通信的需求,從而實(shí)現(xiàn)內(nèi)存優(yōu)化。但是即便不使用模型并行,也要在1個(gè)GPU上運(yùn)行1個(gè)模型副本。
          ZeRO-100B可以在128個(gè)GPU上訓(xùn)練多達(dá)130億參數(shù)的模型,而無需模型并行,平均每個(gè)GPU的吞吐量超過40 TFlops。
          相比之下,如果沒有ZeRO,則最大的僅數(shù)據(jù)并行的可訓(xùn)練模型就只有14億參數(shù),每個(gè)GPU的吞吐量小于20 TFlops。
          在英偉達(dá) V100和128個(gè)節(jié)點(diǎn)的DGX-2集群中添加16路模型并行處理,可以訓(xùn)練大約2,000億個(gè)參數(shù)。
          從16路模型并行開始,可以運(yùn)行15.4倍的大型模型,而不會(huì)真正造成性能損失,而在運(yùn)行16路模型并行和64路數(shù)據(jù)并行(1024個(gè)GPU)時(shí),性能僅比峰值性能低30%。       
          圖:比較模型狀態(tài)的每設(shè)備內(nèi)存消耗,以及三個(gè)階段的ZeRO-DP優(yōu)化。Ψ表示模型大小(參數(shù)數(shù)量),K表示優(yōu)化器狀態(tài)的內(nèi)存乘數(shù),N_d表示DP度。在本例中,我們假設(shè)模型尺寸ψ=7.5B,DP為N_d=64,K=12,基于Adam優(yōu)化器的混合精度訓(xùn)練。
          以上增益全部源自對(duì)梯度和優(yōu)化器狀態(tài)進(jìn)行分區(qū)。研究人員討論了參數(shù)分區(qū),并說明它可以線性地減少內(nèi)存(與GPU數(shù)量成比例)。 
          因此64個(gè)GPU可以運(yùn)行64倍大的模型,并且僅需要50%的通信帶寬。不過有待商榷的是,研究人員實(shí)際上并沒有對(duì)此進(jìn)行任何實(shí)現(xiàn)。

          2

          冪律關(guān)系
          網(wǎng)友u/AxeLond表示,根據(jù)GPT-3引用OpenAI自家論文《Scaling Laws for Neural Language Models》的方法,我們能得出一個(gè)經(jīng)驗(yàn)規(guī)律,即語言模型的性能與參數(shù)量、數(shù)據(jù)集規(guī)模和訓(xùn)練吞吐量存在簡(jiǎn)單的冪律關(guān)系。       

          圖:隨著我們?cè)黾幽P痛笮?、?shù)據(jù)集大小和用于訓(xùn)練的計(jì)算吞吐量,語言建模性能會(huì)平穩(wěn)提高。為了獲得最佳性能,必須同時(shí)放大所有三個(gè)因素。當(dāng)沒有其他兩個(gè)瓶頸時(shí),經(jīng)驗(yàn)性能與每個(gè)因素都有冪律關(guān)系。
          損失(L)和模型參數(shù)數(shù)量(N)存在以下關(guān)系:
                 
                  
          將模型參數(shù)轉(zhuǎn)換為吞吐量(C,單位petaFLOP/s-days),我們得到:       
                 
                 
                  
          GPT-3能很好地?cái)M合這個(gè)等式:   
                 
          C和N之間的關(guān)系如下: 
                 
                 
          如果我們把GPT-2至GPT-3的參數(shù)擴(kuò)大規(guī)模同等應(yīng)用到GPT-3至GPT-4上面,那么可以計(jì)算得到:C≈3.43×10^7,則N≈20萬億。 
          也就是說GPT-4將有20萬億個(gè)參數(shù),因?yàn)镚PT-3已經(jīng)有1,750億個(gè)參數(shù)(C≈18,300)。
          GPT-3訓(xùn)練了3000億token,但是GPT-4的訓(xùn)練需要大約16萬億token。據(jù)統(tǒng)計(jì),英語維基百科有30億token,網(wǎng)絡(luò)抓取570 GB的數(shù)據(jù)有4000億token,因此要得到16萬億token,大概需要23 TB的數(shù)據(jù),相當(dāng)于Facebook每天要處理的數(shù)據(jù)量,也就是說,GPT-4的訓(xùn)練將需要巨頭科技企業(yè)傾盡全力。
          由于GPT-3的計(jì)算成本約為460萬美元,則同等硬件環(huán)境下訓(xùn)練GPT-4的計(jì)算成本估計(jì)為86億美元。 
          如果從內(nèi)存的角度來看,使用參數(shù)分區(qū)訓(xùn)練更大的模型是如此容易,但是需要解決內(nèi)存問題才能真正使它完全加載。
          與V100相比,A100的計(jì)算量可增加3-6倍,但即便如此,成本也要高達(dá)14億美元。
          英偉達(dá)在2020年第一季度報(bào)告的“數(shù)據(jù)中心”收入是11.5億美元,所以僅僅為了訓(xùn)練“GPT-4”,幾乎需要全球1個(gè)季度(3個(gè)月)的顯卡供應(yīng),或者說至少得這個(gè)數(shù)量級(jí)。

          3

          GPT-4不值得?
          這篇文章在reddit引起了熱烈討論。
          網(wǎng)友tornado28認(rèn)為,用如此巨額資金用于訓(xùn)練一個(gè)語言模型是不值得的:“如果我們有86億美元用于建立一個(gè)語言模型,我建議投入50億美元作為研究經(jīng)費(fèi),并可以用剩下的36億美元和3萬篇關(guān)于語言建模的新研究論文來訓(xùn)練一個(gè)相當(dāng)好的模型?!?nbsp;
          但是,這3萬篇論文又會(huì)有多少是真正的算法突破呢?Science曾經(jīng)在5月刊文提到:一些多年前的老算法經(jīng)過微調(diào),性能足以匹敵當(dāng)前的SOTA,機(jī)器學(xué)習(xí)領(lǐng)域調(diào)參和煉金研究模式仍然盛行,算法的泛化能力有限。一句話總結(jié)就是:有調(diào)查有真相!某些AI領(lǐng)域多年無實(shí)際進(jìn)展。
          網(wǎng)友bohreffect認(rèn)為,GPT-4的存在不切實(shí)際,并且沒有必要:“先別說內(nèi)存需求,世界上真的存在16萬億token的文本數(shù)據(jù)嗎?在某種意義上,這個(gè)假想的GPT-4的VC維度似乎會(huì)超過英語本身的復(fù)雜性,因此會(huì)產(chǎn)生過擬合?!?/section>
          如果GPT-4沒有足夠的訓(xùn)練數(shù)據(jù),那就只需要記憶數(shù)據(jù)就行,這樣的話它的存在并沒有意義。 
          網(wǎng)友RusticScentedMale認(rèn)為,問題不在于算法而在于計(jì)算:“GPT-3的成就不是通過發(fā)表更多的研究論文而是通過加大訓(xùn)練費(fèi)用獲得的,所以把錢繼續(xù)花在研究經(jīng)費(fèi)上或許不是最好的選擇,除非是關(guān)于如何更有效地構(gòu)建并行計(jì)算芯片的研究?!?/section>
          網(wǎng)友SrslyPaladin評(píng)估了所謂“16萬億token”是什么概念,GPT-4可能是文本生成模型的極限:“16萬億token大概是所有已印刷書籍的大小:1.5億本書x每本書200頁(yè)x每頁(yè)300token= 9萬億token,但是你提出了一個(gè)很好的觀點(diǎn),假想的GPT-4可能代表了文本輸入的有用性極限。” 
          如果GPT-4真的能學(xué)習(xí)全世界的文本數(shù)據(jù),可能到時(shí)候就沒有什么文本任務(wù)能難倒它,從而它能超仿真的通過圖靈測(cè)試。 
          網(wǎng)友thunder_jaxx提到了谷歌的一項(xiàng)新研究,谷歌提出了Gshard模型,這個(gè)模型有6000億參數(shù),論文中的一張圖能明顯看出BLUE分?jǐn)?shù)的提升與參數(shù)量增加的關(guān)系。      
          Gshard論文鏈接:https://arxiv.org/abs/2006.16668 
          網(wǎng)友thunder_jaxx表示,我們也應(yīng)該看看MIT這篇關(guān)于深度學(xué)習(xí)的計(jì)算極限的文章,第12頁(yè)的圖很有洞察力?!皟H僅擴(kuò)大計(jì)算規(guī)模并不是唯一的出路。GPT-3可以做很多有用的任務(wù),但是要完全解決語言的細(xì)微差別,需要的不僅僅是計(jì)算,因?yàn)橛刑嗄P汀坝洃洝保ㄟ^擬合)的例子了。我們需要一些全新的東西,就像原始的transformer一樣。transformer為序列建模問題創(chuàng)建了一個(gè)范式轉(zhuǎn)換。我們需要這樣的東西來解決通用智能問題?!?/section>
          ZeRO這篇論文再次揭示了深度學(xué)習(xí)模型性能和算力之間的強(qiáng)依賴關(guān)系,如何突破這個(gè)困境,以及如何在算法研究上取得真正的突破,仍然值得深思。 
          論文第12頁(yè)的圖:     

          圖:深度學(xué)習(xí)應(yīng)用程序的性能改善與訓(xùn)練該模型的計(jì)算負(fù)載有關(guān)(以千兆浮點(diǎn)運(yùn)算為單位)。
          參考資料: 
          https://www.reddit.com/r/MachineLearning/comments/i49jf8/d_biggest_roadblock_in_making_gpt4_a_20_trillion/
          專輯 | 李宏毅人類語言處理2020筆記

          專輯 | NLP論文解讀

          本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
          打開APP,閱讀全文并永久保存 查看更多類似文章
          猜你喜歡
          類似文章
          這個(gè)國(guó)產(chǎn)開源項(xiàng)目,目測(cè)要火!
          NLP界“威震天”襲來!英偉達(dá)1小時(shí)成功訓(xùn)練BERT,83億參數(shù)打造史上最大語言模型
          談?wù)凬LP下一個(gè)主戰(zhàn)場(chǎng):萬億參數(shù)的預(yù)訓(xùn)練模型!
          僅用73萬元,就能開發(fā)出一個(gè)千億參數(shù)大模型
          成千上萬億參數(shù)的AI大模型是如何煉成的?兼論并行計(jì)算的四大策略
          加速深度學(xué)習(xí)模型訓(xùn)練的有效方法——張量并行
          更多類似文章 >>
          生活服務(wù)
          分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
          綁定賬號(hào)成功
          后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點(diǎn)擊這里聯(lián)系客服!

          聯(lián)系客服