太嚇人了!如果真是這樣,能夠做出媲美GPT-4的中國公司恐怕少之又少!
首先假定:
1,英偉達(dá)的NeMo Framework框架在訓(xùn)練GPT-3大模型的過程中能使硬件算力有效性能達(dá)到50%以上。
2,GPT-3大模型參數(shù)量1750億個,訓(xùn)練樣本token數(shù)3000億個。
3,GPT-3大模型每次訓(xùn)練時間在30天完成。
4,按谷歌每日搜索量35億次估計,即每次訪問提問4次,每次提問+回答需處理425字,平均每個字轉(zhuǎn)換為token比例為4/3,則每日GPT-3大模型需推理token數(shù)79330億個。
那么可以計算出一個參數(shù)量為1750億個的GPT-3大模型:
1,在訓(xùn)練階段需要新增1558顆英偉達(dá)A100 GPU芯片,對應(yīng)價值為2337萬美元,需要195臺DGX A100服務(wù)器。
2,在推理階段需要新增70.6萬顆英偉達(dá)A100 GPU芯片,對應(yīng)價值為105.95億美元,需要8.8萬臺DGX A100服務(wù)器。
3,一臺DGX A100服務(wù)器售價19.9萬美元,則在訓(xùn)練階段DGX A100服務(wù)器價值量為3880.5萬美元,在推理階段DGX A100服務(wù)器價值量為175.12億美元。
為了開發(fā)出實用性相當(dāng)有限的GPT-3大模型(跟GPT-4相比差距很遠(yuǎn)),僅僅是購買搭載英偉達(dá)A100 GPU芯片的服務(wù)器所需費用就超過175億美元。
訓(xùn)練和推理GPT-3大模型,在硬件成本上需要花費至少175億美元;當(dāng)然,也有其他方面的成本。例如,數(shù)據(jù)標(biāo)注成本:需要對大量文本數(shù)據(jù)進(jìn)行標(biāo)注,以提供監(jiān)督信號。數(shù)據(jù)標(biāo)注是耗時和勞力密集的過程,需要雇傭人工標(biāo)注者或使用其他方法生成偽標(biāo)簽。電力成本:需要消耗大量的電力來保證服務(wù)器正常工作。電力成本也會隨著模型的規(guī)模,訓(xùn)練時間和推理頻率發(fā)生變化。人力成本:要開發(fā)和維護(hù)GPT-3大模型,需要雇傭?qū)I(yè)的工程師、研究員和管理人員。他們負(fù)責(zé)設(shè)計模型架構(gòu),選擇訓(xùn)練數(shù)據(jù),優(yōu)化訓(xùn)練過程,測試模型性能,解決模型問題,更新模型版本等等。
開發(fā)像ChatGPT這樣的大模型,除了有著如此高的資金門檻外,也存在非常高的技術(shù)門檻(尤其需要全球頂尖級的AI人才)——谷歌在人工智能領(lǐng)域算是世界一流水平,谷歌的Bard在面對OpenAI的GPT-4時都已顯著落于下風(fēng)。