有沒有在開發(fā)大模型?在學習。
什么時候發(fā)布大模型?沒計劃。
當被問起自研大模型,字節(jié)跳動副總裁楊震原口風甚嚴。但席卷全球的這場大模型競逐戰(zhàn),沒有人會主動放棄陣地。
最新線索,在上海露出端倪。
火山引擎對外的最新技術、產品發(fā)布動作中,我們發(fā)現(xiàn):煉大模型的基礎設施,不僅已經(jīng)在字節(jié)內部運轉,還到了能夠對外輸出“技術秘籍”的階段。
直觀的數(shù)字,更能說明情況:
抖音2022年最火特效「AI繪畫」,就是在火山引擎機器學習平臺上訓練而成。在訓練場景下,基于Stable Diffusion的模型,訓練時間從128張A100訓練25天,縮短到了15天,訓練性能提升40%。
在推理場景下,基于Stable Diffusion的模型,端到端推理速度是PyTorch的3.47倍,運行時對GPU顯存占用量降低60%。
而就在全球最大云廠商AWS宣布,加入大模型競賽,并且定位是“中立平臺”,會接入Anthoropic、StabilityAI等模型廠商的大模型之際,量子位也獲悉:
火山引擎,也在以類似路徑探索大模型的落地,做法是用“機器學習平臺+算力”為大模型企業(yè)提供AI基礎設施。火山引擎總裁譚待透露,國內幾十家做大模型的企業(yè),七成已經(jīng)在火山引擎云上。
大模型企業(yè)為什么會選擇火山引擎?我們和火山引擎機器學習總監(jiān)吳迪聊了聊。
在AI方面,此番火山引擎重點提到了兩個平臺:機器學習平臺和推薦平臺。
其中,機器學習平臺涉及當下科技圈最熱的兩個話題——龐大算力的調度問題,以及AI開發(fā)的效率問題。
先來看算力調度。
說到大模型時代,OpenAI首席執(zhí)行官Sam Altman曾發(fā)表觀點稱,“新版摩爾定律很快就要到來,宇宙中的智能每18個月翻一倍”。
而這背后,模型訓練開發(fā)所需要的算力規(guī)模,可想而知。
但用算力,實際上并不是一個純堆硬件的事情。舉個例子,如果機器學習框架跟底層的硬件是各自獨立的一套,那在訓練AI模型時,由于通信延遲、吞吐量等問題,訓練效率就無法最大化。
簡單來說,就是很多算力會在這個過程中被浪費掉。
解決方法,是軟硬一體。
吳迪介紹,火山引擎的自研DPU,將算力層和平臺層統(tǒng)一起來進行了整體優(yōu)化。比如,將通信優(yōu)化的算法直接寫到網(wǎng)卡硬件中,以降低延遲、削減擁塞。
測試數(shù)據(jù)顯示,火山引擎的通信框架BytePS,在模型規(guī)模越大時,收益會越高。
而在AI開發(fā)效率方面,火山引擎推出了Lego算子優(yōu)化。
具體而言,這一框架可以根據(jù)模型子圖的結構,采用火山引擎自研高性能算子,實現(xiàn)更高的加速比。
前文提到的抖音特效訓練效率的提升,就得益于此:
在推理場景下,使用Lego算子優(yōu)化,可以將基于Stable Diffusion模型的端到端推理速度提升至66.14 it/s,是PyTorch推理速度的3.47倍,運行時GPU顯存占用量降低60%。
在訓練場景下,在128張A100上跑15天,模型即可訓練完成,比當時最好的開源版本快40%。
目前,火山引擎這一套機器學習平臺,已經(jīng)部署到了MiniMax的文本、視覺、聲音三個模態(tài)大模型訓練和推理場景中。
MiniMax聯(lián)合創(chuàng)始人楊斌說,依托火山引擎機器學習平臺,MiniMax研發(fā)了超大規(guī)模的大模型訓練平臺,高效支撐著三個模態(tài)大模型每天千卡以上的常態(tài)化穩(wěn)定訓練。在并行訓練上實現(xiàn)了99.9%以上的可用性。除了訓練以外,MiniMax也同步自研了超大規(guī)模的推理平臺,目前擁有近萬卡級別的GPU算力池,穩(wěn)定支撐著每天上億次的大模型推理調用。
有穩(wěn)健的大模型基礎設施,MiniMax從零開始自主完整地跑通了大模型與用戶交互的迭代閉環(huán),實現(xiàn)從月至周級別的大模型迭代速度,和指數(shù)級的用戶交互增長。MiniMax和火山引擎一起為大模型訓練搭建了高性能計算集群,一起致力于提升大模型訓練的穩(wěn)定性,保證了千卡訓練的任務穩(wěn)定運行數(shù)周以上。
從今年開始,MiniMax又和火山引擎在網(wǎng)絡和存儲上進行了更深入的優(yōu)化合作,實現(xiàn)更低的網(wǎng)絡延遲,將帶寬利用率提升了10%以上。
吳迪坦言,“軟硬一體、通信優(yōu)化、算子優(yōu)化都不是新概念,火山引擎機器學習平臺也沒有特別牛、特別超前的大招。我們靠的就是務實嚴謹?shù)夭粩喟鸭毠?jié)做扎實,把重要技術錘煉到位,這樣才能贏得客戶的信任?!?/strong>
機器學習平臺之外,這次在自家看家本領——推薦系統(tǒng)上,火山引擎對外拿出了推薦系統(tǒng)全套解決方案:從物料管理,到召回排序,再到效果分析、A/B測試和模型算法,都可以開箱即用。
而作為產業(yè)界近年來落地最為成功的AI應用之一,在推薦領域,深度學習模型越來越大、越做越深的趨勢,也早已顯現(xiàn)其中。
吳迪介紹,由于推薦是一個高度定制化的場景,每個人的興趣、畫像都有單獨的embedding,因此大規(guī)模稀疏模型很重要。
同時,由于真實世界在時刻變化,因此背后又存在一重實時訓練的挑戰(zhàn)。
這都對傳統(tǒng)的深度學習框架提出了很大的挑戰(zhàn)。
為此,火山引擎不僅將以上工程實現(xiàn)進行封裝,推出了基于TensorFlow的機器學習訓推一體框架Monolith,還拿出了針對智能推薦的高速GPU訓練和推理引擎——Monolith Pro。
值得關注的是,Monolith Pro覆蓋的場景包括:
針對關鍵場景的超大模型,使用高密度GPU進行超高速訓練;
覆蓋更多場景的模型,混合使用CPU+GPU高速訓練。
吳迪進一步解釋說,推薦模型需要做大做深,才能對眾多事物之間的關聯(lián)有更好的理解——這一點,如今已經(jīng)在GPT引發(fā)的一系列現(xiàn)象上得到充分驗證。
因此在現(xiàn)在這個時間點,對于任何正在開展推薦廣告業(yè)務的公司而言,高價值的數(shù)據(jù)是一方面,另一方面,找到訓練更強、更大、更實時模型的方法,對整個系統(tǒng)進行智能化升級,已經(jīng)到了一個關鍵期。
所以,Monolith Pro又具體能實現(xiàn)怎樣的效果?吳迪透露,基于Monolith Pro,抖音內部的某重要廣告場景,原本一次廣告訓練需要15個月樣本,訓練時間為60小時,現(xiàn)在只需要5小時就能完成。
工程師可以做到上午啟動訓練,下午就能開A/B測試了(笑)。
由ChatGPT而起,在海內外一波波大模型的發(fā)布中被推至高潮,一場新的技術變革已然勢不可擋。
云計算,作為一個早已深深與AI關聯(lián)的業(yè)務,站立橋頭,也最早面臨著規(guī)則被重新改寫的境況。
隨著大模型能解決越來越多下游任務,如何用大模型,又成為了新的問題:無論是訓練還是推理,大模型都需要很強的基礎設施支持。
云計算成為了最便捷的上車途徑。同時,云廠商們也勢必要面向大模型,重塑自身云產品的面貌。
吳迪認為,作為一項技術,未來大模型會是百花齊放的局面。豐富的需求會催生出若干成功的模型提供商,深入滿足千行百業(yè)的業(yè)務需求。
與此同時,大模型的應用也面臨若干基礎問題:
基礎大模型可能還需要用更多高質量數(shù)據(jù),做進一步的增量學習和finetune,才能真正在產業(yè)中落地應用。整個流程需要更為敏捷和易用。
大模型將成為大數(shù)據(jù)時代的“中央處理器”,它能夠控制插件、接口,以及更豐富的下游模型。大模型需要這些“手”和“腳”,才能進入我們生活的方方面面。
隨著大模型應用的增多,數(shù)據(jù)安全和信任將成為產業(yè)關注的焦點。
推理效率。大模型的訓練成本高昂,但長期來看,全社會投入在大模型推理上的開銷將逐漸超過訓練成本。在微觀上,能以更低單位成本提供大模型相關服務的公司,將獲得競爭優(yōu)勢。
但可以肯定的是,大模型改造各行各業(yè)的浪潮已至。
有人正面迎戰(zhàn),有人從更底層的問題出發(fā),嘗試破解新的問題和挑戰(zhàn)。
共同點是,大模型的潮頭來得迅猛激烈,但在第一線迎接風暴的,從來不是沒有準備之人。
現(xiàn)在,到了檢驗真正AI能力和積累的時刻。至少在與大模型相伴相生的云計算領域,精彩才剛剛開幕。
— 完 —
點這里??關注我,記得標星哦~