Scaling Law 撞墻了嗎?這算得上是近段時(shí)間 AI 領(lǐng)域最熱門的話題之一。近日,資深機(jī)器學(xué)習(xí)研究科學(xué)家 Cameron R. Wolfe 更新了一篇超長的博客文章,詳細(xì)介紹了 LLM scaling 的當(dāng)前狀況,并分享了他對(duì) AI 研究未來的看法。
原文鏈接:https://cameronrwolfe.substack.com/p/llm-scaling-laws
近些年來,AI 領(lǐng)域的大部分研究進(jìn)展(尤其是 LLM)都是基于 scaling。也就是說,只要使用更多數(shù)據(jù)訓(xùn)練更大模型,就能得到更好的結(jié)果。這種關(guān)系可以被更嚴(yán)格地定義成 Scaling Law,這是一個(gè)可以描述 LLM 的測(cè)試損失隨某個(gè)量(如訓(xùn)練計(jì)算量)的增長而降低的公式。Scaling Law 可幫助我們預(yù)測(cè)當(dāng)投入更多資源進(jìn)行更大規(guī)模訓(xùn)練時(shí)的效果,這能給我們提供繼續(xù)投資 scaling 的必要信心。
「如果你有一個(gè)龐大的數(shù)據(jù)集并且訓(xùn)練了一個(gè)非常大的神經(jīng)網(wǎng)絡(luò),那么成功是肯定的!」——Ilya Sutskever
過去多年時(shí)間里,Scaling Law 一直指引著 AI 研究前進(jìn)的方向。事實(shí)上,像 OpenAI 這樣的早期前沿實(shí)驗(yàn)室的成功甚至可以歸功于他們對(duì) Scaling Law 的虔誠信仰。然而,最近有報(bào)道稱,頂級(jí)研究實(shí)驗(yàn)室正在努力訓(xùn)練下一代更好的 LLM。這些說法可能會(huì)讓我們懷疑:scaling 之路會(huì)撞墻嗎?如果會(huì),還有其他前進(jìn)的道路嗎?
本文將從頭開始回答這些問題,首先是深入解釋 LLM Scaling Law 和相關(guān)研究。Scaling Law 的概念很簡單,但公眾對(duì) Scaling Law 存在各種誤解 —— 這項(xiàng)研究背后的科學(xué)實(shí)際上非常具體明確。利用對(duì) Scaling Law 的詳細(xì)理解,我們將討論 LLM 研究的最新趨勢(shì)以及導(dǎo)致 Scaling Law「停滯」的因素。最后,我們將利用這些信息更清楚地說明 AI 研究的未來,重點(diǎn)關(guān)注一些可能繼續(xù)推動(dòng)進(jìn)步的關(guān)鍵思想 —— 其中也包括 scaling。
為了理解 LLM 的 scaling 現(xiàn)狀,我們首先需要對(duì) Scaling Law 有一個(gè)總體的了解。我們將從頭開始建立這種理解,首先是理解冪律的概念。然后,我們將探討冪律在 LLM 中的應(yīng)用研究,最終得出我們今天使用的 Scaling Law。
什么是冪律?
冪律是 LLM scaling 的基本概念。簡而言之,冪律描述了兩個(gè)量之間的關(guān)系。對(duì)于 LLM 來說,第一個(gè)量是 LLM 的測(cè)試損失(或其他一些相關(guān)的性能指標(biāo),例如下游任務(wù)準(zhǔn)確率 [7]),另一個(gè)量是我們想要 scaling 的一些設(shè)置,例如模型參數(shù)量。例如,在研究 LLM 的 scaling 屬性時(shí),我們可能會(huì)看到類似以下的陳述。
「有了足夠的訓(xùn)練數(shù)據(jù),驗(yàn)證損失的 scaling 與模型大小的函數(shù)關(guān)系應(yīng)該大致上是平滑冪律?!?- 摘自 [4]
這樣的陳述告訴我們,模型的測(cè)試損失和模型參數(shù)量之間存在可測(cè)量的關(guān)系。其中一個(gè)量的變化將導(dǎo)致另一個(gè)量發(fā)生相對(duì)的、無關(guān)尺度的變化。換句話說,我們可基于這種關(guān)系了解到:增加模型參數(shù)量(假設(shè)已滿足其他條件,比如訓(xùn)練數(shù)據(jù)充足)將導(dǎo)致測(cè)試損失降低某個(gè)可預(yù)測(cè)的程度。
冪律公式?;镜膬缏煽杀硎緸橐韵鹿剑?/span>
這里研究的兩個(gè)量是 x 和 y,而 a 和 p 是描述這些量之間關(guān)系的常數(shù)。如果我們繪出這個(gè)冪律函數(shù),我們會(huì)得到如下所示的圖。這里提供普通和對(duì)數(shù)度量的圖,因?yàn)榇蠖鄶?shù)研究 LLM scaling 的論文都使用對(duì)數(shù)度量。
x 和 y 之間的基本冪律圖
但很多時(shí)候,展示 LLM scaling 的圖看起來并不像上面的圖,而通常是上下顛倒的;請(qǐng)參閱下面的示例。
這只是逆冪律,可用如下公式表示:
逆冪律與標(biāo)準(zhǔn)冪律的公式幾乎相同,但我們通常會(huì)對(duì) p 使用負(fù)指數(shù)。使冪律的指數(shù)為負(fù)數(shù)會(huì)使圖顛倒過來;請(qǐng)參閱下面的示例。
x 和 y 之間的逆冪律圖
當(dāng)使用對(duì)數(shù)度量繪制此逆冪律時(shí),會(huì)產(chǎn)生大多數(shù) LLM Scaling Law 特有的標(biāo)志性線性關(guān)系。本文中涵蓋的幾乎每篇論文都會(huì)通過這樣的圖來研究 Scaling Law 的各種不同的因素(例如規(guī)模、計(jì)算、數(shù)據(jù)等)對(duì) LLM 的性能的影響?,F(xiàn)在,讓我們更實(shí)際地來看看冪律,也就是看看最早的一些在 LLM scaling 語境中研究冪律的論文。
神經(jīng)語言模型的 Scaling Law
在語言模型的早期,我們還不了解規(guī)模對(duì)性能的影響。語言模型是一個(gè)很有前途的研究領(lǐng)域,但當(dāng)時(shí)的模型(例如原始 GPT)功能有限。我們尚未發(fā)現(xiàn)更大模型的力量,而創(chuàng)建更好的語言模型的途徑還不明確。模型的形狀(即層的數(shù)量和大?。┲匾獑??使模型更大是否有助于其表現(xiàn)更好?訓(xùn)練這些更大的模型需要多少數(shù)據(jù)?
「損失隨模型大小、數(shù)據(jù)集大小和用于訓(xùn)練的計(jì)算量呈冪律變化,有些趨勢(shì)跨越了七個(gè)數(shù)量級(jí)以上。」 - 摘自 [1]
在 [1] 中,作者的目標(biāo)是通過分析多個(gè)因素(例如模型大小、模型形狀、數(shù)據(jù)集大小、訓(xùn)練計(jì)算和批大?。?duì)模型性能的影響來回答這些問題。通過此分析,我們了解到 LLM 性能會(huì)隨著以下因素的增加而平穩(wěn)提升:
模型參數(shù)的數(shù)量。
數(shù)據(jù)集的大小。
用于訓(xùn)練的計(jì)算量。
更具體地說,當(dāng)性能不受其他兩個(gè)因素的瓶頸限制時(shí),可以觀察到這些因素中的每一個(gè)與 LLM 的測(cè)試損失之間存在冪律關(guān)系。
實(shí)驗(yàn)設(shè)置。為了擬合冪律,作者在 WebText2 語料庫的子集上預(yù)訓(xùn)練了最大 1.5B 參數(shù)的 LLM。這些子集的 token 數(shù)量從 22M 到 23B 不等。所有模型都使用固定的 1024 個(gè) token 的上下文長度和標(biāo)準(zhǔn)的下一個(gè) token 預(yù)測(cè)(交叉熵)損失進(jìn)行訓(xùn)練。在留存測(cè)試集上測(cè)量相同的損失并將其用作主要性能指標(biāo)。此設(shè)置與大多數(shù) LLM 的標(biāo)準(zhǔn)預(yù)訓(xùn)練設(shè)置相匹配。
(來自 [1])
LLM scaling 的冪律。在 [1] 中訓(xùn)練的 LLM 的性能(就其在 WebText2 上的測(cè)試損失而言)會(huì)隨著參數(shù)、數(shù)據(jù)和計(jì)算量的增加而穩(wěn)步提高。這些趨勢(shì)在計(jì)算量方面跨越了八個(gè)數(shù)量級(jí),在模型大小方面跨越了六個(gè)數(shù)量級(jí),在數(shù)據(jù)集大小方面跨越了兩個(gè)數(shù)量級(jí)。上圖提供了確切的冪律關(guān)系和擬合每個(gè)冪律關(guān)系的方程。這里的每個(gè)方程都與我們之前看到的逆冪律方程非常相似。但是,我們?cè)O(shè)置 a = 1 并在括號(hào)內(nèi)添加一個(gè)額外的乘法常數(shù)。
[1] 的作者注意到一個(gè)小細(xì)節(jié),并且這個(gè)細(xì)節(jié)對(duì)于正確擬合這些冪律是必要的。在計(jì)算模型參數(shù)的總數(shù)時(shí),不包括位置或 token 嵌入,從而可以得到更清晰的 scaling 趨勢(shì);如下圖所示。
(來自 [1])
不過,只有當(dāng)訓(xùn)練不受其他因素阻礙時(shí),這些冪律才適用。因此,為了獲得最佳性能,應(yīng)該同時(shí)增大這三個(gè)分量(模型大小、數(shù)據(jù)和計(jì)算量)。如果我們單獨(dú)增大其中任何一個(gè)分量,我們就會(huì)達(dá)到某個(gè)收益遞減點(diǎn)。
冪律意味著什么?雖然 [1] 中提供的冪律圖看起來很有希望,但我們應(yīng)該注意到這些圖是基于對(duì)數(shù)度量的。如果使用普通度量繪制,我們會(huì)得到下面的圖 —— 可以看到冪律的形狀類似于指數(shù)衰減。
考慮到網(wǎng)上關(guān)于 scaling 和 AGI 的大量言論,這樣的發(fā)現(xiàn)似乎違反直覺。在許多情況下,我們被灌輸?shù)闹庇X似乎是:隨著計(jì)算量的對(duì)數(shù)增加,LLM 的質(zhì)量呈指數(shù)級(jí)提高,但事實(shí)并非如此。實(shí)際上,隨著規(guī)模增大,提升 LLM 的質(zhì)量會(huì)變得越來越困難。
其他有用的發(fā)現(xiàn)。除了 [1] 中觀察到的冪律之外,我們還看到,研究中涉及的其他因素(例如模型形狀或架構(gòu)設(shè)置)對(duì)模型性能的影響微乎其微;見上文。規(guī)模是打造更好 LLM 的最大因素 —— 更多的數(shù)據(jù)、計(jì)算量和模型參數(shù)可以平穩(wěn)地提高 LLM 的性能。
「較大的模型具有更高的樣本效率,因此最佳的計(jì)算效率訓(xùn)練涉及在相對(duì)適量的數(shù)據(jù)上訓(xùn)練非常大的模型,并在收斂之前停止?!?- 來自 [1]
有趣的是,[1] 中的實(shí)證分析表明,較大的 LLM 往往具有更高的樣本效率,這意味著它們?cè)跀?shù)據(jù)較少的情況下可達(dá)到與較小模型相同的測(cè)試損失水平。因此,對(duì) LLM 進(jìn)行預(yù)訓(xùn)練以使其收斂(可以說)不是最優(yōu)的。相反,我們可以在較少的數(shù)據(jù)上訓(xùn)練更大的模型,在收斂之前停止訓(xùn)練過程。這種方法在訓(xùn)練計(jì)算使用量方面是最優(yōu)的,但它沒有考慮到推理成本。實(shí)際上,我們通常會(huì)在更多數(shù)據(jù)上訓(xùn)練較小的模型,因?yàn)檩^小的模型托管成本較低。
作者還廣泛分析了模型大小與用于預(yù)訓(xùn)練的數(shù)據(jù)量之間的關(guān)系,發(fā)現(xiàn)數(shù)據(jù)集的大小不需要像模型大小那樣快速增加。模型大小增加約 8 倍需要訓(xùn)練數(shù)據(jù)量增加約 5 倍才能避免過擬合。
(來自 [1])
[1] 中發(fā)現(xiàn)的 Scaling Law 也在其他幾個(gè)數(shù)據(jù)集上得到復(fù)現(xiàn),我們發(fā)現(xiàn)在向測(cè)試損失添加固定偏移量后,相同的 Scaling Law 仍然成立(即考慮到數(shù)據(jù)集不同);見上文。這些結(jié)果為 LLM scaling 提供了令人信服的案例。我們通過更長時(shí)間、在更多數(shù)據(jù)上訓(xùn)練較大的模型獲得了非常明顯和可衡量的收益,這激發(fā)了人們對(duì)更大規(guī)模預(yù)訓(xùn)練 LLM 的興趣。
「這些結(jié)果表明,隨著我們適當(dāng)擴(kuò)大模型大小、數(shù)據(jù)和計(jì)算,語言建模性能會(huì)平穩(wěn)且可預(yù)測(cè)地提高。我們預(yù)計(jì),更大的語言模型將比當(dāng)前模型表現(xiàn)更好,樣本效率更高?!?- 來自 [1]
Scaling Law 的實(shí)際用途
大規(guī)模預(yù)訓(xùn)練非常好,但這一事實(shí)卻帶來了一些困境。續(xù)為了得到最好的模型,需要大量數(shù)據(jù)進(jìn)行大規(guī)模模型訓(xùn)練。然而,這些訓(xùn)練成本很高,這意味著它們也會(huì)帶來很大的風(fēng)險(xiǎn)。如果我們花費(fèi)了 1000 萬美元,結(jié)果訓(xùn)練了一個(gè)不符合我們期望的模型,這可如何是好?考慮到預(yù)訓(xùn)練的費(fèi)用,我們無法執(zhí)行任何特定于模型的調(diào)整,我們必須確保我們訓(xùn)練的模型表現(xiàn)良好。我們需要制定一個(gè)策略來調(diào)整這些模型并預(yù)測(cè)它們的性能,同時(shí)無需花費(fèi)太多錢。
(來自 [11])
這就是 Scaling Law 的用武之地。到目前為止,我們已經(jīng)看到了一些實(shí)證分析,這些分析是為了證明 Scaling Law 的存在而進(jìn)行的,但這些 Scaling Law 在 AI 研究中也有非常實(shí)際的用例。特別是,我們可以:
使用各種訓(xùn)練設(shè)置訓(xùn)練一堆較小的模型。
根據(jù)較小模型的性能擬合 Scaling Law。
使用 Scaling Law 推斷更大模型的性能。
當(dāng)然,這種方法有局限性。從較小的模型預(yù)測(cè)較大模型的性能很困難,而且可能不準(zhǔn)確。模型可能因規(guī)模不同而表現(xiàn)不同。然而,研究社區(qū)已經(jīng)提出了多種方法來使這更可行,Scaling Law 現(xiàn)在通常用于此目的。使用 Scaling Law 預(yù)測(cè)較大模型的性能的能力讓我們作為研究人員更有信心(和安心)。此外,Scaling Law 提供了一種簡單的方法來證明對(duì) AI 研究的投資是合理的。
「這就是我們今天看到的所有進(jìn)步的驅(qū)動(dòng)力 —— 在龐大的數(shù)據(jù)集上訓(xùn)練的超大型神經(jīng)網(wǎng)絡(luò)。」 - Ilya Sutskever
Scaling Law 的發(fā)現(xiàn)成為了 LLM 研究的大部分最新進(jìn)展的催化劑。為了獲得更好的結(jié)果,我們只是在更大(更好?。┑臄?shù)據(jù)集上訓(xùn)練越來越大的模型?;谶@一策略,OpenAI 打造了 GPT 系列模型,此外 OpenAI 之外也有很多模型。在這里,我們將更深入地解讀這一 scaling 研究的進(jìn)展 —— 最近被 Ilya Sutskever 描述為「預(yù)訓(xùn)練時(shí)代」。
GPT 系列模型:GPT、GPT-2、GPT-3 和 GPT-4
LLM Scaling Law 最廣為人知和最明顯的應(yīng)用是 OpenAI 打造的 GPT 系列模型。我們將主要關(guān)注該系列中早期的開放模型 —— 直到 GPT-3—— 因?yàn)椋?/span>
這些模型的細(xì)節(jié)更公開。
除了 scaling 預(yù)訓(xùn)練過程外,后期的模型還極大受益于后訓(xùn)練研究。
我們還將介紹一些已知的 scaling 結(jié)果,如 GPT-4。
(來自 [2])
最早的 GPT 模型 [2] 實(shí)際上非常小 — 總共 12 層和 117M 個(gè)參數(shù)。該模型首先在 BooksCorpus 上進(jìn)行預(yù)訓(xùn)練,BooksCorpus 是一個(gè)包含約 7000 本書原始文本的數(shù)據(jù)集。然后,使用監(jiān)督訓(xùn)練目標(biāo)并為每個(gè)任務(wù)創(chuàng)建單獨(dú)的分類頭來微調(diào)模型以解決各種不同的下游任務(wù);見上文。這篇論文是第一批對(duì)僅解碼器 Transformer 進(jìn)行大規(guī)模自監(jiān)督預(yù)訓(xùn)練的論文之一,其中得到了一些有趣的發(fā)現(xiàn):
對(duì)純文本進(jìn)行自監(jiān)督預(yù)訓(xùn)練非常有效。
使用長而連續(xù)的文本跨度進(jìn)行預(yù)訓(xùn)練非常重要。
以這種方式進(jìn)行預(yù)訓(xùn)練后,可以對(duì)單個(gè)模型進(jìn)行微調(diào),使其能以最領(lǐng)先的準(zhǔn)確度解決各種不同的任務(wù)。
總體而言,GPT 并不是一個(gè)特別值得關(guān)注的模型,但它奠定了一些重要的基礎(chǔ)(即僅解碼器 Transformer 和自監(jiān)督預(yù)訓(xùn)練)。
(來自 [3])
GPT-2 [3] 誕生在 GPT 之后不久,是多個(gè)模型的集合,其中最大的有 1.5B 參數(shù);如上所示。這些模型與 GPT 模型具有相同的架構(gòu),并使用相同的自監(jiān)督語言建模目標(biāo)進(jìn)行預(yù)訓(xùn)練。然而,與 GPT 相比,GPT-2 對(duì)預(yù)訓(xùn)練過程進(jìn)行了兩大改變:
預(yù)訓(xùn)練數(shù)據(jù)集改成了 WebText,它比 BooksCorpus 大得多,并且是通過從互聯(lián)網(wǎng)上抓取數(shù)據(jù)創(chuàng)建的。
這些模型沒有針對(duì)下游任務(wù)進(jìn)行微調(diào)。相反,是通過使用預(yù)訓(xùn)練模型執(zhí)行零樣本推理來解決任務(wù)。
GPT-2 模型在大多數(shù)基準(zhǔn)測(cè)試上都達(dá)不到最先進(jìn)的性能,但它們的性能會(huì)隨著模型的大小而不斷提高 —— 擴(kuò)大模型參數(shù)的數(shù)量會(huì)帶來明顯的好處;如下所示。
(來自 [3])
[3] 的作者還透露,盡管 GPT-2 模型取得了很亮眼的結(jié)果,但似乎仍然沒有擬合 WebText 語料庫?;谶@一發(fā)現(xiàn)可以推斷,繼續(xù) scaling LLM 預(yù)訓(xùn)練(無論是模型還是數(shù)據(jù)大?。?yīng)該是有益的。盡管 GPT-2 模型并不是特別強(qiáng)大,但這些模型所呈現(xiàn)的分析為「繼續(xù) scaling 并最終達(dá)到 AI 研究的轉(zhuǎn)折點(diǎn)」提供了所需的信心。
「具有足夠體量的語言模型將開始學(xué)習(xí)推斷和執(zhí)行自然語言序列中演示的任務(wù),以便更好地預(yù)測(cè)它們,無論它們的方法如何?!?- 來自 [3]
GPT-3 [4] 是 AI 研究的一個(gè)分水嶺,它明確證實(shí)了大規(guī)模預(yù)訓(xùn)練對(duì) LLM 的好處。該模型有超過 1750 億個(gè)參數(shù),比最大的 GPT-2 模型大 100 多倍;如下所示。
(來自 [4])
同樣,GPT-3 使用的僅解碼器模型架構(gòu)與之前的模型非常相似,但預(yù)訓(xùn)練卻是基于 CommonCrawl 的更大數(shù)據(jù)集。這個(gè)數(shù)據(jù)集比之前的 WebText 數(shù)據(jù)集大約大 10 倍,[4] 中的作者將更大的預(yù)訓(xùn)練數(shù)據(jù)集與其他幾個(gè)預(yù)訓(xùn)練數(shù)據(jù)源相結(jié)合,創(chuàng)建了不同語料庫的混合;如下所示。
(來自 [4])
[4] 中的 GPT-3 主要通過使用少樣本學(xué)習(xí)方法進(jìn)行評(píng)估。少樣本提示(GPT-3 使用)、零樣本提示(GPT-2 使用)和微調(diào)(GPT 使用)之間的差異如下所示。
(來自 [4])
少樣本學(xué)習(xí)是一種新范式:LLM 學(xué)習(xí)如何根據(jù)放置在其上下文窗口內(nèi)的示例執(zhí)行任務(wù)。[4] 中的作者將此概念稱為「上下文學(xué)習(xí)(in-context learning)」。在這種情況下,LLM 實(shí)際上并沒有「學(xué)習(xí)」—— 模型的權(quán)重根本沒有更新。相反,模型輸入中的示例被用作上下文,以生成更準(zhǔn)確的輸出。在 [4] 中可以看到,GPT-3 是一個(gè)能力很強(qiáng)的少樣本學(xué)習(xí)器,似乎表明上下文學(xué)習(xí)是較大模型的一種涌現(xiàn)能力;如下所示。
(來自 [4])
當(dāng)在各種語言理解任務(wù)上評(píng)估 GPT-3 時(shí),研究者發(fā)現(xiàn)使用較大的模型時(shí),可顯著提高少樣本學(xué)習(xí)的性能,如下圖所示。與較小的模型相比,較大的模型可以更好、更有效地利用其上下文窗口中的信息。GPT-3 能夠通過少樣本學(xué)習(xí)在多個(gè)任務(wù)上超越 SOTA,并且模型的性能隨著規(guī)模的擴(kuò)大還能平穩(wěn)提升。
(來自 [4])
單個(gè)模型能夠在如此多的任務(wù)中表現(xiàn)如此出色,這一事實(shí)在當(dāng)時(shí)震撼了很多人。解決這些任務(wù)時(shí),不需要對(duì)底層模型進(jìn)行任何微調(diào)或更改 —— 只需要調(diào)整模型的提示詞。GPT-3 是最早發(fā)布的真正基礎(chǔ)模型之一。該模型開創(chuàng)了 AI 研究的下一個(gè)時(shí)代,并引入了一種與 LLM 交互(即提示詞)的全新直觀范式。
超越 GPT-3。GPT-3 的出色表現(xiàn)引發(fā)了人們對(duì) LLM 研究的極大興趣。這些興趣主要集中在大規(guī)模預(yù)訓(xùn)練上。OpenAI 發(fā)布的接下來幾個(gè)模型 ——InstructGPT [8]、ChatGPT 和 GPT-4 [5]—— 結(jié)合了大規(guī)模預(yù)訓(xùn)練和新的后訓(xùn)練技術(shù)(即監(jiān)督微調(diào)和 RLHF),大大提高了 LLM 質(zhì)量。這些模型非常吸引眼球,甚至引爆了公眾對(duì) AI 研究的興趣。
「GPT-4 是一個(gè)基于 Transformer 的模型,經(jīng)過預(yù)訓(xùn)練可以預(yù)測(cè)文檔中的下一個(gè) Token 。訓(xùn)練后的對(duì)齊過程可提高事實(shí)性和遵守期望行為的衡量標(biāo)準(zhǔn)?!?- 來自 [5]
自那以后,OpenAI 開始更少發(fā)布研究細(xì)節(jié)。相反,新模型只是通過他們的 API 發(fā)布,這使得公眾無法了解這些模型是如何創(chuàng)建的。幸運(yùn)的是,可以從 OpenAI 發(fā)布的材料中收集到一些有用的信息。例如,ChatGPT 的前身 InstructGPT [8] 有一篇相關(guān)論文,詳細(xì)記錄了該模型的后訓(xùn)練策略;如下所示。鑒于該論文還指出 GPT-3 是 InstructGPT 的基礎(chǔ)模型,我們可以合理地推斷,該模型的性能提升與 scaling 預(yù)訓(xùn)練過程基本無關(guān)。
(來自 [8])
與 ChatGPT 相比,GPT-4 的功能有了明顯的提升。然而,研究者只是選擇性地分享 GPT-4 的極少技術(shù)細(xì)節(jié)。GPT-4 的技術(shù)報(bào)告 [5] 只是告訴我們:
GPT-4 是基于 Transformer 的。
該模型使用了下一個(gè) token 預(yù)測(cè)進(jìn)行預(yù)訓(xùn)練。
使用公開和授權(quán)的第三方數(shù)據(jù)。
該模型通過 RLHF 進(jìn)行了微調(diào)。
盡管如此,scaling 的重要性在這份技術(shù)報(bào)告中也非常明顯。作者指出,這項(xiàng)工作的一個(gè)關(guān)鍵挑戰(zhàn)是開發(fā)一種可 scaling 的訓(xùn)練架構(gòu),該架構(gòu)在不同規(guī)模上的行為可預(yù)測(cè),從而可以基于較小規(guī)模的運(yùn)行結(jié)果進(jìn)行外推,以提供對(duì)更大規(guī)模(且成本更高?。┯?xùn)練實(shí)踐的信心。
「經(jīng)過適當(dāng)訓(xùn)練的大型語言模型的最終損失…… 可通過用于訓(xùn)練模型的計(jì)算量的冪律近似?!?- 來自 [5]
大規(guī)模預(yù)訓(xùn)練成本非常高,因此研究者通常只有一次機(jī)會(huì)來做對(duì) —— 根本沒有針對(duì)具體模型調(diào)整的空間。Scaling Law 在此過程中起著關(guān)鍵作用。研究者可以使用少成千上萬倍的計(jì)算量來訓(xùn)練模型,并使用這些結(jié)果來擬合冪律。然后,這些冪律可用于預(yù)測(cè)更大模型的性能。特別是,研究者在 [8] 中看到,可使用衡量計(jì)算和測(cè)試損失之間關(guān)系的冪律來預(yù)測(cè) GPT-4 的性能;如下所示。
用于訓(xùn)練 GPT-4 的 Scaling Law 公式(來自 [5])
此表達(dá)式看起來與我們之前看到的幾乎相同,但它增加了一個(gè)不可約損失項(xiàng),以解釋 LLM 的測(cè)試損失可能永遠(yuǎn)不會(huì)達(dá)到零的事實(shí)。一旦擬合,Scaling Law 就可用來以非常高的準(zhǔn)確度預(yù)測(cè) GPT-4 的最終性能;請(qǐng)參見下面的描述。在這里,我們應(yīng)該注意,該圖沒有使用對(duì)數(shù)尺度,可以看到損失的改善隨著計(jì)算量的增加而明顯開始衰減!
(來自 [5])
[5] 中的作者還指出,測(cè)試損失不是一個(gè)容易解釋的指標(biāo),他們也嘗試了預(yù)測(cè)各種其他性能指標(biāo)。例如,Scaling Law 適合預(yù)測(cè) LLM 在 HumanEval 編碼基準(zhǔn)上的通過率。首先,根據(jù) HumanEval 中的問題的難度將其分成幾類。然后,Scaling Law 適合預(yù)測(cè) LLM 的通過率。研究者在 [5] 中看到,基于所需計(jì)算量少 1000 倍的實(shí)驗(yàn),使用這種方法可以在 HumanEval 上準(zhǔn)確預(yù)測(cè) GPT-4 的通過率;如下所示。
(來自 [5])
如我們所見,scaling 預(yù)訓(xùn)練過程很有價(jià)值。然而,大規(guī)模預(yù)訓(xùn)練也成本非常高。Scaling Law 使這個(gè)過程更可預(yù)測(cè),使研究者能夠避免不必要或過多的計(jì)算成本。
Chinchilla:訓(xùn)練計(jì)算最優(yōu)的大型語言模型
(來自 [9])
在 [1] 中,作者認(rèn)為在 scaling LLM 預(yù)訓(xùn)練時(shí),模型大小的增加速度要快于數(shù)據(jù)集的大小。然而,GPT-3 之后的大多數(shù)預(yù)訓(xùn)練研究表明研究者應(yīng)該做相反的事情。研究者訓(xùn)練的模型明顯大于 GPT-3—— 例如 530B 參數(shù) MT-NLG [9] 模型 —— 但用于訓(xùn)練這些模型的數(shù)據(jù)集的大小與 GPT-3 相似;如上所示。這些模型并沒有在 GPT-3 之上實(shí)現(xiàn)性能提升,而使用更多參數(shù)和更多數(shù)據(jù)組合的模型(例如 Gopher [10])表現(xiàn)要好得多;如下所示。
(來自 [10])
計(jì)算最優(yōu)的 Scaling Law。受這些觀察的啟發(fā),[6] 的作者完全重新考慮了 [1] 中最初提出的 Scaling Law 的最佳實(shí)踐。[6] 中的 Scaling Law 分析是使用更大的模型進(jìn)行的,得出的結(jié)果與以前略有不同。更具體地說,使用大小從 70M 到 17B 參數(shù)的 LLM,在大小超過一萬億個(gè) token 的數(shù)據(jù)集上進(jìn)行訓(xùn)練;如下所示。
(來自 [10])
通過使用許多不同的模型和數(shù)據(jù)大小組合訓(xùn)練 LLM,我們可以發(fā)現(xiàn)一個(gè)冪律,該冪律可以根據(jù)這些因素預(yù)測(cè) LLM 的測(cè)試損失。
根據(jù)這些冪律,研究者可以確定哪種訓(xùn)練設(shè)置最適合給定的計(jì)算預(yù)算。[6] 的作者認(rèn)為,計(jì)算最優(yōu)的訓(xùn)練應(yīng)該按比例 scaling 模型和數(shù)據(jù)大小。這一發(fā)現(xiàn)表明,大多數(shù) LLM 都訓(xùn)練不足,無法擬合其規(guī)模 —— 使用大量數(shù)據(jù)訓(xùn)練現(xiàn)有的 LLM 將對(duì)研究者大有裨益。例如,[6] 中擬合的 Scaling Law Gopher 應(yīng)該使用再大 20 倍的數(shù)據(jù)集進(jìn)行訓(xùn)練!
「預(yù)計(jì)所需的訓(xùn)練數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超出了目前用于訓(xùn)練大型模型的數(shù)據(jù)量?!?- 來自 [6]
Chinchilla。[6] 中提供的分析強(qiáng)調(diào)了數(shù)據(jù)規(guī)模的重要性。大型模型需要使用更多數(shù)據(jù)進(jìn)行訓(xùn)練才能達(dá)到最佳性能。為了驗(yàn)證這一發(fā)現(xiàn),作者訓(xùn)練了一個(gè) 700 億參數(shù)的 LLM,稱為 Chinchilla。與之前的模型相比,Chinchilla 較小,但擁有更大的預(yù)訓(xùn)練數(shù)據(jù)集 —— 總共 1.4T 個(gè)訓(xùn)練 token。Chinchilla 使用與 Gopher [10] 相同的數(shù)據(jù)和評(píng)估策略。盡管比 Gopher 小 4 倍,但 Chinchilla 的表現(xiàn)始終優(yōu)于更大的模型;如下所示。
(來自 [6])
Chinchilla [6] 提出的 Scaling Law 在此后多年成為 AI 研究的標(biāo)準(zhǔn)。「Chinchilla-optimal」現(xiàn)在是一個(gè)常用術(shù)語。即使在今天,在發(fā)表了各種各樣的其他 scaling 研究之后,Chinchilla 及其相關(guān)的 Scaling Law 仍不斷被提及。
Scaling Law 最近成為 AI 研究中的一個(gè)熱門(且有爭議)話題。正如我們?cè)谇拔闹兴吹降?,在整個(gè)預(yù)訓(xùn)練時(shí)代,scaling 推動(dòng)了 AI 的大部分進(jìn)步。然而,隨著 2024 年下半年模型發(fā)布和改進(jìn)的速度放緩,我們開始看到對(duì)模型 scaling 的廣泛質(zhì)疑,這似乎表明 AI 研究(尤其是 Scaling Law)可能會(huì)遇到瓶頸。
路透社稱,OpenAI 正在改變其產(chǎn)品戰(zhàn)略,因?yàn)槠湓?scaling 當(dāng)前方法方面遇到了瓶頸。
The Information 稱,GPT 模型的改進(jìn)速度開始放緩。
彭博社強(qiáng)調(diào)了幾個(gè)前沿實(shí)驗(yàn)室在嘗試構(gòu)建更強(qiáng)大的 AI 時(shí)面臨的困難。
TechCrunch 稱,scaling 開始產(chǎn)生收益遞減。
《時(shí)代》雜志發(fā)表了一篇細(xì)致入微的文章,強(qiáng)調(diào)了導(dǎo)致 AI 研究放緩的各種因素。
Ilya Sutskever 在 NeurIPS’24 的獲獎(jiǎng)演講中表示,「我們所知的預(yù)訓(xùn)練將會(huì)終結(jié)」。
與此同時(shí),許多專家則持相反觀點(diǎn)。例如,Dario Amodei(Anthropic CEO)表示,scaling「可能……會(huì)繼續(xù)」,而 Sam Altman 則堅(jiān)持「沒有墻」。本文將通過提供 scaling 的當(dāng)前狀態(tài)和可能存在的各種問題的合理解釋,為這一討論增添更多色彩。
scaling 變慢:這是什么意思?為什么會(huì)發(fā)生這種情況?
「這兩種說法都可能是真的:scaling 在技術(shù)層面上仍然有效。針對(duì)用戶的進(jìn)步速度正在放緩?!?- Nathan Lambert
那么……scaling 速度正在放緩嗎?答案很復(fù)雜,并且高度依賴于研究者對(duì)「放緩」的確切定義。到目前為止,我看到的對(duì)這個(gè)問題最合理的回答是:兩個(gè)答案都是正確的。
因此,本文不會(huì)嘗試回答這個(gè)問題。本文將更深入地介紹相關(guān)研究,以便研究者能夠?qū)?LLM 的當(dāng)前(和未來)scaling 建立更細(xì)節(jié)的理解。
Scaling Law 能告訴我們什么?首先,研究者需要回顧一下 Scaling Law 的技術(shù)定義。Scaling Law 基于冪律定義了訓(xùn)練計(jì)算量(或模型 / 數(shù)據(jù)集大?。┡c LLM 的測(cè)試損失之間的關(guān)系。然而,這種關(guān)系的性質(zhì)常常被誤解。通過對(duì)數(shù)增加計(jì)算來獲得指數(shù)級(jí)性能改進(jìn)的想法是一個(gè)神話。Scaling Law 看起來更像是指數(shù)衰減,這意味著隨著時(shí)間的推移,研究者必須更加努力才能獲得進(jìn)一步的性能改進(jìn);如下所示。
(來自 [5])
換句話說,Scaling Law 會(huì)隨著時(shí)間的推移自然地趨平。這樣一來,研究者目前經(jīng)歷的「放緩」可以說是 LLM Scaling Law 的預(yù)期部分。
「實(shí)踐者經(jīng)常使用下游基準(zhǔn)準(zhǔn)確度作為模型質(zhì)量的代理指標(biāo),而不是在困惑度評(píng)估集上的損失?!?- 來自 [7]
定義性能。研究者如何衡量 LLM 是否在改進(jìn)?從 Scaling Law 的角度來看,LLM 性能通常通過預(yù)訓(xùn)練期間模型的測(cè)試損失來衡量,但較低的測(cè)試損失對(duì) LLM 能力的影響尚不清楚。較低的損失會(huì)導(dǎo)致下游任務(wù)的準(zhǔn)確性更高嗎?較低的損失會(huì)導(dǎo)致 LLM 獲得新功能嗎?Scaling Law 暗含的東西和我們真正關(guān)心的東西之間存在脫節(jié):
Scaling Law 告訴我們,增加預(yù)訓(xùn)練的規(guī)模將平穩(wěn)地降低 LLM 的測(cè)試損失。
我們真正關(guān)心的是獲得「更好」的 LLM。
根據(jù)你的身份,你對(duì)新 AI 系統(tǒng)的期望 —— 以及用來評(píng)估這些新系統(tǒng)的方法 —— 將有很大的不同。普通 AI 用戶往往專注于一般的聊天應(yīng)用程序,而實(shí)踐型研究者通常關(guān)心 LLM 在下游任務(wù)上的表現(xiàn)。相比之下,頂級(jí)前沿實(shí)驗(yàn)室的研究者似乎對(duì) AI 系統(tǒng)抱有很高的(而且非常特殊的)期望;例如,撰寫博士論文或解決高級(jí)數(shù)學(xué)推理問題。鑒于 LLM 具有如此廣泛的能力,評(píng)估是很困難的,而且研究者可以從許多角度來看待 LLM 的表現(xiàn);如下所示。
(來自 [15])
鑒于對(duì)模型的期望存在巨大差異,提供 scaling「有效」的確鑿證據(jù)注定會(huì)有很大爭議。研究者需要對(duì) Scaling Law 的成功做出更具體的定義。如果科學(xué)告訴我們更大的模型將實(shí)現(xiàn)更低的損失,這并不意味著新模型將滿足所有人的期望。未能實(shí)現(xiàn) AGI 或超越頂級(jí)人類數(shù)學(xué)家的能力并不能證明 scaling 在技術(shù)層面上仍然不起作用!換句話說,人們可以爭辯說,scaling 的「放緩」是一個(gè)感知和期望問題,而不是與 Scaling Law 相關(guān)的技術(shù)問題。
數(shù)據(jù)死亡。為了 scaling LLM 預(yù)訓(xùn)練,研究者必須同時(shí)增加模型和數(shù)據(jù)集的大小。早期的研究 [1] 似乎表明數(shù)據(jù)量并不像模型大小那么重要,但研究者在 Chinchilla [6] 中看到數(shù)據(jù)集大小同樣重要。此外,最近的研究表明,大多數(shù)研究人員更喜歡「過度訓(xùn)練」他們的模型 —— 或者在超出 Chinchilla 最優(yōu)大小的數(shù)據(jù)集上對(duì)它們進(jìn)行預(yù)訓(xùn)練 —— 以節(jié)省推理成本 [7]。
「scaling 研究通常側(cè)重于計(jì)算最優(yōu)的訓(xùn)練方案…… 由于較大的模型在推理時(shí)成本更高,因此現(xiàn)在對(duì)較小的模型進(jìn)行過度訓(xùn)練是一種常見的做法?!?- 來自 [7]
所有這些研究都給研究者帶來了一個(gè)簡單的結(jié)論 ——scaling LLM 預(yù)訓(xùn)練將需要研究者創(chuàng)建更大的預(yù)訓(xùn)練數(shù)據(jù)集。這一事實(shí)構(gòu)成了對(duì) LLM Scaling Law 的主要批評(píng)之一的基礎(chǔ)。許多研究者認(rèn)為,可能沒有足夠的數(shù)據(jù)來繼續(xù) scaling 預(yù)訓(xùn)練過程。作為背景,當(dāng)前 LLM 使用的絕大多數(shù)預(yù)訓(xùn)練數(shù)據(jù)是通過網(wǎng)絡(luò)抓取獲得的;如下所示。鑒于研究者只有一個(gè)互聯(lián)網(wǎng),找到全新的大規(guī)模高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)來源可能會(huì)很困難。
甚至 Ilya Sutskever 最近也提出了這一論點(diǎn),聲稱 i) 計(jì)算正在快速增長,但 ii) 由于依賴網(wǎng)絡(luò)抓取,數(shù)據(jù)沒有增長。因此,他認(rèn)為研究者不能永遠(yuǎn) scaling 預(yù)訓(xùn)練過程。我們所知的預(yù)訓(xùn)練將會(huì)終結(jié),我們必須為 AI 研究找到新的進(jìn)步途徑。換句話說,「我們已經(jīng)實(shí)現(xiàn)了峰值數(shù)據(jù)」。
預(yù)訓(xùn)練的下一代規(guī)模
scaling 最終會(huì)收益遞減,以數(shù)據(jù)為中心反對(duì)繼續(xù) scaling 的論點(diǎn)既合理又令人信服。然而,仍有幾個(gè)研究方向可以改進(jìn)預(yù)訓(xùn)練過程。
合成數(shù)據(jù)。為了將預(yù)訓(xùn)練過程 scaling 幾個(gè)數(shù)量級(jí),研究者可能需要依賴合成生成的數(shù)據(jù)。盡管人們擔(dān)心過度依賴合成數(shù)據(jù)會(huì)導(dǎo)致多樣性問題 [14],但我們可以看到合成數(shù)據(jù)的使用有所增加,而且似乎取得了成功 [12]。此外,課程學(xué)習(xí) [13] 和持續(xù)的預(yù)訓(xùn)練策略通過調(diào)整預(yù)訓(xùn)練數(shù)據(jù)帶來了多種有意義的改進(jìn);例如,在預(yù)訓(xùn)練結(jié)束時(shí)更改數(shù)據(jù)混合或添加指令數(shù)據(jù)。
(來自 [7])
實(shí)踐型 Scaling Law。最近的研究試圖解決基于測(cè)試損失的 Scaling Law 的局限性。例如,[7] 中的作者定義的 Scaling Law 可用于預(yù)測(cè) LLM 在 LLM Foundry 下游基準(zhǔn)測(cè)試中的表現(xiàn);如上所示。對(duì)人類來說,解釋這些指標(biāo)要容易得多。研究者可能不知道測(cè)試損失減少 5% 意味著什么,但在研究者感興趣的基準(zhǔn)測(cè)試中從 85% 到 90% 的準(zhǔn)確率通常很容易理解。其他幾項(xiàng)研究也探討了使用 Scaling Law 來提供更實(shí)用、更有意義的 LLM 性能估計(jì)的想法;例如,在訓(xùn)練后和量化 [16] 之后或在預(yù)訓(xùn)練過程中 [17]。
DeepSeek-v3。盡管最近對(duì) Scaling Law 的爭議頗多,但我們?nèi)匀豢吹搅送ㄟ^ scaling LLM 預(yù)訓(xùn)練過程而取得的進(jìn)步。例如,最近發(fā)布的 DeepSeek-v3 [18]—— 一個(gè) 671B 參數(shù)的混合專家 (MoE) 模型。除了開源之外,該模型還在 14.8T 文本 token 上進(jìn)行了預(yù)訓(xùn)練,并超越了 GPT-4o 和 Claude-3.5-Sonnet 的性能;請(qǐng)參閱下圖了解模型的性能。作為參考,LLaMA-3 模型是在超過 15T 的原始文本數(shù)據(jù)上進(jìn)行訓(xùn)練的。
(來自 [18])
能夠超越 GPT-4o 等模型對(duì)于開放權(quán)重 LLM 來說是一個(gè)重大飛躍 —— 即使是最大的 LLaMA 模型也未能達(dá)到這一目標(biāo). DeepSeek-v3 采用了許多有趣的技巧:
基于 DeepSeek-v2 的優(yōu)化版 MoE 架構(gòu)。
用于平衡 MoE 負(fù)載的新型無輔助損失策略。
多 token 預(yù)測(cè)訓(xùn)練目標(biāo)。
從長思維鏈模型(類似于 OpenAI o1)中蒸餾推理能力。
該模型還經(jīng)過了后訓(xùn)練,包括監(jiān)督微調(diào)和 RLHF,以使其符合人類偏好。
「我們?cè)?14.8T 高質(zhì)量和多樣化的 token 上訓(xùn)練 DeepSeek-V3。預(yù)訓(xùn)練過程非常穩(wěn)定。在整個(gè)訓(xùn)練過程中,我們沒有遇到任何無法挽回的損失峰值或不得不回滾?!?- 來自 [8]
然而,DeepSeek-v3 令人印象深刻的表現(xiàn)的最大關(guān)鍵是預(yù)訓(xùn)練規(guī)模 —— 這是一個(gè)在同樣龐大的數(shù)據(jù)集上訓(xùn)練的龐大模型!由于各種原因(例如 GPU 故障和損失峰值),訓(xùn)練如此大的模型很困難。DeepSeek-v3 具有令人驚訝的穩(wěn)定預(yù)訓(xùn)練過程,并且訓(xùn)練成本以 LLM 標(biāo)準(zhǔn)來說也很低;如下所示。這些結(jié)果表明,隨著時(shí)間的推移,更大規(guī)模的預(yù)訓(xùn)練會(huì)變得更易于管理和更高效。
(來自 [18])
將規(guī)模增大一個(gè)數(shù)據(jù)集。要繼續(xù)測(cè)試 Scaling Law,我們必須訓(xùn)練比當(dāng)前模型高幾個(gè)數(shù)量級(jí)的 LLM。拋開對(duì) scaling 效用的看法,仍然存在各種限制阻礙這種規(guī)模的模型訓(xùn)練。研究者需要:
更大的計(jì)算集群。
更多(和更好的)硬件。
大量電力。
新算法(例如,用于更大規(guī)模分布式訓(xùn)練的算法,可能跨越多個(gè)數(shù)據(jù)中心)。
訓(xùn)練下一代模型不僅僅要確保獲得更多用于購買 GPU 的資金,它是一項(xiàng)多學(xué)科的工程壯舉。如此復(fù)雜的事情需要時(shí)間。作為參考,GPT-4 于 2023 年 3 月發(fā)布,距離 GPT-3 發(fā)布已近三年(具體為 33 個(gè)月)??梢院侠淼仡A(yù)期,解鎖另一個(gè) 10-100 倍規(guī)模增長的時(shí)間線(如果不是更長的話)也差不多。
「在 scaling 的每一個(gè)數(shù)量級(jí),都必須找到不同的創(chuàng)新?!埂?Ege Erdil(Epoch AI)
現(xiàn)在我們更深入地了解了預(yù)訓(xùn)練的 scaling 狀態(tài),讓我們假設(shè)(純粹出于討論目的)預(yù)訓(xùn)練研究將突然遇到障礙。即使模型能力不久后就無法繼續(xù)進(jìn)步,AI 研究仍可以通過多種方式繼續(xù)快速發(fā)展。我們已經(jīng)討論過其中一些主題(例如合成數(shù)據(jù))。在本節(jié)中,我們將特別關(guān)注當(dāng)前流行的兩個(gè)主題:
LLM 系統(tǒng)/智能體。
推理模型。
構(gòu)建有用的 LLM 系統(tǒng)
當(dāng)今大多數(shù)基于 LLM 的應(yīng)用都采用了單一模型范式。換句話說,我們?cè)诮鉀Q任務(wù)時(shí),會(huì)將任務(wù)傳遞給單個(gè) LLM 并直接使用該模型的輸出作為答案;如下所示。
如果我們想改進(jìn)這樣的系統(tǒng)(即以更高的準(zhǔn)確度解決更困難的任務(wù)),我們可以簡單地改進(jìn)底層模型的功能,但這種方法依賴于更強(qiáng)大的模型。相反,我們可以超越單一模型范式,構(gòu)建一個(gè)基于 LLM 的系統(tǒng),其可組合多個(gè) LLM 或其他組件來解決復(fù)雜任務(wù)。
LLM 系統(tǒng)基礎(chǔ)。LLM 系統(tǒng)的目標(biāo)是將復(fù)雜任務(wù)分解成更小的部分,這些部分對(duì) LLM 或其他模塊來說更容易解決。我們可以使用兩種主要策略來實(shí)現(xiàn)這個(gè)目標(biāo):
任務(wù)分解:將任務(wù)本身分解成更小的子任務(wù),這些子任務(wù)可以單獨(dú)解決,然后匯總形成最終答案。
鏈?zhǔn)教幚恚和ㄟ^對(duì) LLM 進(jìn)行多次順序調(diào)用而不是單次調(diào)用來解決任務(wù)或子任務(wù)。
這些策略可以單獨(dú)使用或結(jié)合使用。例如,假設(shè)我們要構(gòu)建一個(gè)用于總結(jié)書籍的系統(tǒng)。為此,我們可以首先將任務(wù)分解成總結(jié)書中的每一章。然后我們可以:
將任務(wù)進(jìn)一步分解成更小的文本塊來總結(jié) (即類似于遞歸 / 層次分解)。
將多個(gè) LLM 調(diào)用鏈接在一起;例如,讓一個(gè) LLM 提取章節(jié)中所有重要的事實(shí)或信息,然后另一個(gè) LLM 基于這些關(guān)鍵事實(shí)生成章節(jié)總結(jié)。
然后,我們可以通過讓 LLM 對(duì)連接的章節(jié)總結(jié)進(jìn)行總結(jié)來匯總這些結(jié)果,從而形成完整小說的總結(jié)。大多數(shù)復(fù)雜任務(wù)都可以分解成容易解決的簡單部分,這使得這樣的 LLM 系統(tǒng)非常強(qiáng)大。隨著我們進(jìn)行更廣泛的分解和鏈接,這些系統(tǒng)可以變得非常復(fù)雜,使其成為應(yīng)用人工智能研究的一個(gè)有趣 (且影響深遠(yuǎn)) 領(lǐng)域。
構(gòu)建基于 LLM 的產(chǎn)品。盡管 LLM 取得了成功并廣受歡迎,但 LLM 的實(shí)際 (且廣泛采用的) 用例數(shù)量仍然很少。目前 LLM 最大的用例是代碼生成和聊天,這兩者都是 LLM 相對(duì)明顯的應(yīng)用;如下所示。
考慮到 LLM 存在如此多潛在的應(yīng)用領(lǐng)域,應(yīng)用型 AI 研究的一個(gè)重要方向其實(shí)就是基于 LLM 構(gòu)建更多真正有用的產(chǎn)品。我們已經(jīng)擁有了非常強(qiáng)大的模型,但使用這些模型來構(gòu)建一個(gè)值得使用的產(chǎn)品是一個(gè)完全不同的問題。解決這個(gè)問題需要了解如何構(gòu)建可靠且強(qiáng)大的 LLM 系統(tǒng)。
(來自 [19])
智能體(Agent)。LLM 系統(tǒng)和智能體之間的界限很模糊,因?yàn)椤钢悄荏w」這個(gè)術(shù)語已在 AI 社區(qū)中被過度使用。然而,我們需要理解的關(guān)鍵概念是 LLM 系統(tǒng)可以通過多種有趣且有意義的方式進(jìn)行擴(kuò)展。例如,我們可以通過教會(huì) LLM 在解決問題時(shí)使用工具(如計(jì)算器、搜索引擎等)來增強(qiáng)它們的能力。此外,我們可以允許 LLM 執(zhí)行自己的程序甚至為我們執(zhí)行操作,例如預(yù)訂酒店或發(fā)送電子郵件??梢耘c LLM 集成的眾多模塊和工具為構(gòu)建更強(qiáng)大和更有用的 LLM 系統(tǒng)提供了無限可能。
穩(wěn)健性是構(gòu)建更強(qiáng)大的 LLM / 智能體系統(tǒng)的最大障礙之一。假設(shè)我們有一個(gè) LLM 系統(tǒng)需要調(diào)用 LLM 十次。此外,假設(shè)每次 LLM 調(diào)用的成功率為 95%,并且所有調(diào)用都需要成功才能生成正確的最終輸出。盡管該系統(tǒng)的各個(gè)組件的準(zhǔn)確率相當(dāng)高,但整個(gè)系統(tǒng)的成功率僅為 60%!
(來自 [20])
隨著我們添加更多組件,這個(gè)問題會(huì)呈指數(shù)級(jí)惡化,這限制了我們可以構(gòu)建的 LLM / 智能體系統(tǒng)的復(fù)雜性。構(gòu)建更復(fù)雜的系統(tǒng)將需要大幅提高每個(gè)系統(tǒng)組件的穩(wěn)健性。最近的研究表明,通過擴(kuò)展可以提高穩(wěn)健性。但是,我們也可以通過更好的元生成(meta-generation)算法來提高穩(wěn)健性。這些算法不是從 LLM 生成單一輸出,而是使用并行解碼、(步級(jí))驗(yàn)證、評(píng)判等方法來獲得更精煉和準(zhǔn)確的輸出。
(來自 [20])
這個(gè)研究領(lǐng)域正在快速發(fā)展,并可能成為 AI 研究進(jìn)展的關(guān)鍵驅(qū)動(dòng)力。隨著元生成算法的提升,LLM 將變得更加穩(wěn)健,我們將能夠構(gòu)建越來越復(fù)雜的 LLM / 智能體系統(tǒng)。
推理模型和新的 scaling 范式
針對(duì)早期 LLM,一個(gè)常見的批評(píng)意見是它們僅僅是記憶數(shù)據(jù),而缺乏推理能力。然而,過去幾年中,LLM 無法推理的說法已基本被推翻。從最近的研究中我們了解到,這些模型很可能一直具有內(nèi)在的推理能力,但我們需要使用正確的提示詞或訓(xùn)練方法來激發(fā)這種能力。
思維鏈(Chain of thought, CoT)提示是首批展示 LLM 推理能力的技術(shù)之一。這種方法簡單且基于提示詞。我們只需要讓 LLM 在生成實(shí)際響應(yīng)之前提供其響應(yīng)的解釋。當(dāng) LLM 生成解釋其得出響應(yīng)的步驟過程的理由時(shí),其推理能力會(huì)顯著提高。此外,這種解釋是人類可讀的,可以使模型的輸出更具可解釋性!
(來自 [22])
思維鏈的概念既通用又強(qiáng)大。實(shí)際上,思維鏈已成為提高 LLM 推理能力的關(guān)鍵概念,我們已經(jīng)看到這種技術(shù)被多種方式重新應(yīng)用:
LLM-as-a-Judge 風(fēng)格的評(píng)估模型通常會(huì)在生成最終評(píng)估結(jié)果之前提供評(píng)分理由。
已有研究者提出用于教導(dǎo)較小 / 開放 LLM 寫出更好思維鏈的監(jiān)督微調(diào)和指令調(diào)優(yōu)策略。
LLM 經(jīng)常被要求反思并批評(píng)或驗(yàn)證自己的輸出,然后基于這些信息修改輸出。
復(fù)雜推理是一個(gè)快速發(fā)展的活躍研究課題。教導(dǎo) LLM 在推理過程中納入(步級(jí))驗(yàn)證的新訓(xùn)練算法已經(jīng)展現(xiàn)出有希望的結(jié)果,隨著新的更好的訓(xùn)練策略出現(xiàn),我們可能會(huì)繼續(xù)看到改進(jìn)。
OpenAI o1 推理模型標(biāo)志著 LLM 推理能力的重大飛躍。o1 使用的推理策略在很大程度上基于思維鏈。類似于人類在回答問題前先思考,o1 會(huì)在提供回答前花時(shí)間「思考」。從實(shí)際角度來說,o1 生成的「思考」只是長長的思維鏈,模型用它們來思考問題、將問題分解成更簡單的步驟、嘗試各種解決問題的方法,甚至糾正自己的錯(cuò)誤。
「OpenAI o1 是一個(gè)使用強(qiáng)化學(xué)習(xí)訓(xùn)練的新型大型語言模型,可以執(zhí)行復(fù)雜的推理。o1 在回答之前會(huì)思考 —— 它可以在回復(fù)用戶之前產(chǎn)生一個(gè)很長的內(nèi)部思維鏈?!?- 來自 [21]
o1 的確切訓(xùn)練策略細(xì)節(jié)尚未公開。但是,我們知道 o1 是使用「大規(guī)模強(qiáng)化學(xué)習(xí)」算法進(jìn)行推理的,該算法「數(shù)據(jù)效率高」,并專注于改進(jìn)模型生成有用思維鏈的能力。根據(jù) OpenAI 研究人員的公開評(píng)論和最近關(guān)于 o1 的言論,該模型似乎是使用純強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練的,這與之前的觀點(diǎn)相矛盾,即 o1 可能在推理時(shí)使用某種形式的樹搜索。
GPT-4o 與 o1 在推理密集型任務(wù)上的比較(來自 [21])
如前所述,o1 在復(fù)雜推理任務(wù)上的表現(xiàn)令人印象深刻。o1 在幾乎所有推理密集型任務(wù)上都勝過 GPT-4o;見上文。作為 o1 推理能力的一個(gè)例子,該模型:
在 Codeforces 的競爭性編程問題中排名第 89 位。
在美國數(shù)學(xué)奧林匹克(AIME)資格賽中達(dá)到美國學(xué)生前 500 名水平。
在研究生水平的物理、生物和化學(xué)問題(GPQA)上超過人類博士生的準(zhǔn)確率。
(來自 [22])
從 o1 到 o3。o1 最有趣的方面之一是,通過在推理時(shí)使用更多計(jì)算,可以提高模型的推理能力。為了解決日益復(fù)雜的問題,模型可以簡單地生成越來越長的思路鏈;請(qǐng)參閱此處的示例。使用更多的推理時(shí)間計(jì)算來生成這些更長的思路鏈,可以平穩(wěn)提高模型的推理性能;見下文。
「我們發(fā)現(xiàn),隨著強(qiáng)化學(xué)習(xí)的增加(訓(xùn)練時(shí)間計(jì)算)和思考時(shí)間的增加(測(cè)試時(shí)間計(jì)算),o1 的性能會(huì)持續(xù)提高?!?- 來自 [22]
同樣,我們?cè)谏蠄D中看到,隨著研究者通過強(qiáng)化學(xué)習(xí)將更多計(jì)算投入到訓(xùn)練中,o1 的性能會(huì)平穩(wěn)提高。這正是創(chuàng)建 o3 推理模型所遵循的方法。OpenAI 于 2024 年底預(yù)覽了該模型的評(píng)估結(jié)果,目前公開分享的有關(guān) o3 的細(xì)節(jié)非常少。然而,鑒于該模型是在 o1 發(fā)布后不久(即三個(gè)月后)發(fā)布的,o3 很可能是 o1 的「放大版」,即使用了更多計(jì)算來做強(qiáng)化學(xué)習(xí)。
在撰寫本文時(shí),o3 模型尚未發(fā)布,但通過 scaling o1 所取得的結(jié)果令人印象深刻(在某些情況下甚至令人震驚)。o3 最吸睛的成就如下:
在 ARC-AGI 基準(zhǔn)測(cè)試中得分為 87.5%,而 GPT-4o 的準(zhǔn)確率僅為 5%。o3 是第一個(gè)在 ARC-AGI 上超過人類水平(85%)的模型。該基準(zhǔn)測(cè)試曾被稱為 AGI 的「北極星」,五年多來一直未被攻克。
在 SWE-Bench Verified 上的準(zhǔn)確率為 71.7%,在 Codeforces 的 Elo 得分為 2727,這使 o3 的水平達(dá)到了全球前 200 名參賽的人類程序員。
EpochAI 的 FrontierMath 基準(zhǔn)測(cè)試的準(zhǔn)確率為 25.2%,比之前最先進(jìn)的 2.0% 的準(zhǔn)確率有所提高。陶哲軒曾表示,此基準(zhǔn)「極其困難」,并且很可能在「至少幾年內(nèi)」都無法被 AI 系統(tǒng)解決。
OpenAI 給出了 o3 的精簡版本 o3-mini 的預(yù)覽,它的性能非常好,并且計(jì)算效率得到了顯著提升。
(來自 [21])
scaling 的新范式。閱讀完本文后,o1 和 o3 表現(xiàn)出的許多圖(見上文)可能看起來非常熟悉 —— 這些是對(duì)數(shù)尺度的圖,我們可以看到隨著計(jì)算量的增加,性能呈平滑、線性增長!換句話說,我們看到這些推理模型的性能與兩個(gè)不同數(shù)量之間存在明顯的冪律關(guān)系:
訓(xùn)練時(shí)間(強(qiáng)化學(xué)習(xí))計(jì)算。
推理時(shí)間計(jì)算。
scaling o1 式模型不同于傳統(tǒng)的 Scaling Law。這不再是擴(kuò)大預(yù)訓(xùn)練過程,而是擴(kuò)大投入到訓(xùn)練和推理后的計(jì)算量。這是一個(gè)全新的 scaling 范式,到目前為止,scaling 推理模型所取得的成果非常好。這一發(fā)現(xiàn)向我們表明,除了預(yù)訓(xùn)練之外,顯然還存在其他 scaling 途徑。隨著推理模型的出現(xiàn),我們發(fā)現(xiàn)了下一座要攀登的山峰。盡管它可能以不同的形式出現(xiàn),但 scaling 將繼續(xù)推動(dòng) AI 研究的進(jìn)步。
現(xiàn)在,我們已經(jīng)對(duì) Scaling Law 有了更清晰的認(rèn)識(shí)。我們也了解了它們對(duì) LLM 以及 AI 研究未來發(fā)展方向的影響。此外,最近對(duì) Scaling Law 也存在一些批評(píng):
Scaling Law 正在自然衰減。
對(duì) LLM 能力的期望差異很大。
大規(guī)??鐚W(xué)科工程研究的沒有想預(yù)期那么快。
這些問題是有效的,但它們都無法說明 scaling 不如預(yù)期。對(duì)大規(guī)模預(yù)訓(xùn)練的投資將(也應(yīng)該)繼續(xù),但隨著時(shí)間的推移,提升將變得越來越困難。因此,其他進(jìn)展方向(例如,智能體和推理)將變得更加重要。然而,隨著我們對(duì)這些新的研究領(lǐng)域的投資,scaling 的基本思想將繼續(xù)發(fā)揮巨大作用。問題不在于 scaling 是否會(huì)繼續(xù)。真正的問題是我們下一步將 scaling 什么。
參考文獻(xiàn)
[1] Kaplan, Jared, et al. 'Scaling laws for neural language models.' arXiv preprint arXiv:2001.08361 (2020).
[2] Radford, Alec. 'Improving language understanding by generative pre-training.' (2018).
[3] Radford, Alec, et al. 'Language models are unsupervised multitask learners.' OpenAI blog 1.8 (2019): 9.
[4] Brown, Tom, et al. 'Language models are few-shot learners.' Advances in neural information processing systems 33 (2020): 1877-1901.
[5] Achiam, Josh, et al. 'Gpt-4 technical report.' arXiv preprint arXiv:2303.08774 (2023).
[6] Hoffmann, Jordan, et al. 'Training compute-optimal large language models.' arXiv preprint arXiv:2203.15556 (2022).
[7] Gadre, Samir Yitzhak, et al. 'Language models scale reliably with over-training and on downstream tasks.' arXiv preprint arXiv:2403.08540 (2024).
[8] Ouyang, Long, et al. 'Training language models to follow instructions with human feedback.' Advances in neural information processing systems 35 (2022): 27730-27744.
[9] Smith, Shaden, et al. 'Using deepspeed and megatron to train megatron-turing nlg 530b, a large-scale generative language model.' arXiv preprint arXiv:2201.11990 (2022).
[10] Rae, Jack W., et al. 'Scaling language models: Methods, analysis & insights from training gopher.' arXiv preprint arXiv:2112.11446 (2021).
[11] Bhagia, Akshita, et al. 'Establishing Task Scaling Laws via Compute-Efficient Model Ladders.' arXiv preprint arXiv:2412.04403 (2024).
[12] Bai, Yuntao, et al. 'Constitutional ai: Harmlessness from ai feedback.' arXiv preprint arXiv:2212.08073 (2022).
[13] Blakeney, Cody, et al. 'Does your data spark joy? Performance gains from domain upsampling at the end of training.' arXiv preprint arXiv:2406.03476 (2024).
[14] Chen, Hao, et al. 'On the Diversity of Synthetic Data and its Impact on Training Large Language Models.' arXiv preprint arXiv:2410.15226 (2024).
[15] Guo, Zishan, et al. 'Evaluating large language models: A comprehensive survey.' arXiv preprint arXiv:2310.19736 (2023).
[16] Xu, Zifei, et al. 'Scaling laws for post-training quantized large language models.' arXiv preprint arXiv:2410.12119 (2024).
[17] Xiong, Yizhe, et al. 'Temporal scaling law for large language models.' arXiv preprint arXiv:2404.17785 (2024).
[18] DeepSeek-AI et al. 'DeepSeek-v3 Technical Report.' https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf (2024).
[19] Schick, Timo, et al. 'Toolformer: Language models can teach themselves to use tools.' arXiv preprint arXiv:2302.04761 (2023).
[20] Welleck, Sean, et al. 'From decoding to meta-generation: Inference-time algorithms for large language models.' arXiv preprint arXiv:2406.16838 (2024).
[21] OpenAI et al. “Learning to Reason with LLMs.” https://openai.com/index/learning-to-reason-with-llms/ (2024).
[22] Wei, Jason, et al. 'Chain-of-thought prompting elicits reasoning in large language models.' Advances in neural information processing systems 35 (2022): 24824-24837.
[23] Liu, Yang, et al. 'G-eval: Nlg evaluation using gpt-4 with better human alignment.' arXiv preprint arXiv:2303.16634 (2023).
[24] Kim, Seungone, et al. 'Prometheus: Inducing fine-grained evaluation capability in language models.' The Twelfth International Conference on Learning Representations. 2023.
[25] Ho, Namgyu, Laura Schmid, and Se-Young Yun. 'Large language models are reasoning teachers.' arXiv preprint arXiv:2212.10071 (2022).
[26] Kim, Seungone, et al. 'The cot collection: Improving zero-shot and few-shot learning of language models via chain-of-thought fine-tuning.' arXiv preprint arXiv:2305.14045 (2023).
[27] Weng, Yixuan, et al. 'Large language models are better reasoners with self-verification.' arXiv preprint arXiv:2212.09561 (2022).
[28] Lightman, Hunter, et al. 'Let's verify step by step.' arXiv preprint arXiv:2305.20050 (2023).
[29] Zhang, Lunjun, et al. 'Generative verifiers: Reward modeling as next-token prediction.' arXiv preprint arXiv:2408.15240 (2024).
聯(lián)系客服