MLNLP社區(qū)是國內(nèi)外知名的機(jī)器學(xué)習(xí)與自然語言處理社區(qū)，受眾覆蓋國內(nèi)外NLP碩博生、高校老師以及企業(yè)研究人員。

社區(qū)的愿景是促進(jìn)國內(nèi)外自然語言處理，機(jī)器學(xué)習(xí)學(xué)術(shù)界、產(chǎn)業(yè)界和廣大愛好者之間的交流和進(jìn)步，特別是初學(xué)者同學(xué)們的進(jìn)步。

來源 | Deep (Learning) Focus

編譯 | 機(jī)器之心

Scaling Law 撞墻了嗎？這算得上是近段時(shí)間 AI 領(lǐng)域最熱門的話題之一。近日，資深機(jī)器學(xué)習(xí)研究科學(xué)家 Cameron R. Wolfe 更新了一篇超長的博客文章，詳細(xì)介紹了 LLM scaling 的當(dāng)前狀況，并分享了他對(duì) AI 研究未來的看法。

原文鏈接：https://cameronrwolfe.substack.com/p/llm-scaling-laws

近些年來，AI 領(lǐng)域的大部分研究進(jìn)展（尤其是 LLM）都是基于 scaling。也就是說，只要使用更多數(shù)據(jù)訓(xùn)練更大模型，就能得到更好的結(jié)果。這種關(guān)系可以被更嚴(yán)格地定義成 Scaling Law，這是一個(gè)可以描述 LLM 的測(cè)試損失隨某個(gè)量（如訓(xùn)練計(jì)算量）的增長而降低的公式。Scaling Law 可幫助我們預(yù)測(cè)當(dāng)投入更多資源進(jìn)行更大規(guī)模訓(xùn)練時(shí)的效果，這能給我們提供繼續(xù)投資 scaling 的必要信心。

「如果你有一個(gè)龐大的數(shù)據(jù)集并且訓(xùn)練了一個(gè)非常大的神經(jīng)網(wǎng)絡(luò)，那么成功是肯定的！」——Ilya Sutskever

過去多年時(shí)間里，Scaling Law 一直指引著 AI 研究前進(jìn)的方向。事實(shí)上，像 OpenAI 這樣的早期前沿實(shí)驗(yàn)室的成功甚至可以歸功于他們對(duì) Scaling Law 的虔誠信仰。然而，最近有報(bào)道稱，頂級(jí)研究實(shí)驗(yàn)室正在努力訓(xùn)練下一代更好的 LLM。這些說法可能會(huì)讓我們懷疑：scaling 之路會(huì)撞墻嗎？如果會(huì)，還有其他前進(jìn)的道路嗎？

本文將從頭開始回答這些問題，首先是深入解釋 LLM Scaling Law 和相關(guān)研究。Scaling Law 的概念很簡單，但公眾對(duì) Scaling Law 存在各種誤解 —— 這項(xiàng)研究背后的科學(xué)實(shí)際上非常具體明確。利用對(duì) Scaling Law 的詳細(xì)理解，我們將討論 LLM 研究的最新趨勢(shì)以及導(dǎo)致 Scaling Law「停滯」的因素。最后，我們將利用這些信息更清楚地說明 AI 研究的未來，重點(diǎn)關(guān)注一些可能繼續(xù)推動(dòng)進(jìn)步的關(guān)鍵思想 —— 其中也包括 scaling。

LLM 的基礎(chǔ) scaling 概念

為了理解 LLM 的 scaling 現(xiàn)狀，我們首先需要對(duì) Scaling Law 有一個(gè)總體的了解。我們將從頭開始建立這種理解，首先是理解冪律的概念。然后，我們將探討冪律在 LLM 中的應(yīng)用研究，最終得出我們今天使用的 Scaling Law。

什么是冪律？

冪律是 LLM scaling 的基本概念。簡而言之，冪律描述了兩個(gè)量之間的關(guān)系。對(duì)于 LLM 來說，第一個(gè)量是 LLM 的測(cè)試損失（或其他一些相關(guān)的性能指標(biāo)，例如下游任務(wù)準(zhǔn)確率 [7]），另一個(gè)量是我們想要 scaling 的一些設(shè)置，例如模型參數(shù)量。例如，在研究 LLM 的 scaling 屬性時(shí)，我們可能會(huì)看到類似以下的陳述。

「有了足夠的訓(xùn)練數(shù)據(jù)，驗(yàn)證損失的 scaling 與模型大小的函數(shù)關(guān)系應(yīng)該大致上是平滑冪律?！?- 摘自 [4]

這樣的陳述告訴我們，模型的測(cè)試損失和模型參數(shù)量之間存在可測(cè)量的關(guān)系。其中一個(gè)量的變化將導(dǎo)致另一個(gè)量發(fā)生相對(duì)的、無關(guān)尺度的變化。換句話說，我們可基于這種關(guān)系了解到：增加模型參數(shù)量（假設(shè)已滿足其他條件，比如訓(xùn)練數(shù)據(jù)充足）將導(dǎo)致測(cè)試損失降低某個(gè)可預(yù)測(cè)的程度。

冪律公式?；镜膬缏煽杀硎緸橐韵鹿剑?/span>

這里研究的兩個(gè)量是 x 和 y，而 a 和 p 是描述這些量之間關(guān)系的常數(shù)。如果我們繪出這個(gè)冪律函數(shù)，我們會(huì)得到如下所示的圖。這里提供普通和對(duì)數(shù)度量的圖，因?yàn)榇蠖鄶?shù)研究 LLM scaling 的論文都使用對(duì)數(shù)度量。

x 和 y 之間的基本冪律圖

但很多時(shí)候，展示 LLM scaling 的圖看起來并不像上面的圖，而通常是上下顛倒的；請(qǐng)參閱下面的示例。

這只是逆冪律，可用如下公式表示：

逆冪律與標(biāo)準(zhǔn)冪律的公式幾乎相同，但我們通常會(huì)對(duì) p 使用負(fù)指數(shù)。使冪律的指數(shù)為負(fù)數(shù)會(huì)使圖顛倒過來；請(qǐng)參閱下面的示例。

x 和 y 之間的逆冪律圖

當(dāng)使用對(duì)數(shù)度量繪制此逆冪律時(shí)，會(huì)產(chǎn)生大多數(shù) LLM Scaling Law 特有的標(biāo)志性線性關(guān)系。本文中涵蓋的幾乎每篇論文都會(huì)通過這樣的圖來研究 Scaling Law 的各種不同的因素（例如規(guī)模、計(jì)算、數(shù)據(jù)等）對(duì) LLM 的性能的影響?，F(xiàn)在，讓我們更實(shí)際地來看看冪律，也就是看看最早的一些在 LLM scaling 語境中研究冪律的論文。

神經(jīng)語言模型的 Scaling Law

在語言模型的早期，我們還不了解規(guī)模對(duì)性能的影響。語言模型是一個(gè)很有前途的研究領(lǐng)域，但當(dāng)時(shí)的模型（例如原始 GPT）功能有限。我們尚未發(fā)現(xiàn)更大模型的力量，而創(chuàng)建更好的語言模型的途徑還不明確。模型的形狀（即層的數(shù)量和大?。┲匾獑?？使模型更大是否有助于其表現(xiàn)更好？訓(xùn)練這些更大的模型需要多少數(shù)據(jù)？

「損失隨模型大小、數(shù)據(jù)集大小和用于訓(xùn)練的計(jì)算量呈冪律變化，有些趨勢(shì)跨越了七個(gè)數(shù)量級(jí)以上。」 - 摘自 [1]

在 [1] 中，作者的目標(biāo)是通過分析多個(gè)因素（例如模型大小、模型形狀、數(shù)據(jù)集大小、訓(xùn)練計(jì)算和批大?。?duì)模型性能的影響來回答這些問題。通過此分析，我們了解到 LLM 性能會(huì)隨著以下因素的增加而平穩(wěn)提升：

模型參數(shù)的數(shù)量。
數(shù)據(jù)集的大小。
用于訓(xùn)練的計(jì)算量。

更具體地說，當(dāng)性能不受其他兩個(gè)因素的瓶頸限制時(shí)，可以觀察到這些因素中的每一個(gè)與 LLM 的測(cè)試損失之間存在冪律關(guān)系。

實(shí)驗(yàn)設(shè)置。為了擬合冪律，作者在 WebText2 語料庫的子集上預(yù)訓(xùn)練了最大 1.5B 參數(shù)的 LLM。這些子集的 token 數(shù)量從 22M 到 23B 不等。所有模型都使用固定的 1024 個(gè) token 的上下文長度和標(biāo)準(zhǔn)的下一個(gè) token 預(yù)測(cè)（交叉熵）損失進(jìn)行訓(xùn)練。在留存測(cè)試集上測(cè)量相同的損失并將其用作主要性能指標(biāo)。此設(shè)置與大多數(shù) LLM 的標(biāo)準(zhǔn)預(yù)訓(xùn)練設(shè)置相匹配。

（來自 [1]）

LLM scaling 的冪律。在 [1] 中訓(xùn)練的 LLM 的性能（就其在 WebText2 上的測(cè)試損失而言）會(huì)隨著參數(shù)、數(shù)據(jù)和計(jì)算量的增加而穩(wěn)步提高。這些趨勢(shì)在計(jì)算量方面跨越了八個(gè)數(shù)量級(jí)，在模型大小方面跨越了六個(gè)數(shù)量級(jí)，在數(shù)據(jù)集大小方面跨越了兩個(gè)數(shù)量級(jí)。上圖提供了確切的冪律關(guān)系和擬合每個(gè)冪律關(guān)系的方程。這里的每個(gè)方程都與我們之前看到的逆冪律方程非常相似。但是，我們?cè)O(shè)置 a = 1 并在括號(hào)內(nèi)添加一個(gè)額外的乘法常數(shù)。

[1] 的作者注意到一個(gè)小細(xì)節(jié)，并且這個(gè)細(xì)節(jié)對(duì)于正確擬合這些冪律是必要的。在計(jì)算模型參數(shù)的總數(shù)時(shí)，不包括位置或 token 嵌入，從而可以得到更清晰的 scaling 趨勢(shì)；如下圖所示。

（來自 [1]）

不過，只有當(dāng)訓(xùn)練不受其他因素阻礙時(shí)，這些冪律才適用。因此，為了獲得最佳性能，應(yīng)該同時(shí)增大這三個(gè)分量（模型大小、數(shù)據(jù)和計(jì)算量）。如果我們單獨(dú)增大其中任何一個(gè)分量，我們就會(huì)達(dá)到某個(gè)收益遞減點(diǎn)。

冪律意味著什么？雖然 [1] 中提供的冪律圖看起來很有希望，但我們應(yīng)該注意到這些圖是基于對(duì)數(shù)度量的。如果使用普通度量繪制，我們會(huì)得到下面的圖 —— 可以看到冪律的形狀類似于指數(shù)衰減。

考慮到網(wǎng)上關(guān)于 scaling 和 AGI 的大量言論，這樣的發(fā)現(xiàn)似乎違反直覺。在許多情況下，我們被灌輸?shù)闹庇X似乎是：隨著計(jì)算量的對(duì)數(shù)增加，LLM 的質(zhì)量呈指數(shù)級(jí)提高，但事實(shí)并非如此。實(shí)際上，隨著規(guī)模增大，提升 LLM 的質(zhì)量會(huì)變得越來越困難。

其他有用的發(fā)現(xiàn)。除了 [1] 中觀察到的冪律之外，我們還看到，研究中涉及的其他因素（例如模型形狀或架構(gòu)設(shè)置）對(duì)模型性能的影響微乎其微；見上文。規(guī)模是打造更好 LLM 的最大因素 —— 更多的數(shù)據(jù)、計(jì)算量和模型參數(shù)可以平穩(wěn)地提高 LLM 的性能。

「較大的模型具有更高的樣本效率，因此最佳的計(jì)算效率訓(xùn)練涉及在相對(duì)適量的數(shù)據(jù)上訓(xùn)練非常大的模型，并在收斂之前停止?！?- 來自 [1]

有趣的是，[1] 中的實(shí)證分析表明，較大的 LLM 往往具有更高的樣本效率，這意味著它們?cè)跀?shù)據(jù)較少的情況下可達(dá)到與較小模型相同的測(cè)試損失水平。因此，對(duì) LLM 進(jìn)行預(yù)訓(xùn)練以使其收斂（可以說）不是最優(yōu)的。相反，我們可以在較少的數(shù)據(jù)上訓(xùn)練更大的模型，在收斂之前停止訓(xùn)練過程。這種方法在訓(xùn)練計(jì)算使用量方面是最優(yōu)的，但它沒有考慮到推理成本。實(shí)際上，我們通常會(huì)在更多數(shù)據(jù)上訓(xùn)練較小的模型，因?yàn)檩^小的模型托管成本較低。

作者還廣泛分析了模型大小與用于預(yù)訓(xùn)練的數(shù)據(jù)量之間的關(guān)系，發(fā)現(xiàn)數(shù)據(jù)集的大小不需要像模型大小那樣快速增加。模型大小增加約 8 倍需要訓(xùn)練數(shù)據(jù)量增加約 5 倍才能避免過擬合。

（來自 [1]）

[1] 中發(fā)現(xiàn)的 Scaling Law 也在其他幾個(gè)數(shù)據(jù)集上得到復(fù)現(xiàn)，我們發(fā)現(xiàn)在向測(cè)試損失添加固定偏移量后，相同的 Scaling Law 仍然成立（即考慮到數(shù)據(jù)集不同）；見上文。這些結(jié)果為 LLM scaling 提供了令人信服的案例。我們通過更長時(shí)間、在更多數(shù)據(jù)上訓(xùn)練較大的模型獲得了非常明顯和可衡量的收益，這激發(fā)了人們對(duì)更大規(guī)模預(yù)訓(xùn)練 LLM 的興趣。

「這些結(jié)果表明，隨著我們適當(dāng)擴(kuò)大模型大小、數(shù)據(jù)和計(jì)算，語言建模性能會(huì)平穩(wěn)且可預(yù)測(cè)地提高。我們預(yù)計(jì)，更大的語言模型將比當(dāng)前模型表現(xiàn)更好，樣本效率更高?！?- 來自 [1]

Scaling Law 的實(shí)際用途

大規(guī)模預(yù)訓(xùn)練非常好，但這一事實(shí)卻帶來了一些困境。續(xù)為了得到最好的模型，需要大量數(shù)據(jù)進(jìn)行大規(guī)模模型訓(xùn)練。然而，這些訓(xùn)練成本很高，這意味著它們也會(huì)帶來很大的風(fēng)險(xiǎn)。如果我們花費(fèi)了 1000 萬美元，結(jié)果訓(xùn)練了一個(gè)不符合我們期望的模型，這可如何是好？考慮到預(yù)訓(xùn)練的費(fèi)用，我們無法執(zhí)行任何特定于模型的調(diào)整，我們必須確保我們訓(xùn)練的模型表現(xiàn)良好。我們需要制定一個(gè)策略來調(diào)整這些模型并預(yù)測(cè)它們的性能，同時(shí)無需花費(fèi)太多錢。

（來自 [11]）

這就是 Scaling Law 的用武之地。到目前為止，我們已經(jīng)看到了一些實(shí)證分析，這些分析是為了證明 Scaling Law 的存在而進(jìn)行的，但這些 Scaling Law 在 AI 研究中也有非常實(shí)際的用例。特別是，我們可以：

使用各種訓(xùn)練設(shè)置訓(xùn)練一堆較小的模型。
根據(jù)較小模型的性能擬合 Scaling Law。
使用 Scaling Law 推斷更大模型的性能。

當(dāng)然，這種方法有局限性。從較小的模型預(yù)測(cè)較大模型的性能很困難，而且可能不準(zhǔn)確。模型可能因規(guī)模不同而表現(xiàn)不同。然而，研究社區(qū)已經(jīng)提出了多種方法來使這更可行，Scaling Law 現(xiàn)在通常用于此目的。使用 Scaling Law 預(yù)測(cè)較大模型的性能的能力讓我們作為研究人員更有信心（和安心）。此外，Scaling Law 提供了一種簡單的方法來證明對(duì) AI 研究的投資是合理的。

scaling 和預(yù)訓(xùn)練時(shí)代

「這就是我們今天看到的所有進(jìn)步的驅(qū)動(dòng)力 —— 在龐大的數(shù)據(jù)集上訓(xùn)練的超大型神經(jīng)網(wǎng)絡(luò)。」 - Ilya Sutskever

Scaling Law 的發(fā)現(xiàn)成為了 LLM 研究的大部分最新進(jìn)展的催化劑。為了獲得更好的結(jié)果，我們只是在更大（更好?。┑臄?shù)據(jù)集上訓(xùn)練越來越大的模型?；谶@一策略，OpenAI 打造了 GPT 系列模型，此外 OpenAI 之外也有很多模型。在這里，我們將更深入地解讀這一 scaling 研究的進(jìn)展 —— 最近被 Ilya Sutskever 描述為「預(yù)訓(xùn)練時(shí)代」。

GPT 系列模型：GPT、GPT-2、GPT-3 和 GPT-4

LLM Scaling Law 最廣為人知和最明顯的應(yīng)用是 OpenAI 打造的 GPT 系列模型。我們將主要關(guān)注該系列中早期的開放模型 —— 直到 GPT-3—— 因?yàn)椋?/span>

這些模型的細(xì)節(jié)更公開。
除了 scaling 預(yù)訓(xùn)練過程外，后期的模型還極大受益于后訓(xùn)練研究。

我們還將介紹一些已知的 scaling 結(jié)果，如 GPT-4。

（來自 [2]）

最早的 GPT 模型 [2] 實(shí)際上非常小 — 總共 12 層和 117M 個(gè)參數(shù)。該模型首先在 BooksCorpus 上進(jìn)行預(yù)訓(xùn)練，BooksCorpus 是一個(gè)包含約 7000 本書原始文本的數(shù)據(jù)集。然后，使用監(jiān)督訓(xùn)練目標(biāo)并為每個(gè)任務(wù)創(chuàng)建單獨(dú)的分類頭來微調(diào)模型以解決各種不同的下游任務(wù)；見上文。這篇論文是第一批對(duì)僅解碼器 Transformer 進(jìn)行大規(guī)模自監(jiān)督預(yù)訓(xùn)練的論文之一，其中得到了一些有趣的發(fā)現(xiàn)：

對(duì)純文本進(jìn)行自監(jiān)督預(yù)訓(xùn)練非常有效。
使用長而連續(xù)的文本跨度進(jìn)行預(yù)訓(xùn)練非常重要。
以這種方式進(jìn)行預(yù)訓(xùn)練后，可以對(duì)單個(gè)模型進(jìn)行微調(diào)，使其能以最領(lǐng)先的準(zhǔn)確度解決各種不同的任務(wù)。

總體而言，GPT 并不是一個(gè)特別值得關(guān)注的模型，但它奠定了一些重要的基礎(chǔ)（即僅解碼器 Transformer 和自監(jiān)督預(yù)訓(xùn)練）。

（來自 [3]）

GPT-2 [3] 誕生在 GPT 之后不久，是多個(gè)模型的集合，其中最大的有 1.5B 參數(shù)；如上所示。這些模型與 GPT 模型具有相同的架構(gòu)，并使用相同的自監(jiān)督語言建模目標(biāo)進(jìn)行預(yù)訓(xùn)練。然而，與 GPT 相比，GPT-2 對(duì)預(yù)訓(xùn)練過程進(jìn)行了兩大改變：

預(yù)訓(xùn)練數(shù)據(jù)集改成了 WebText，它比 BooksCorpus 大得多，并且是通過從互聯(lián)網(wǎng)上抓取數(shù)據(jù)創(chuàng)建的。
這些模型沒有針對(duì)下游任務(wù)進(jìn)行微調(diào)。相反，是通過使用預(yù)訓(xùn)練模型執(zhí)行零樣本推理來解決任務(wù)。

GPT-2 模型在大多數(shù)基準(zhǔn)測(cè)試上都達(dá)不到最先進(jìn)的性能，但它們的性能會(huì)隨著模型的大小而不斷提高 —— 擴(kuò)大模型參數(shù)的數(shù)量會(huì)帶來明顯的好處；如下所示。

（來自 [3]）

[3] 的作者還透露，盡管 GPT-2 模型取得了很亮眼的結(jié)果，但似乎仍然沒有擬合 WebText 語料庫?；谶@一發(fā)現(xiàn)可以推斷，繼續(xù) scaling LLM 預(yù)訓(xùn)練（無論是模型還是數(shù)據(jù)大?。?yīng)該是有益的。盡管 GPT-2 模型并不是特別強(qiáng)大，但這些模型所呈現(xiàn)的分析為「繼續(xù) scaling 并最終達(dá)到 AI 研究的轉(zhuǎn)折點(diǎn)」提供了所需的信心。

「具有足夠體量的語言模型將開始學(xué)習(xí)推斷和執(zhí)行自然語言序列中演示的任務(wù)，以便更好地預(yù)測(cè)它們，無論它們的方法如何?！?- 來自 [3]

GPT-3 [4] 是 AI 研究的一個(gè)分水嶺，它明確證實(shí)了大規(guī)模預(yù)訓(xùn)練對(duì) LLM 的好處。該模型有超過 1750 億個(gè)參數(shù)，比最大的 GPT-2 模型大 100 多倍；如下所示。

（來自 [4]）

同樣，GPT-3 使用的僅解碼器模型架構(gòu)與之前的模型非常相似，但預(yù)訓(xùn)練卻是基于 CommonCrawl 的更大數(shù)據(jù)集。這個(gè)數(shù)據(jù)集比之前的 WebText 數(shù)據(jù)集大約大 10 倍，[4] 中的作者將更大的預(yù)訓(xùn)練數(shù)據(jù)集與其他幾個(gè)預(yù)訓(xùn)練數(shù)據(jù)源相結(jié)合，創(chuàng)建了不同語料庫的混合；如下所示。

（來自 [4]）

[4] 中的 GPT-3 主要通過使用少樣本學(xué)習(xí)方法進(jìn)行評(píng)估。少樣本提示（GPT-3 使用）、零樣本提示（GPT-2 使用）和微調(diào)（GPT 使用）之間的差異如下所示。

（來自 [4]）

少樣本學(xué)習(xí)是一種新范式：LLM 學(xué)習(xí)如何根據(jù)放置在其上下文窗口內(nèi)的示例執(zhí)行任務(wù)。[4] 中的作者將此概念稱為「上下文學(xué)習(xí)（in-context learning）」。在這種情況下，LLM 實(shí)際上并沒有「學(xué)習(xí)」—— 模型的權(quán)重根本沒有更新。相反，模型輸入中的示例被用作上下文，以生成更準(zhǔn)確的輸出。在 [4] 中可以看到，GPT-3 是一個(gè)能力很強(qiáng)的少樣本學(xué)習(xí)器，似乎表明上下文學(xué)習(xí)是較大模型的一種涌現(xiàn)能力；如下所示。

（來自 [4]）

當(dāng)在各種語言理解任務(wù)上評(píng)估 GPT-3 時(shí)，研究者發(fā)現(xiàn)使用較大的模型時(shí)，可顯著提高少樣本學(xué)習(xí)的性能，如下圖所示。與較小的模型相比，較大的模型可以更好、更有效地利用其上下文窗口中的信息。GPT-3 能夠通過少樣本學(xué)習(xí)在多個(gè)任務(wù)上超越 SOTA，并且模型的性能隨著規(guī)模的擴(kuò)大還能平穩(wěn)提升。

（來自 [4]）

單個(gè)模型能夠在如此多的任務(wù)中表現(xiàn)如此出色，這一事實(shí)在當(dāng)時(shí)震撼了很多人。解決這些任務(wù)時(shí)，不需要對(duì)底層模型進(jìn)行任何微調(diào)或更改 —— 只需要調(diào)整模型的提示詞。GPT-3 是最早發(fā)布的真正基礎(chǔ)模型之一。該模型開創(chuàng)了 AI 研究的下一個(gè)時(shí)代，并引入了一種與 LLM 交互（即提示詞）的全新直觀范式。

超越 GPT-3。GPT-3 的出色表現(xiàn)引發(fā)了人們對(duì) LLM 研究的極大興趣。這些興趣主要集中在大規(guī)模預(yù)訓(xùn)練上。OpenAI 發(fā)布的接下來幾個(gè)模型 ——InstructGPT [8]、ChatGPT 和 GPT-4 [5]—— 結(jié)合了大規(guī)模預(yù)訓(xùn)練和新的后訓(xùn)練技術(shù)（即監(jiān)督微調(diào)和 RLHF），大大提高了 LLM 質(zhì)量。這些模型非常吸引眼球，甚至引爆了公眾對(duì) AI 研究的興趣。

「GPT-4 是一個(gè)基于 Transformer 的模型，經(jīng)過預(yù)訓(xùn)練可以預(yù)測(cè)文檔中的下一個(gè) Token 。訓(xùn)練后的對(duì)齊過程可提高事實(shí)性和遵守期望行為的衡量標(biāo)準(zhǔn)?！?- 來自 [5]

自那以后，OpenAI 開始更少發(fā)布研究細(xì)節(jié)。相反，新模型只是通過他們的 API 發(fā)布，這使得公眾無法了解這些模型是如何創(chuàng)建的。幸運(yùn)的是，可以從 OpenAI 發(fā)布的材料中收集到一些有用的信息。例如，ChatGPT 的前身 InstructGPT [8] 有一篇相關(guān)論文，詳細(xì)記錄了該模型的后訓(xùn)練策略；如下所示。鑒于該論文還指出 GPT-3 是 InstructGPT 的基礎(chǔ)模型，我們可以合理地推斷，該模型的性能提升與 scaling 預(yù)訓(xùn)練過程基本無關(guān)。

（來自 [8]）

與 ChatGPT 相比，GPT-4 的功能有了明顯的提升。然而，研究者只是選擇性地分享 GPT-4 的極少技術(shù)細(xì)節(jié)。GPT-4 的技術(shù)報(bào)告 [5] 只是告訴我們：

GPT-4 是基于 Transformer 的。
該模型使用了下一個(gè) token 預(yù)測(cè)進(jìn)行預(yù)訓(xùn)練。
使用公開和授權(quán)的第三方數(shù)據(jù)。
該模型通過 RLHF 進(jìn)行了微調(diào)。

盡管如此，scaling 的重要性在這份技術(shù)報(bào)告中也非常明顯。作者指出，這項(xiàng)工作的一個(gè)關(guān)鍵挑戰(zhàn)是開發(fā)一種可 scaling 的訓(xùn)練架構(gòu)，該架構(gòu)在不同規(guī)模上的行為可預(yù)測(cè)，從而可以基于較小規(guī)模的運(yùn)行結(jié)果進(jìn)行外推，以提供對(duì)更大規(guī)模（且成本更高?。┯?xùn)練實(shí)踐的信心。

「經(jīng)過適當(dāng)訓(xùn)練的大型語言模型的最終損失…… 可通過用于訓(xùn)練模型的計(jì)算量的冪律近似?！?- 來自 [5]

大規(guī)模預(yù)訓(xùn)練成本非常高，因此研究者通常只有一次機(jī)會(huì)來做對(duì) —— 根本沒有針對(duì)具體模型調(diào)整的空間。Scaling Law 在此過程中起著關(guān)鍵作用。研究者可以使用少成千上萬倍的計(jì)算量來訓(xùn)練模型，并使用這些結(jié)果來擬合冪律。然后，這些冪律可用于預(yù)測(cè)更大模型的性能。特別是，研究者在 [8] 中看到，可使用衡量計(jì)算和測(cè)試損失之間關(guān)系的冪律來預(yù)測(cè) GPT-4 的性能；如下所示。

用于訓(xùn)練 GPT-4 的 Scaling Law 公式（來自 [5]）

此表達(dá)式看起來與我們之前看到的幾乎相同，但它增加了一個(gè)不可約損失項(xiàng)，以解釋 LLM 的測(cè)試損失可能永遠(yuǎn)不會(huì)達(dá)到零的事實(shí)。一旦擬合，Scaling Law 就可用來以非常高的準(zhǔn)確度預(yù)測(cè) GPT-4 的最終性能；請(qǐng)參見下面的描述。在這里，我們應(yīng)該注意，該圖沒有使用對(duì)數(shù)尺度，可以看到損失的改善隨著計(jì)算量的增加而明顯開始衰減！

（來自 [5]）

[5] 中的作者還指出，測(cè)試損失不是一個(gè)容易解釋的指標(biāo)，他們也嘗試了預(yù)測(cè)各種其他性能指標(biāo)。例如，Scaling Law 適合預(yù)測(cè) LLM 在 HumanEval 編碼基準(zhǔn)上的通過率。首先，根據(jù) HumanEval 中的問題的難度將其分成幾類。然后，Scaling Law 適合預(yù)測(cè) LLM 的通過率。研究者在 [5] 中看到，基于所需計(jì)算量少 1000 倍的實(shí)驗(yàn)，使用這種方法可以在 HumanEval 上準(zhǔn)確預(yù)測(cè) GPT-4 的通過率；如下所示。

（來自 [5]）

如我們所見，scaling 預(yù)訓(xùn)練過程很有價(jià)值。然而，大規(guī)模預(yù)訓(xùn)練也成本非常高。Scaling Law 使這個(gè)過程更可預(yù)測(cè)，使研究者能夠避免不必要或過多的計(jì)算成本。

Chinchilla：訓(xùn)練計(jì)算最優(yōu)的大型語言模型

（來自 [9]）

在 [1] 中，作者認(rèn)為在 scaling LLM 預(yù)訓(xùn)練時(shí)，模型大小的增加速度要快于數(shù)據(jù)集的大小。然而，GPT-3 之后的大多數(shù)預(yù)訓(xùn)練研究表明研究者應(yīng)該做相反的事情。研究者訓(xùn)練的模型明顯大于 GPT-3—— 例如 530B 參數(shù) MT-NLG [9] 模型 —— 但用于訓(xùn)練這些模型的數(shù)據(jù)集的大小與 GPT-3 相似；如上所示。這些模型并沒有在 GPT-3 之上實(shí)現(xiàn)性能提升，而使用更多參數(shù)和更多數(shù)據(jù)組合的模型（例如 Gopher [10]）表現(xiàn)要好得多；如下所示。

（來自 [10]）

計(jì)算最優(yōu)的 Scaling Law。受這些觀察的啟發(fā)，[6] 的作者完全重新考慮了 [1] 中最初提出的 Scaling Law 的最佳實(shí)踐。[6] 中的 Scaling Law 分析是使用更大的模型進(jìn)行的，得出的結(jié)果與以前略有不同。更具體地說，使用大小從 70M 到 17B 參數(shù)的 LLM，在大小超過一萬億個(gè) token 的數(shù)據(jù)集上進(jìn)行訓(xùn)練；如下所示。

（來自 [10]）

通過使用許多不同的模型和數(shù)據(jù)大小組合訓(xùn)練 LLM，我們可以發(fā)現(xiàn)一個(gè)冪律，該冪律可以根據(jù)這些因素預(yù)測(cè) LLM 的測(cè)試損失。

根據(jù)這些冪律，研究者可以確定哪種訓(xùn)練設(shè)置最適合給定的計(jì)算預(yù)算。[6] 的作者認(rèn)為，計(jì)算最優(yōu)的訓(xùn)練應(yīng)該按比例 scaling 模型和數(shù)據(jù)大小。這一發(fā)現(xiàn)表明，大多數(shù) LLM 都訓(xùn)練不足，無法擬合其規(guī)模 —— 使用大量數(shù)據(jù)訓(xùn)練現(xiàn)有的 LLM 將對(duì)研究者大有裨益。例如，[6] 中擬合的 Scaling Law Gopher 應(yīng)該使用再大 20 倍的數(shù)據(jù)集進(jìn)行訓(xùn)練！

「預(yù)計(jì)所需的訓(xùn)練數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超出了目前用于訓(xùn)練大型模型的數(shù)據(jù)量?！?- 來自 [6]

Chinchilla。[6] 中提供的分析強(qiáng)調(diào)了數(shù)據(jù)規(guī)模的重要性。大型模型需要使用更多數(shù)據(jù)進(jìn)行訓(xùn)練才能達(dá)到最佳性能。為了驗(yàn)證這一發(fā)現(xiàn)，作者訓(xùn)練了一個(gè) 700 億參數(shù)的 LLM，稱為 Chinchilla。與之前的模型相比，Chinchilla 較小，但擁有更大的預(yù)訓(xùn)練數(shù)據(jù)集 —— 總共 1.4T 個(gè)訓(xùn)練 token。Chinchilla 使用與 Gopher [10] 相同的數(shù)據(jù)和評(píng)估策略。盡管比 Gopher 小 4 倍，但 Chinchilla 的表現(xiàn)始終優(yōu)于更大的模型；如下所示。

（來自 [6]）

Chinchilla [6] 提出的 Scaling Law 在此后多年成為 AI 研究的標(biāo)準(zhǔn)。「Chinchilla-optimal」現(xiàn)在是一個(gè)常用術(shù)語。即使在今天，在發(fā)表了各種各樣的其他 scaling 研究之后，Chinchilla 及其相關(guān)的 Scaling Law 仍不斷被提及。

Scaling Law 之「死」

Scaling Law 最近成為 AI 研究中的一個(gè)熱門（且有爭議）話題。正如我們?cè)谇拔闹兴吹降?，在整個(gè)預(yù)訓(xùn)練時(shí)代，scaling 推動(dòng)了 AI 的大部分進(jìn)步。然而，隨著 2024 年下半年模型發(fā)布和改進(jìn)的速度放緩，我們開始看到對(duì)模型 scaling 的廣泛質(zhì)疑，這似乎表明 AI 研究（尤其是 Scaling Law）可能會(huì)遇到瓶頸。

路透社稱，OpenAI 正在改變其產(chǎn)品戰(zhàn)略，因?yàn)槠湓?scaling 當(dāng)前方法方面遇到了瓶頸。
The Information 稱，GPT 模型的改進(jìn)速度開始放緩。
彭博社強(qiáng)調(diào)了幾個(gè)前沿實(shí)驗(yàn)室在嘗試構(gòu)建更強(qiáng)大的 AI 時(shí)面臨的困難。
TechCrunch 稱，scaling 開始產(chǎn)生收益遞減。
《時(shí)代》雜志發(fā)表了一篇細(xì)致入微的文章，強(qiáng)調(diào)了導(dǎo)致 AI 研究放緩的各種因素。
Ilya Sutskever 在 NeurIPS’24 的獲獎(jiǎng)演講中表示，「我們所知的預(yù)訓(xùn)練將會(huì)終結(jié)」。

與此同時(shí)，許多專家則持相反觀點(diǎn)。例如，Dario Amodei（Anthropic CEO）表示，scaling「可能……會(huì)繼續(xù)」，而 Sam Altman 則堅(jiān)持「沒有墻」。本文將通過提供 scaling 的當(dāng)前狀態(tài)和可能存在的各種問題的合理解釋，為這一討論增添更多色彩。

scaling 變慢：這是什么意思？為什么會(huì)發(fā)生這種情況？

「這兩種說法都可能是真的：scaling 在技術(shù)層面上仍然有效。針對(duì)用戶的進(jìn)步速度正在放緩?！?- Nathan Lambert

那么……scaling 速度正在放緩嗎？答案很復(fù)雜，并且高度依賴于研究者對(duì)「放緩」的確切定義。到目前為止，我看到的對(duì)這個(gè)問題最合理的回答是：兩個(gè)答案都是正確的。

因此，本文不會(huì)嘗試回答這個(gè)問題。本文將更深入地介紹相關(guān)研究，以便研究者能夠?qū)?LLM 的當(dāng)前（和未來）scaling 建立更細(xì)節(jié)的理解。

Scaling Law 能告訴我們什么？首先，研究者需要回顧一下 Scaling Law 的技術(shù)定義。Scaling Law 基于冪律定義了訓(xùn)練計(jì)算量（或模型 / 數(shù)據(jù)集大?。┡c LLM 的測(cè)試損失之間的關(guān)系。然而，這種關(guān)系的性質(zhì)常常被誤解。通過對(duì)數(shù)增加計(jì)算來獲得指數(shù)級(jí)性能改進(jìn)的想法是一個(gè)神話。Scaling Law 看起來更像是指數(shù)衰減，這意味著隨著時(shí)間的推移，研究者必須更加努力才能獲得進(jìn)一步的性能改進(jìn)；如下所示。

（來自 [5]）

換句話說，Scaling Law 會(huì)隨著時(shí)間的推移自然地趨平。這樣一來，研究者目前經(jīng)歷的「放緩」可以說是 LLM Scaling Law 的預(yù)期部分。

「實(shí)踐者經(jīng)常使用下游基準(zhǔn)準(zhǔn)確度作為模型質(zhì)量的代理指標(biāo)，而不是在困惑度評(píng)估集上的損失?！?- 來自 [7]

定義性能。研究者如何衡量 LLM 是否在改進(jìn)？從 Scaling Law 的角度來看，LLM 性能通常通過預(yù)訓(xùn)練期間模型的測(cè)試損失來衡量，但較低的測(cè)試損失對(duì) LLM 能力的影響尚不清楚。較低的損失會(huì)導(dǎo)致下游任務(wù)的準(zhǔn)確性更高嗎？較低的損失會(huì)導(dǎo)致 LLM 獲得新功能嗎？Scaling Law 暗含的東西和我們真正關(guān)心的東西之間存在脫節(jié)：

Scaling Law 告訴我們，增加預(yù)訓(xùn)練的規(guī)模將平穩(wěn)地降低 LLM 的測(cè)試損失。
我們真正關(guān)心的是獲得「更好」的 LLM。

根據(jù)你的身份，你對(duì)新 AI 系統(tǒng)的期望 —— 以及用來評(píng)估這些新系統(tǒng)的方法 —— 將有很大的不同。普通 AI 用戶往往專注于一般的聊天應(yīng)用程序，而實(shí)踐型研究者通常關(guān)心 LLM 在下游任務(wù)上的表現(xiàn)。相比之下，頂級(jí)前沿實(shí)驗(yàn)室的研究者似乎對(duì) AI 系統(tǒng)抱有很高的（而且非常特殊的）期望；例如，撰寫博士論文或解決高級(jí)數(shù)學(xué)推理問題。鑒于 LLM 具有如此廣泛的能力，評(píng)估是很困難的，而且研究者可以從許多角度來看待 LLM 的表現(xiàn)；如下所示。

（來自 [15]）

鑒于對(duì)模型的期望存在巨大差異，提供 scaling「有效」的確鑿證據(jù)注定會(huì)有很大爭議。研究者需要對(duì) Scaling Law 的成功做出更具體的定義。如果科學(xué)告訴我們更大的模型將實(shí)現(xiàn)更低的損失，這并不意味著新模型將滿足所有人的期望。未能實(shí)現(xiàn) AGI 或超越頂級(jí)人類數(shù)學(xué)家的能力并不能證明 scaling 在技術(shù)層面上仍然不起作用！換句話說，人們可以爭辯說，scaling 的「放緩」是一個(gè)感知和期望問題，而不是與 Scaling Law 相關(guān)的技術(shù)問題。

數(shù)據(jù)死亡。為了 scaling LLM 預(yù)訓(xùn)練，研究者必須同時(shí)增加模型和數(shù)據(jù)集的大小。早期的研究 [1] 似乎表明數(shù)據(jù)量并不像模型大小那么重要，但研究者在 Chinchilla [6] 中看到數(shù)據(jù)集大小同樣重要。此外，最近的研究表明，大多數(shù)研究人員更喜歡「過度訓(xùn)練」他們的模型 —— 或者在超出 Chinchilla 最優(yōu)大小的數(shù)據(jù)集上對(duì)它們進(jìn)行預(yù)訓(xùn)練 —— 以節(jié)省推理成本 [7]。

「scaling 研究通常側(cè)重于計(jì)算最優(yōu)的訓(xùn)練方案…… 由于較大的模型在推理時(shí)成本更高，因此現(xiàn)在對(duì)較小的模型進(jìn)行過度訓(xùn)練是一種常見的做法?！?- 來自 [7]

所有這些研究都給研究者帶來了一個(gè)簡單的結(jié)論 ——scaling LLM 預(yù)訓(xùn)練將需要研究者創(chuàng)建更大的預(yù)訓(xùn)練數(shù)據(jù)集。這一事實(shí)構(gòu)成了對(duì) LLM Scaling Law 的主要批評(píng)之一的基礎(chǔ)。許多研究者認(rèn)為，可能沒有足夠的數(shù)據(jù)來繼續(xù) scaling 預(yù)訓(xùn)練過程。作為背景，當(dāng)前 LLM 使用的絕大多數(shù)預(yù)訓(xùn)練數(shù)據(jù)是通過網(wǎng)絡(luò)抓取獲得的；如下所示。鑒于研究者只有一個(gè)互聯(lián)網(wǎng)，找到全新的大規(guī)模高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)來源可能會(huì)很困難。

甚至 Ilya Sutskever 最近也提出了這一論點(diǎn)，聲稱 i) 計(jì)算正在快速增長，但 ii) 由于依賴網(wǎng)絡(luò)抓取，數(shù)據(jù)沒有增長。因此，他認(rèn)為研究者不能永遠(yuǎn) scaling 預(yù)訓(xùn)練過程。我們所知的預(yù)訓(xùn)練將會(huì)終結(jié)，我們必須為 AI 研究找到新的進(jìn)步途徑。換句話說，「我們已經(jīng)實(shí)現(xiàn)了峰值數(shù)據(jù)」。

預(yù)訓(xùn)練的下一代規(guī)模

scaling 最終會(huì)收益遞減，以數(shù)據(jù)為中心反對(duì)繼續(xù) scaling 的論點(diǎn)既合理又令人信服。然而，仍有幾個(gè)研究方向可以改進(jìn)預(yù)訓(xùn)練過程。

合成數(shù)據(jù)。為了將預(yù)訓(xùn)練過程 scaling 幾個(gè)數(shù)量級(jí)，研究者可能需要依賴合成生成的數(shù)據(jù)。盡管人們擔(dān)心過度依賴合成數(shù)據(jù)會(huì)導(dǎo)致多樣性問題 [14]，但我們可以看到合成數(shù)據(jù)的使用有所增加，而且似乎取得了成功 [12]。此外，課程學(xué)習(xí) [13] 和持續(xù)的預(yù)訓(xùn)練策略通過調(diào)整預(yù)訓(xùn)練數(shù)據(jù)帶來了多種有意義的改進(jìn)；例如，在預(yù)訓(xùn)練結(jié)束時(shí)更改數(shù)據(jù)混合或添加指令數(shù)據(jù)。

（來自 [7]）

實(shí)踐型 Scaling Law。最近的研究試圖解決基于測(cè)試損失的 Scaling Law 的局限性。例如，[7] 中的作者定義的 Scaling Law 可用于預(yù)測(cè) LLM 在 LLM Foundry 下游基準(zhǔn)測(cè)試中的表現(xiàn)；如上所示。對(duì)人類來說，解釋這些指標(biāo)要容易得多。研究者可能不知道測(cè)試損失減少 5% 意味著什么，但在研究者感興趣的基準(zhǔn)測(cè)試中從 85% 到 90% 的準(zhǔn)確率通常很容易理解。其他幾項(xiàng)研究也探討了使用 Scaling Law 來提供更實(shí)用、更有意義的 LLM 性能估計(jì)的想法；例如，在訓(xùn)練后和量化 [16] 之后或在預(yù)訓(xùn)練過程中 [17]。

DeepSeek-v3。盡管最近對(duì) Scaling Law 的爭議頗多，但我們?nèi)匀豢吹搅送ㄟ^ scaling LLM 預(yù)訓(xùn)練過程而取得的進(jìn)步。例如，最近發(fā)布的 DeepSeek-v3 [18]—— 一個(gè) 671B 參數(shù)的混合專家 (MoE) 模型。除了開源之外，該模型還在 14.8T 文本 token 上進(jìn)行了預(yù)訓(xùn)練，并超越了 GPT-4o 和 Claude-3.5-Sonnet 的性能；請(qǐng)參閱下圖了解模型的性能。作為參考，LLaMA-3 模型是在超過 15T 的原始文本數(shù)據(jù)上進(jìn)行訓(xùn)練的。

（來自 [18]）

能夠超越 GPT-4o 等模型對(duì)于開放權(quán)重 LLM 來說是一個(gè)重大飛躍 —— 即使是最大的 LLaMA 模型也未能達(dá)到這一目標(biāo). DeepSeek-v3 采用了許多有趣的技巧：

基于 DeepSeek-v2 的優(yōu)化版 MoE 架構(gòu)。
用于平衡 MoE 負(fù)載的新型無輔助損失策略。
多 token 預(yù)測(cè)訓(xùn)練目標(biāo)。
從長思維鏈模型（類似于 OpenAI o1）中蒸餾推理能力。

該模型還經(jīng)過了后訓(xùn)練，包括監(jiān)督微調(diào)和 RLHF，以使其符合人類偏好。

「我們?cè)?14.8T 高質(zhì)量和多樣化的 token 上訓(xùn)練 DeepSeek-V3。預(yù)訓(xùn)練過程非常穩(wěn)定。在整個(gè)訓(xùn)練過程中，我們沒有遇到任何無法挽回的損失峰值或不得不回滾?！?- 來自 [8]

然而，DeepSeek-v3 令人印象深刻的表現(xiàn)的最大關(guān)鍵是預(yù)訓(xùn)練規(guī)模 —— 這是一個(gè)在同樣龐大的數(shù)據(jù)集上訓(xùn)練的龐大模型！由于各種原因（例如 GPU 故障和損失峰值），訓(xùn)練如此大的模型很困難。DeepSeek-v3 具有令人驚訝的穩(wěn)定預(yù)訓(xùn)練過程，并且訓(xùn)練成本以 LLM 標(biāo)準(zhǔn)來說也很低；如下所示。這些結(jié)果表明，隨著時(shí)間的推移，更大規(guī)模的預(yù)訓(xùn)練會(huì)變得更易于管理和更高效。

（來自 [18]）

將規(guī)模增大一個(gè)數(shù)據(jù)集。要繼續(xù)測(cè)試 Scaling Law，我們必須訓(xùn)練比當(dāng)前模型高幾個(gè)數(shù)量級(jí)的 LLM。拋開對(duì) scaling 效用的看法，仍然存在各種限制阻礙這種規(guī)模的模型訓(xùn)練。研究者需要：

更大的計(jì)算集群。
更多（和更好的）硬件。
大量電力。
新算法（例如，用于更大規(guī)模分布式訓(xùn)練的算法，可能跨越多個(gè)數(shù)據(jù)中心）。

訓(xùn)練下一代模型不僅僅要確保獲得更多用于購買 GPU 的資金，它是一項(xiàng)多學(xué)科的工程壯舉。如此復(fù)雜的事情需要時(shí)間。作為參考，GPT-4 于 2023 年 3 月發(fā)布，距離 GPT-3 發(fā)布已近三年（具體為 33 個(gè)月）?？梢院侠淼仡A(yù)期，解鎖另一個(gè) 10-100 倍規(guī)模增長的時(shí)間線（如果不是更長的話）也差不多。

「在 scaling 的每一個(gè)數(shù)量級(jí)，都必須找到不同的創(chuàng)新?！埂?Ege Erdil（Epoch AI）

AI 研究的未來

現(xiàn)在我們更深入地了解了預(yù)訓(xùn)練的 scaling 狀態(tài)，讓我們假設(shè)（純粹出于討論目的）預(yù)訓(xùn)練研究將突然遇到障礙。即使模型能力不久后就無法繼續(xù)進(jìn)步，AI 研究仍可以通過多種方式繼續(xù)快速發(fā)展。我們已經(jīng)討論過其中一些主題（例如合成數(shù)據(jù)）。在本節(jié)中，我們將特別關(guān)注當(dāng)前流行的兩個(gè)主題：

LLM 系統(tǒng)/智能體。
推理模型。

構(gòu)建有用的 LLM 系統(tǒng)

當(dāng)今大多數(shù)基于 LLM 的應(yīng)用都采用了單一模型范式。換句話說，我們?cè)诮鉀Q任務(wù)時(shí)，會(huì)將任務(wù)傳遞給單個(gè) LLM 并直接使用該模型的輸出作為答案；如下所示。

如果我們想改進(jìn)這樣的系統(tǒng)（即以更高的準(zhǔn)確度解決更困難的任務(wù)），我們可以簡單地改進(jìn)底層模型的功能，但這種方法依賴于更強(qiáng)大的模型。相反，我們可以超越單一模型范式，構(gòu)建一個(gè)基于 LLM 的系統(tǒng)，其可組合多個(gè) LLM 或其他組件來解決復(fù)雜任務(wù)。

LLM 系統(tǒng)基礎(chǔ)。LLM 系統(tǒng)的目標(biāo)是將復(fù)雜任務(wù)分解成更小的部分，這些部分對(duì) LLM 或其他模塊來說更容易解決。我們可以使用兩種主要策略來實(shí)現(xiàn)這個(gè)目標(biāo)：

任務(wù)分解：將任務(wù)本身分解成更小的子任務(wù)，這些子任務(wù)可以單獨(dú)解決，然后匯總形成最終答案。
鏈?zhǔn)教幚恚和ㄟ^對(duì) LLM 進(jìn)行多次順序調(diào)用而不是單次調(diào)用來解決任務(wù)或子任務(wù)。

這些策略可以單獨(dú)使用或結(jié)合使用。例如，假設(shè)我們要構(gòu)建一個(gè)用于總結(jié)書籍的系統(tǒng)。為此，我們可以首先將任務(wù)分解成總結(jié)書中的每一章。然后我們可以：

將任務(wù)進(jìn)一步分解成更小的文本塊來總結(jié) (即類似于遞歸 / 層次分解)。
將多個(gè) LLM 調(diào)用鏈接在一起；例如，讓一個(gè) LLM 提取章節(jié)中所有重要的事實(shí)或信息，然后另一個(gè) LLM 基于這些關(guān)鍵事實(shí)生成章節(jié)總結(jié)。

然后，我們可以通過讓 LLM 對(duì)連接的章節(jié)總結(jié)進(jìn)行總結(jié)來匯總這些結(jié)果，從而形成完整小說的總結(jié)。大多數(shù)復(fù)雜任務(wù)都可以分解成容易解決的簡單部分，這使得這樣的 LLM 系統(tǒng)非常強(qiáng)大。隨著我們進(jìn)行更廣泛的分解和鏈接，這些系統(tǒng)可以變得非常復(fù)雜，使其成為應(yīng)用人工智能研究的一個(gè)有趣 (且影響深遠(yuǎn)) 領(lǐng)域。

構(gòu)建基于 LLM 的產(chǎn)品。盡管 LLM 取得了成功并廣受歡迎，但 LLM 的實(shí)際 (且廣泛采用的) 用例數(shù)量仍然很少。目前 LLM 最大的用例是代碼生成和聊天，這兩者都是 LLM 相對(duì)明顯的應(yīng)用；如下所示。

考慮到 LLM 存在如此多潛在的應(yīng)用領(lǐng)域，應(yīng)用型 AI 研究的一個(gè)重要方向其實(shí)就是基于 LLM 構(gòu)建更多真正有用的產(chǎn)品。我們已經(jīng)擁有了非常強(qiáng)大的模型，但使用這些模型來構(gòu)建一個(gè)值得使用的產(chǎn)品是一個(gè)完全不同的問題。解決這個(gè)問題需要了解如何構(gòu)建可靠且強(qiáng)大的 LLM 系統(tǒng)。

（來自 [19]）

智能體（Agent）。LLM 系統(tǒng)和智能體之間的界限很模糊，因?yàn)椤钢悄荏w」這個(gè)術(shù)語已在 AI 社區(qū)中被過度使用。然而，我們需要理解的關(guān)鍵概念是 LLM 系統(tǒng)可以通過多種有趣且有意義的方式進(jìn)行擴(kuò)展。例如，我們可以通過教會(huì) LLM 在解決問題時(shí)使用工具（如計(jì)算器、搜索引擎等）來增強(qiáng)它們的能力。此外，我們可以允許 LLM 執(zhí)行自己的程序甚至為我們執(zhí)行操作，例如預(yù)訂酒店或發(fā)送電子郵件?？梢耘c LLM 集成的眾多模塊和工具為構(gòu)建更強(qiáng)大和更有用的 LLM 系統(tǒng)提供了無限可能。

穩(wěn)健性是構(gòu)建更強(qiáng)大的 LLM / 智能體系統(tǒng)的最大障礙之一。假設(shè)我們有一個(gè) LLM 系統(tǒng)需要調(diào)用 LLM 十次。此外，假設(shè)每次 LLM 調(diào)用的成功率為 95%，并且所有調(diào)用都需要成功才能生成正確的最終輸出。盡管該系統(tǒng)的各個(gè)組件的準(zhǔn)確率相當(dāng)高，但整個(gè)系統(tǒng)的成功率僅為 60%！

（來自 [20]）

隨著我們添加更多組件，這個(gè)問題會(huì)呈指數(shù)級(jí)惡化，這限制了我們可以構(gòu)建的 LLM / 智能體系統(tǒng)的復(fù)雜性。構(gòu)建更復(fù)雜的系統(tǒng)將需要大幅提高每個(gè)系統(tǒng)組件的穩(wěn)健性。最近的研究表明，通過擴(kuò)展可以提高穩(wěn)健性。但是，我們也可以通過更好的元生成（meta-generation）算法來提高穩(wěn)健性。這些算法不是從 LLM 生成單一輸出，而是使用并行解碼、（步級(jí)）驗(yàn)證、評(píng)判等方法來獲得更精煉和準(zhǔn)確的輸出。

（來自 [20]）

這個(gè)研究領(lǐng)域正在快速發(fā)展，并可能成為 AI 研究進(jìn)展的關(guān)鍵驅(qū)動(dòng)力。隨著元生成算法的提升，LLM 將變得更加穩(wěn)健，我們將能夠構(gòu)建越來越復(fù)雜的 LLM / 智能體系統(tǒng)。

推理模型和新的 scaling 范式

針對(duì)早期 LLM，一個(gè)常見的批評(píng)意見是它們僅僅是記憶數(shù)據(jù)，而缺乏推理能力。然而，過去幾年中，LLM 無法推理的說法已基本被推翻。從最近的研究中我們了解到，這些模型很可能一直具有內(nèi)在的推理能力，但我們需要使用正確的提示詞或訓(xùn)練方法來激發(fā)這種能力。

思維鏈（Chain of thought, CoT）提示是首批展示 LLM 推理能力的技術(shù)之一。這種方法簡單且基于提示詞。我們只需要讓 LLM 在生成實(shí)際響應(yīng)之前提供其響應(yīng)的解釋。當(dāng) LLM 生成解釋其得出響應(yīng)的步驟過程的理由時(shí)，其推理能力會(huì)顯著提高。此外，這種解釋是人類可讀的，可以使模型的輸出更具可解釋性！

（來自 [22]）

思維鏈的概念既通用又強(qiáng)大。實(shí)際上，思維鏈已成為提高 LLM 推理能力的關(guān)鍵概念，我們已經(jīng)看到這種技術(shù)被多種方式重新應(yīng)用：

LLM-as-a-Judge 風(fēng)格的評(píng)估模型通常會(huì)在生成最終評(píng)估結(jié)果之前提供評(píng)分理由。
已有研究者提出用于教導(dǎo)較小 / 開放 LLM 寫出更好思維鏈的監(jiān)督微調(diào)和指令調(diào)優(yōu)策略。
LLM 經(jīng)常被要求反思并批評(píng)或驗(yàn)證自己的輸出，然后基于這些信息修改輸出。

復(fù)雜推理是一個(gè)快速發(fā)展的活躍研究課題。教導(dǎo) LLM 在推理過程中納入（步級(jí)）驗(yàn)證的新訓(xùn)練算法已經(jīng)展現(xiàn)出有希望的結(jié)果，隨著新的更好的訓(xùn)練策略出現(xiàn)，我們可能會(huì)繼續(xù)看到改進(jìn)。

OpenAI o1 推理模型標(biāo)志著 LLM 推理能力的重大飛躍。o1 使用的推理策略在很大程度上基于思維鏈。類似于人類在回答問題前先思考，o1 會(huì)在提供回答前花時(shí)間「思考」。從實(shí)際角度來說，o1 生成的「思考」只是長長的思維鏈，模型用它們來思考問題、將問題分解成更簡單的步驟、嘗試各種解決問題的方法，甚至糾正自己的錯(cuò)誤。

「OpenAI o1 是一個(gè)使用強(qiáng)化學(xué)習(xí)訓(xùn)練的新型大型語言模型，可以執(zhí)行復(fù)雜的推理。o1 在回答之前會(huì)思考 —— 它可以在回復(fù)用戶之前產(chǎn)生一個(gè)很長的內(nèi)部思維鏈?！?- 來自 [21]

o1 的確切訓(xùn)練策略細(xì)節(jié)尚未公開。但是，我們知道 o1 是使用「大規(guī)模強(qiáng)化學(xué)習(xí)」算法進(jìn)行推理的，該算法「數(shù)據(jù)效率高」，并專注于改進(jìn)模型生成有用思維鏈的能力。根據(jù) OpenAI 研究人員的公開評(píng)論和最近關(guān)于 o1 的言論，該模型似乎是使用純強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練的，這與之前的觀點(diǎn)相矛盾，即 o1 可能在推理時(shí)使用某種形式的樹搜索。

GPT-4o 與 o1 在推理密集型任務(wù)上的比較（來自 [21]）

如前所述，o1 在復(fù)雜推理任務(wù)上的表現(xiàn)令人印象深刻。o1 在幾乎所有推理密集型任務(wù)上都勝過 GPT-4o；見上文。作為 o1 推理能力的一個(gè)例子，該模型：

在 Codeforces 的競爭性編程問題中排名第 89 位。
在美國數(shù)學(xué)奧林匹克（AIME）資格賽中達(dá)到美國學(xué)生前 500 名水平。
在研究生水平的物理、生物和化學(xué)問題（GPQA）上超過人類博士生的準(zhǔn)確率。

（來自 [22]）

從 o1 到 o3。o1 最有趣的方面之一是，通過在推理時(shí)使用更多計(jì)算，可以提高模型的推理能力。為了解決日益復(fù)雜的問題，模型可以簡單地生成越來越長的思路鏈；請(qǐng)參閱此處的示例。使用更多的推理時(shí)間計(jì)算來生成這些更長的思路鏈，可以平穩(wěn)提高模型的推理性能；見下文。

「我們發(fā)現(xiàn)，隨著強(qiáng)化學(xué)習(xí)的增加（訓(xùn)練時(shí)間計(jì)算）和思考時(shí)間的增加（測(cè)試時(shí)間計(jì)算），o1 的性能會(huì)持續(xù)提高?！?- 來自 [22]

同樣，我們?cè)谏蠄D中看到，隨著研究者通過強(qiáng)化學(xué)習(xí)將更多計(jì)算投入到訓(xùn)練中，o1 的性能會(huì)平穩(wěn)提高。這正是創(chuàng)建 o3 推理模型所遵循的方法。OpenAI 于 2024 年底預(yù)覽了該模型的評(píng)估結(jié)果，目前公開分享的有關(guān) o3 的細(xì)節(jié)非常少。然而，鑒于該模型是在 o1 發(fā)布后不久（即三個(gè)月后）發(fā)布的，o3 很可能是 o1 的「放大版」，即使用了更多計(jì)算來做強(qiáng)化學(xué)習(xí)。

在撰寫本文時(shí)，o3 模型尚未發(fā)布，但通過 scaling o1 所取得的結(jié)果令人印象深刻（在某些情況下甚至令人震驚）。o3 最吸睛的成就如下：

在 ARC-AGI 基準(zhǔn)測(cè)試中得分為 87.5%，而 GPT-4o 的準(zhǔn)確率僅為 5%。o3 是第一個(gè)在 ARC-AGI 上超過人類水平（85%）的模型。該基準(zhǔn)測(cè)試曾被稱為 AGI 的「北極星」，五年多來一直未被攻克。
在 SWE-Bench Verified 上的準(zhǔn)確率為 71.7%，在 Codeforces 的 Elo 得分為 2727，這使 o3 的水平達(dá)到了全球前 200 名參賽的人類程序員。
EpochAI 的 FrontierMath 基準(zhǔn)測(cè)試的準(zhǔn)確率為 25.2%，比之前最先進(jìn)的 2.0% 的準(zhǔn)確率有所提高。陶哲軒曾表示，此基準(zhǔn)「極其困難」，并且很可能在「至少幾年內(nèi)」都無法被 AI 系統(tǒng)解決。
OpenAI 給出了 o3 的精簡版本 o3-mini 的預(yù)覽，它的性能非常好，并且計(jì)算效率得到了顯著提升。

（來自 [21]）

scaling 的新范式。閱讀完本文后，o1 和 o3 表現(xiàn)出的許多圖（見上文）可能看起來非常熟悉 —— 這些是對(duì)數(shù)尺度的圖，我們可以看到隨著計(jì)算量的增加，性能呈平滑、線性增長！換句話說，我們看到這些推理模型的性能與兩個(gè)不同數(shù)量之間存在明顯的冪律關(guān)系：

訓(xùn)練時(shí)間（強(qiáng)化學(xué)習(xí)）計(jì)算。
推理時(shí)間計(jì)算。

scaling o1 式模型不同于傳統(tǒng)的 Scaling Law。這不再是擴(kuò)大預(yù)訓(xùn)練過程，而是擴(kuò)大投入到訓(xùn)練和推理后的計(jì)算量。這是一個(gè)全新的 scaling 范式，到目前為止，scaling 推理模型所取得的成果非常好。這一發(fā)現(xiàn)向我們表明，除了預(yù)訓(xùn)練之外，顯然還存在其他 scaling 途徑。隨著推理模型的出現(xiàn)，我們發(fā)現(xiàn)了下一座要攀登的山峰。盡管它可能以不同的形式出現(xiàn)，但 scaling 將繼續(xù)推動(dòng) AI 研究的進(jìn)步。

結(jié)語

現(xiàn)在，我們已經(jīng)對(duì) Scaling Law 有了更清晰的認(rèn)識(shí)。我們也了解了它們對(duì) LLM 以及 AI 研究未來發(fā)展方向的影響。此外，最近對(duì) Scaling Law 也存在一些批評(píng)：

Scaling Law 正在自然衰減。
對(duì) LLM 能力的期望差異很大。
大規(guī)?？鐚W(xué)科工程研究的沒有想預(yù)期那么快。

這些問題是有效的，但它們都無法說明 scaling 不如預(yù)期。對(duì)大規(guī)模預(yù)訓(xùn)練的投資將（也應(yīng)該）繼續(xù)，但隨著時(shí)間的推移，提升將變得越來越困難。因此，其他進(jìn)展方向（例如，智能體和推理）將變得更加重要。然而，隨著我們對(duì)這些新的研究領(lǐng)域的投資，scaling 的基本思想將繼續(xù)發(fā)揮巨大作用。問題不在于 scaling 是否會(huì)繼續(xù)。真正的問題是我們下一步將 scaling 什么。

參考文獻(xiàn)

[1] Kaplan, Jared, et al. 'Scaling laws for neural language models.' arXiv preprint arXiv:2001.08361 (2020).

[2] Radford, Alec. 'Improving language understanding by generative pre-training.' (2018).

[3] Radford, Alec, et al. 'Language models are unsupervised multitask learners.' OpenAI blog 1.8 (2019): 9.

[4] Brown, Tom, et al. 'Language models are few-shot learners.' Advances in neural information processing systems 33 (2020): 1877-1901.

[5] Achiam, Josh, et al. 'Gpt-4 technical report.' arXiv preprint arXiv:2303.08774 (2023).

[6] Hoffmann, Jordan, et al. 'Training compute-optimal large language models.' arXiv preprint arXiv:2203.15556 (2022).

[7] Gadre, Samir Yitzhak, et al. 'Language models scale reliably with over-training and on downstream tasks.' arXiv preprint arXiv:2403.08540 (2024).

[8] Ouyang, Long, et al. 'Training language models to follow instructions with human feedback.' Advances in neural information processing systems 35 (2022): 27730-27744.

[9] Smith, Shaden, et al. 'Using deepspeed and megatron to train megatron-turing nlg 530b, a large-scale generative language model.' arXiv preprint arXiv:2201.11990 (2022).

[10] Rae, Jack W., et al. 'Scaling language models: Methods, analysis & insights from training gopher.' arXiv preprint arXiv:2112.11446 (2021).

[11] Bhagia, Akshita, et al. 'Establishing Task Scaling Laws via Compute-Efficient Model Ladders.' arXiv preprint arXiv:2412.04403 (2024).

[12] Bai, Yuntao, et al. 'Constitutional ai: Harmlessness from ai feedback.' arXiv preprint arXiv:2212.08073 (2022).

[13] Blakeney, Cody, et al. 'Does your data spark joy? Performance gains from domain upsampling at the end of training.' arXiv preprint arXiv:2406.03476 (2024).

[14] Chen, Hao, et al. 'On the Diversity of Synthetic Data and its Impact on Training Large Language Models.' arXiv preprint arXiv:2410.15226 (2024).

[15] Guo, Zishan, et al. 'Evaluating large language models: A comprehensive survey.' arXiv preprint arXiv:2310.19736 (2023).

[16] Xu, Zifei, et al. 'Scaling laws for post-training quantized large language models.' arXiv preprint arXiv:2410.12119 (2024).

[17] Xiong, Yizhe, et al. 'Temporal scaling law for large language models.' arXiv preprint arXiv:2404.17785 (2024).

[18] DeepSeek-AI et al. 'DeepSeek-v3 Technical Report.' https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf (2024).

[19] Schick, Timo, et al. 'Toolformer: Language models can teach themselves to use tools.' arXiv preprint arXiv:2302.04761 (2023).

[20] Welleck, Sean, et al. 'From decoding to meta-generation: Inference-time algorithms for large language models.' arXiv preprint arXiv:2406.16838 (2024).

[21] OpenAI et al. “Learning to Reason with LLMs.” https://openai.com/index/learning-to-reason-with-llms/ (2024).

[22] Wei, Jason, et al. 'Chain-of-thought prompting elicits reasoning in large language models.' Advances in neural information processing systems 35 (2022): 24824-24837.

[23] Liu, Yang, et al. 'G-eval: Nlg evaluation using gpt-4 with better human alignment.' arXiv preprint arXiv:2303.16634 (2023).

[24] Kim, Seungone, et al. 'Prometheus: Inducing fine-grained evaluation capability in language models.' The Twelfth International Conference on Learning Representations. 2023.

[25] Ho, Namgyu, Laura Schmid, and Se-Young Yun. 'Large language models are reasoning teachers.' arXiv preprint arXiv:2212.10071 (2022).

[26] Kim, Seungone, et al. 'The cot collection: Improving zero-shot and few-shot learning of language models via chain-of-thought fine-tuning.' arXiv preprint arXiv:2305.14045 (2023).

[27] Weng, Yixuan, et al. 'Large language models are better reasoners with self-verification.' arXiv preprint arXiv:2212.09561 (2022).

[28] Lightman, Hunter, et al. 'Let's verify step by step.' arXiv preprint arXiv:2305.20050 (2023).

[29] Zhang, Lunjun, et al. 'Generative verifiers: Reward modeling as next-token prediction.' arXiv preprint arXiv:2408.15240 (2024).

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

LLM 的基礎(chǔ) scaling 概念

scaling 和預(yù)訓(xùn)練時(shí)代

Scaling Law 之「死」

AI 研究的未來

結(jié)語