在過(guò)去的幾天里,人們對(duì)新發(fā)布的開(kāi)放權(quán)重模型 DeepSeek-R1 [1] 著迷不已,盡管訓(xùn)練成本低得多,但其性能與 GPT-o1 相當(dāng)。
DeepSeek-R1 在復(fù)雜的推理任務(wù)中表現(xiàn)出色,包括數(shù)學(xué)、編碼和科學(xué)推理。該模型充分利用測(cè)試時(shí)間計(jì)算來(lái)執(zhí)行詳細(xì)的思維鏈 (CoT) 推理。當(dāng)通過(guò)聊天界面進(jìn)行測(cè)試時(shí),它首先會(huì)經(jīng)歷一個(gè)“thinking out loud”步驟,然后提供最終的、結(jié)構(gòu)良好的答案。
DeepSeek-R1 的主要目標(biāo)是探索使用強(qiáng)化學(xué)習(xí)作為唯一的后訓(xùn)練技術(shù)可以達(dá)到何種程度。典型的 LLM 訓(xùn)練流程包括預(yù)訓(xùn)練階段,模型在此階段學(xué)習(xí)從大量未標(biāo)記數(shù)據(jù)中預(yù)測(cè)下一個(gè)標(biāo)記,然后是后訓(xùn)練階段。后訓(xùn)練階段通常包括監(jiān)督微調(diào) (SFT),并通過(guò)帶人工反饋的強(qiáng)化學(xué)習(xí) (RLHF) 進(jìn)一步增強(qiáng)。DeepSeek-R1 旨在最大限度地減少甚至消除對(duì) SFT 的依賴,原因如下:
SFT 需要高質(zhì)量的人工注釋數(shù)據(jù)。注釋過(guò)程通常很慢、成本高,并且可能因注釋者的偏好而引入潛在偏差。
復(fù)雜的推理任務(wù)可能超出了普通人類(lèi)的理解能力。純強(qiáng)化學(xué)習(xí)方法使模型能夠開(kāi)發(fā)出超越傳統(tǒng)人類(lèi)思維界限的復(fù)雜推理行為。
有效利用“測(cè)試時(shí)間計(jì)算”是另一個(gè)關(guān)鍵優(yōu)勢(shì)。使用 SFT,注釋者必須提供完整的思路,詳細(xì)說(shuō)明從推理過(guò)程到最終答案的每個(gè)步驟。這種方法在推理長(zhǎng)度方面難以擴(kuò)展。相比之下,RL 不依賴于顯式標(biāo)簽,允許模型“根據(jù)需要思考”,從而最大限度地發(fā)揮“測(cè)試時(shí)間擴(kuò)展”定律的優(yōu)勢(shì)。
但 DeepSeek-R1 是否完全依賴 RL?答案既是肯定的,也是否定的。作者發(fā)布了兩個(gè)不同的模型:DeepSeek-R1-Zero 和 DeepSeek-R1。前者僅在后訓(xùn)練過(guò)程中使用了 RL。雖然它在某些推理基準(zhǔn)上表現(xiàn)出與 GPT-o1 相當(dāng)?shù)男阅埽嬖诳勺x性差和偶爾出現(xiàn)語(yǔ)言混雜的問(wèn)題。為了解決這些問(wèn)題,引入了第二個(gè)模型 DeepSeek-R1。它經(jīng)歷了一個(gè)四階段的后訓(xùn)練過(guò)程,并結(jié)合了 SFT 來(lái)解決這些挑戰(zhàn)并進(jìn)一步提高性能。
一、DeepSeek-R1 架構(gòu)
R1-Zero 和 R1 均從 DeepSeek-V3-Base 檢查點(diǎn)繼續(xù)進(jìn)行后期訓(xùn)練。DeepSeek-V3 [2] 是 DeepSeek AI 開(kāi)發(fā)的開(kāi)放權(quán)重混合專家 (MoE) 模型,具有多項(xiàng)關(guān)鍵創(chuàng)新,包括 MoE 結(jié)構(gòu)、多頭潛在注意力 (MLA) 和多令牌預(yù)測(cè) (MTP)。
二、 DeepSeek-R1-Zero — 無(wú) SFT 模型
1. 強(qiáng)化學(xué)習(xí)算法
DeepSeek AI 利用了組相對(duì)策略優(yōu)化 (GRPO),這是 2024 年 DeepSeekMath 論文中提出的強(qiáng)化學(xué)習(xí)算法。GRPO 基于近端策略優(yōu)化 (PPO) 框架構(gòu)建,旨在增強(qiáng)語(yǔ)言模型中的數(shù)學(xué)推理能力,同時(shí)減少內(nèi)存消耗。
DeepSeekMath 論文的詳細(xì)信息:https://arxiv.org/pdf/2402.03300
2. 獎(jiǎng)勵(lì)建模:
獎(jiǎng)勵(lì)的計(jì)算方式在很大程度上決定了強(qiáng)化學(xué)習(xí)訓(xùn)練的成功。DeepSeek-R1-Zero 完全依賴于基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng),該系統(tǒng)主要由兩種類(lèi)型組成:
準(zhǔn)確度獎(jiǎng)勵(lì):準(zhǔn)確度獎(jiǎng)勵(lì)模型評(píng)估響應(yīng)是否正確。
格式獎(jiǎng)勵(lì):獎(jiǎng)勵(lì)強(qiáng)制模型將其思考過(guò)程置于“<think>”和“</think>”標(biāo)簽之間。
請(qǐng)注意,在此設(shè)置中,沒(méi)有使用神經(jīng)獎(jiǎng)勵(lì)模型,這意味著沒(méi)有經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)來(lái)近似獎(jiǎng)勵(lì)函數(shù)。作者認(rèn)為,神經(jīng)獎(jiǎng)勵(lì)模型在大規(guī)模強(qiáng)化學(xué)習(xí)過(guò)程中容易受到獎(jiǎng)勵(lì)黑客攻擊。此外,重新訓(xùn)練獎(jiǎng)勵(lì)模型需要額外的資源,并使整個(gè)訓(xùn)練流程變得復(fù)雜。
3.訓(xùn)練模板
對(duì)于對(duì)話式的 LLM,通常需要問(wèn)答模板。令人驚訝的是,DeepSeek-R1-Zero 的提示模板非常簡(jiǎn)單。
表 1. DeepSeek-R1-Zero 的模板。訓(xùn)練期間,提示將被替換為具體的推理問(wèn)題。
4.性能與推理:
在訓(xùn)練過(guò)程中,DeepSeek-R1-Zero 開(kāi)發(fā)出了復(fù)雜的推理行為,例如反思(模型重新審視并重新評(píng)估其先前的步驟)以及探索解決問(wèn)題的替代方法。
他們還觀察到 DeepSeek-R1-Zero 在訓(xùn)練過(guò)程中的“自我進(jìn)化”過(guò)程,平均響應(yīng)長(zhǎng)度穩(wěn)步增加。換句話說(shuō),R1-Zero 學(xué)會(huì)了花更多時(shí)間思考,有效地反映了測(cè)試時(shí)間計(jì)算的縮放規(guī)律。
圖 3. DeepSeek-R1-Zero 在強(qiáng)化學(xué)習(xí)過(guò)程中對(duì)訓(xùn)練集的平均響應(yīng)長(zhǎng)度
盡管僅使用強(qiáng)化學(xué)習(xí)(RL)進(jìn)行訓(xùn)練,DeepSeek-R1-Zero 仍具有令人印象深刻的表現(xiàn)。
表 2. DeepSeek-R1-Zero 與 OpenAI o1 模型在推理相關(guān)基準(zhǔn)上的比較
圖 2. DeepSeek-R1-Zero 在訓(xùn)練過(guò)程中的 AIME 準(zhǔn)確率
不過(guò),正如前面提到的,R1-Zero 也存在一些局限性。它經(jīng)常面臨可讀性差、語(yǔ)言混雜等問(wèn)題。DeepSeek-R1 的推出旨在解決這些挑戰(zhàn)。
三、DeepSeek-R1
DeepSeek-R1 旨在通過(guò)結(jié)合多階段后訓(xùn)練過(guò)程來(lái)改進(jìn) Zero。
與 R1-Zero 不同,R1 從監(jiān)督微調(diào) (SFT) 開(kāi)始,以克服強(qiáng)化學(xué)習(xí)的冷啟動(dòng)階段。首先通過(guò)使用少量演示直接提示 R1-Zero 回答來(lái)生成標(biāo)簽。然后通過(guò)人工注釋者進(jìn)行后處理來(lái)完善這些標(biāo)簽。在此步驟中收集了數(shù)千個(gè)冷啟動(dòng)樣本以進(jìn)行微調(diào)。
在對(duì)冷啟動(dòng)數(shù)據(jù)進(jìn)行 DeepSeek-V3-Base 微調(diào)后,作者采用了與 R1-Zero 相同的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練流程。此階段側(cè)重于增強(qiáng)模型的推理能力。為了解決語(yǔ)言混合問(wèn)題,他們?cè)趶?qiáng)化學(xué)習(xí)訓(xùn)練期間引入了語(yǔ)言一致性獎(jiǎng)勵(lì),該獎(jiǎng)勵(lì)以思路鏈 (CoT) 中目標(biāo)語(yǔ)言單詞的比例計(jì)算。
第三個(gè)訓(xùn)練階段是另一個(gè)使用標(biāo)記數(shù)據(jù)的監(jiān)督微調(diào) (SFT) 階段。與主要側(cè)重于推理的初始冷啟動(dòng)數(shù)據(jù)不同,此階段結(jié)合了來(lái)自其他領(lǐng)域的數(shù)據(jù),以增強(qiáng)模型在寫(xiě)作、角色扮演和其他通用任務(wù)中的能力。目標(biāo)響應(yīng)(ground-truth)是通過(guò)從一組生成的響應(yīng)中進(jìn)行拒絕采樣生成的,其分?jǐn)?shù)由前面提到的基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)或生成獎(jiǎng)勵(lì)模型(模型作為判斷)確定。
最后,應(yīng)用第二個(gè) RL 階段,即適用于所有場(chǎng)景的強(qiáng)化學(xué)習(xí),以提高模型的有用性和無(wú)害性,同時(shí)完善其推理能力。此階段還整合了來(lái)自不同管道的數(shù)據(jù),將獎(jiǎng)勵(lì)信號(hào)與不同的提示分布相結(jié)合。
四、基準(zhǔn)測(cè)試
DeepSeek-R1 在基準(zhǔn)測(cè)試中取得了令人印象深刻的成績(jī),其性能與 GPT-o1-1217 相當(dāng),特別是在數(shù)學(xué)和編碼等復(fù)雜的推理任務(wù)中。
表 3 DeepSeek-R1 與其他代表模型對(duì)比
DeepSeek-R1 震驚了世界,不僅因?yàn)樗诘偷枚嗟挠?xùn)練成本下取得了令人印象深刻的表現(xiàn),還因?yàn)樗苿?dòng)了 LLM 后訓(xùn)練中僅使用 RL 方法的使用。這一突破肯定會(huì)在不久的將來(lái)推動(dòng)整個(gè)研究界向前發(fā)展,并引發(fā)人們對(duì)全球大型實(shí)驗(yàn)室在訓(xùn)練 LLM 上花費(fèi)大量預(yù)算的合理性的質(zhì)疑。
參考
[1]DeepSeek-R1 論文:https://arxiv.org/pdf/2501.12948
[2]DeepSeek-V3論文:
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
聯(lián)系客服