DeepSeek-R1：架構(gòu)和訓(xùn)練詳解| DeepSeek 系列

蛇年大吉

紅梅傲雪報(bào)春來(lái)

喜氣洋洋迎新歲

在過(guò)去的幾天里，人們對(duì)新發(fā)布的開(kāi)放權(quán)重模型 DeepSeek-R1 [1] 著迷不已，盡管訓(xùn)練成本低得多，但其性能與 GPT-o1 相當(dāng)。

DeepSeek-R1 在復(fù)雜的推理任務(wù)中表現(xiàn)出色，包括數(shù)學(xué)、編碼和科學(xué)推理。該模型充分利用測(cè)試時(shí)間計(jì)算來(lái)執(zhí)行詳細(xì)的思維鏈 (CoT) 推理。當(dāng)通過(guò)聊天界面進(jìn)行測(cè)試時(shí)，它首先會(huì)經(jīng)歷一個(gè)“thinking out loud”步驟，然后提供最終的、結(jié)構(gòu)良好的答案。

DeepSeek-R1 的主要目標(biāo)是探索使用強(qiáng)化學(xué)習(xí)作為唯一的后訓(xùn)練技術(shù)可以達(dá)到何種程度。典型的 LLM 訓(xùn)練流程包括預(yù)訓(xùn)練階段，模型在此階段學(xué)習(xí)從大量未標(biāo)記數(shù)據(jù)中預(yù)測(cè)下一個(gè)標(biāo)記，然后是后訓(xùn)練階段。后訓(xùn)練階段通常包括監(jiān)督微調(diào) (SFT)，并通過(guò)帶人工反饋的強(qiáng)化學(xué)習(xí) (RLHF) 進(jìn)一步增強(qiáng)。DeepSeek-R1 旨在最大限度地減少甚至消除對(duì) SFT 的依賴，原因如下：

SFT 需要高質(zhì)量的人工注釋數(shù)據(jù)。注釋過(guò)程通常很慢、成本高，并且可能因注釋者的偏好而引入潛在偏差。

復(fù)雜的推理任務(wù)可能超出了普通人類(lèi)的理解能力。純強(qiáng)化學(xué)習(xí)方法使模型能夠開(kāi)發(fā)出超越傳統(tǒng)人類(lèi)思維界限的復(fù)雜推理行為。

有效利用“測(cè)試時(shí)間計(jì)算”是另一個(gè)關(guān)鍵優(yōu)勢(shì)。使用 SFT，注釋者必須提供完整的思路，詳細(xì)說(shuō)明從推理過(guò)程到最終答案的每個(gè)步驟。這種方法在推理長(zhǎng)度方面難以擴(kuò)展。相比之下，RL 不依賴于顯式標(biāo)簽，允許模型“根據(jù)需要思考”，從而最大限度地發(fā)揮“測(cè)試時(shí)間擴(kuò)展”定律的優(yōu)勢(shì)。

但 DeepSeek-R1 是否完全依賴 RL？答案既是肯定的，也是否定的。作者發(fā)布了兩個(gè)不同的模型：DeepSeek-R1-Zero 和 DeepSeek-R1。前者僅在后訓(xùn)練過(guò)程中使用了 RL。雖然它在某些推理基準(zhǔn)上表現(xiàn)出與 GPT-o1 相當(dāng)?shù)男阅埽嬖诳勺x性差和偶爾出現(xiàn)語(yǔ)言混雜的問(wèn)題。為了解決這些問(wèn)題，引入了第二個(gè)模型 DeepSeek-R1。它經(jīng)歷了一個(gè)四階段的后訓(xùn)練過(guò)程，并結(jié)合了 SFT 來(lái)解決這些挑戰(zhàn)并進(jìn)一步提高性能。

一、DeepSeek-R1 架構(gòu)

R1-Zero 和 R1 均從 DeepSeek-V3-Base 檢查點(diǎn)繼續(xù)進(jìn)行后期訓(xùn)練。DeepSeek-V3 [2] 是 DeepSeek AI 開(kāi)發(fā)的開(kāi)放權(quán)重混合專家 (MoE) 模型，具有多項(xiàng)關(guān)鍵創(chuàng)新，包括 MoE 結(jié)構(gòu)、多頭潛在注意力 (MLA) 和多令牌預(yù)測(cè) (MTP)。

二、 DeepSeek-R1-Zero — 無(wú) SFT 模型

1. 強(qiáng)化學(xué)習(xí)算法

DeepSeek AI 利用了組相對(duì)策略優(yōu)化 (GRPO)，這是 2024 年 DeepSeekMath 論文中提出的強(qiáng)化學(xué)習(xí)算法。GRPO 基于近端策略優(yōu)化 (PPO) 框架構(gòu)建，旨在增強(qiáng)語(yǔ)言模型中的數(shù)學(xué)推理能力，同時(shí)減少內(nèi)存消耗。

DeepSeekMath 論文的詳細(xì)信息：https://arxiv.org/pdf/2402.03300

圖 1. GRPO 目標(biāo)函數(shù)

2. 獎(jiǎng)勵(lì)建模：

獎(jiǎng)勵(lì)的計(jì)算方式在很大程度上決定了強(qiáng)化學(xué)習(xí)訓(xùn)練的成功。DeepSeek-R1-Zero 完全依賴于基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)，該系統(tǒng)主要由兩種類(lèi)型組成：

準(zhǔn)確度獎(jiǎng)勵(lì)：準(zhǔn)確度獎(jiǎng)勵(lì)模型評(píng)估響應(yīng)是否正確。

格式獎(jiǎng)勵(lì)：獎(jiǎng)勵(lì)強(qiáng)制模型將其思考過(guò)程置于“<think>”和“</think>”標(biāo)簽之間。

請(qǐng)注意，在此設(shè)置中，沒(méi)有使用神經(jīng)獎(jiǎng)勵(lì)模型，這意味著沒(méi)有經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)來(lái)近似獎(jiǎng)勵(lì)函數(shù)。作者認(rèn)為，神經(jīng)獎(jiǎng)勵(lì)模型在大規(guī)模強(qiáng)化學(xué)習(xí)過(guò)程中容易受到獎(jiǎng)勵(lì)黑客攻擊。此外，重新訓(xùn)練獎(jiǎng)勵(lì)模型需要額外的資源，并使整個(gè)訓(xùn)練流程變得復(fù)雜。

3.訓(xùn)練模板

對(duì)于對(duì)話式的 LLM，通常需要問(wèn)答模板。令人驚訝的是，DeepSeek-R1-Zero 的提示模板非常簡(jiǎn)單。

表 1. DeepSeek-R1-Zero 的模板。訓(xùn)練期間，提示將被替換為具體的推理問(wèn)題。

4.性能與推理：

在訓(xùn)練過(guò)程中，DeepSeek-R1-Zero 開(kāi)發(fā)出了復(fù)雜的推理行為，例如反思（模型重新審視并重新評(píng)估其先前的步驟）以及探索解決問(wèn)題的替代方法。

他們還觀察到 DeepSeek-R1-Zero 在訓(xùn)練過(guò)程中的“自我進(jìn)化”過(guò)程，平均響應(yīng)長(zhǎng)度穩(wěn)步增加。換句話說(shuō)，R1-Zero 學(xué)會(huì)了花更多時(shí)間思考，有效地反映了測(cè)試時(shí)間計(jì)算的縮放規(guī)律。

圖 3. DeepSeek-R1-Zero 在強(qiáng)化學(xué)習(xí)過(guò)程中對(duì)訓(xùn)練集的平均響應(yīng)長(zhǎng)度

盡管僅使用強(qiáng)化學(xué)習(xí)（RL）進(jìn)行訓(xùn)練，DeepSeek-R1-Zero 仍具有令人印象深刻的表現(xiàn)。

表 2. DeepSeek-R1-Zero 與 OpenAI o1 模型在推理相關(guān)基準(zhǔn)上的比較

圖 2. DeepSeek-R1-Zero 在訓(xùn)練過(guò)程中的 AIME 準(zhǔn)確率

不過(guò)，正如前面提到的，R1-Zero 也存在一些局限性。它經(jīng)常面臨可讀性差、語(yǔ)言混雜等問(wèn)題。DeepSeek-R1 的推出旨在解決這些挑戰(zhàn)。

三、DeepSeek-R1

DeepSeek-R1 旨在通過(guò)結(jié)合多階段后訓(xùn)練過(guò)程來(lái)改進(jìn) Zero。

與 R1-Zero 不同，R1 從監(jiān)督微調(diào) (SFT) 開(kāi)始，以克服強(qiáng)化學(xué)習(xí)的冷啟動(dòng)階段。首先通過(guò)使用少量演示直接提示 R1-Zero 回答來(lái)生成標(biāo)簽。然后通過(guò)人工注釋者進(jìn)行后處理來(lái)完善這些標(biāo)簽。在此步驟中收集了數(shù)千個(gè)冷啟動(dòng)樣本以進(jìn)行微調(diào)。

在對(duì)冷啟動(dòng)數(shù)據(jù)進(jìn)行 DeepSeek-V3-Base 微調(diào)后，作者采用了與 R1-Zero 相同的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練流程。此階段側(cè)重于增強(qiáng)模型的推理能力。為了解決語(yǔ)言混合問(wèn)題，他們?cè)趶?qiáng)化學(xué)習(xí)訓(xùn)練期間引入了語(yǔ)言一致性獎(jiǎng)勵(lì)，該獎(jiǎng)勵(lì)以思路鏈 (CoT) 中目標(biāo)語(yǔ)言單詞的比例計(jì)算。

第三個(gè)訓(xùn)練階段是另一個(gè)使用標(biāo)記數(shù)據(jù)的監(jiān)督微調(diào) (SFT) 階段。與主要側(cè)重于推理的初始冷啟動(dòng)數(shù)據(jù)不同，此階段結(jié)合了來(lái)自其他領(lǐng)域的數(shù)據(jù)，以增強(qiáng)模型在寫(xiě)作、角色扮演和其他通用任務(wù)中的能力。目標(biāo)響應(yīng)（ground-truth）是通過(guò)從一組生成的響應(yīng)中進(jìn)行拒絕采樣生成的，其分?jǐn)?shù)由前面提到的基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)或生成獎(jiǎng)勵(lì)模型（模型作為判斷）確定。

最后，應(yīng)用第二個(gè) RL 階段，即適用于所有場(chǎng)景的強(qiáng)化學(xué)習(xí)，以提高模型的有用性和無(wú)害性，同時(shí)完善其推理能力。此階段還整合了來(lái)自不同管道的數(shù)據(jù)，將獎(jiǎng)勵(lì)信號(hào)與不同的提示分布相結(jié)合。

四、基準(zhǔn)測(cè)試

DeepSeek-R1 在基準(zhǔn)測(cè)試中取得了令人印象深刻的成績(jī)，其性能與 GPT-o1-1217 相當(dāng)，特別是在數(shù)學(xué)和編碼等復(fù)雜的推理任務(wù)中。

表 3 DeepSeek-R1 與其他代表模型對(duì)比

DeepSeek-R1 震驚了世界，不僅因?yàn)樗诘偷枚嗟挠?xùn)練成本下取得了令人印象深刻的表現(xiàn)，還因?yàn)樗苿?dòng)了 LLM 后訓(xùn)練中僅使用 RL 方法的使用。這一突破肯定會(huì)在不久的將來(lái)推動(dòng)整個(gè)研究界向前發(fā)展，并引發(fā)人們對(duì)全球大型實(shí)驗(yàn)室在訓(xùn)練 LLM 上花費(fèi)大量預(yù)算的合理性的質(zhì)疑。

參考

[1]DeepSeek-R1 論文：https://arxiv.org/pdf/2501.12948

[2]DeepSeek-V3論文：

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频