开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開(kāi)APP
          userphoto
          未登錄

          開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

          開(kāi)通VIP
          DeepSeek-R1:架構(gòu)和訓(xùn)練詳解| DeepSeek 系列


          蛇年大吉

          紅梅傲雪報(bào)春來(lái)

          喜氣洋洋迎新歲

          在過(guò)去的幾天里,人們對(duì)新發(fā)布的開(kāi)放權(quán)重模型 DeepSeek-R1 [1] 著迷不已,盡管訓(xùn)練成本低得多,但其性能與 GPT-o1 相當(dāng)。

          DeepSeek-R1 在復(fù)雜的推理任務(wù)中表現(xiàn)出色,包括數(shù)學(xué)、編碼和科學(xué)推理。該模型充分利用測(cè)試時(shí)間計(jì)算來(lái)執(zhí)行詳細(xì)的思維鏈 (CoT) 推理。當(dāng)通過(guò)聊天界面進(jìn)行測(cè)試時(shí),它首先會(huì)經(jīng)歷一個(gè)“thinking out loud”步驟,然后提供最終的、結(jié)構(gòu)良好的答案。

          DeepSeek-R1 的主要目標(biāo)是探索使用強(qiáng)化學(xué)習(xí)作為唯一的后訓(xùn)練技術(shù)可以達(dá)到何種程度。典型的 LLM 訓(xùn)練流程包括預(yù)訓(xùn)練階段,模型在此階段學(xué)習(xí)從大量未標(biāo)記數(shù)據(jù)中預(yù)測(cè)下一個(gè)標(biāo)記,然后是后訓(xùn)練階段。后訓(xùn)練階段通常包括監(jiān)督微調(diào) (SFT),并通過(guò)帶人工反饋的強(qiáng)化學(xué)習(xí) (RLHF) 進(jìn)一步增強(qiáng)。DeepSeek-R1 旨在最大限度地減少甚至消除對(duì) SFT 的依賴,原因如下:

          SFT 需要高質(zhì)量的人工注釋數(shù)據(jù)。注釋過(guò)程通常很慢、成本高,并且可能因注釋者的偏好而引入潛在偏差。

          復(fù)雜的推理任務(wù)可能超出了普通人類(lèi)的理解能力。純強(qiáng)化學(xué)習(xí)方法使模型能夠開(kāi)發(fā)出超越傳統(tǒng)人類(lèi)思維界限的復(fù)雜推理行為。

          有效利用“測(cè)試時(shí)間計(jì)算”是另一個(gè)關(guān)鍵優(yōu)勢(shì)。使用 SFT,注釋者必須提供完整的思路,詳細(xì)說(shuō)明從推理過(guò)程到最終答案的每個(gè)步驟。這種方法在推理長(zhǎng)度方面難以擴(kuò)展。相比之下,RL 不依賴于顯式標(biāo)簽,允許模型“根據(jù)需要思考”,從而最大限度地發(fā)揮“測(cè)試時(shí)間擴(kuò)展”定律的優(yōu)勢(shì)。

          但 DeepSeek-R1 是否完全依賴 RL?答案既是肯定的,也是否定的。作者發(fā)布了兩個(gè)不同的模型:DeepSeek-R1-Zero 和 DeepSeek-R1。前者僅在后訓(xùn)練過(guò)程中使用了 RL。雖然它在某些推理基準(zhǔn)上表現(xiàn)出與 GPT-o1 相當(dāng)?shù)男阅埽嬖诳勺x性差和偶爾出現(xiàn)語(yǔ)言混雜的問(wèn)題。為了解決這些問(wèn)題,引入了第二個(gè)模型 DeepSeek-R1。它經(jīng)歷了一個(gè)四階段的后訓(xùn)練過(guò)程,并結(jié)合了 SFT 來(lái)解決這些挑戰(zhàn)并進(jìn)一步提高性能。

          一、DeepSeek-R1 架構(gòu)

          R1-Zero 和 R1 均從 DeepSeek-V3-Base 檢查點(diǎn)繼續(xù)進(jìn)行后期訓(xùn)練。DeepSeek-V3 [2] 是 DeepSeek AI 開(kāi)發(fā)的開(kāi)放權(quán)重混合專家 (MoE) 模型,具有多項(xiàng)關(guān)鍵創(chuàng)新,包括 MoE 結(jié)構(gòu)、多頭潛在注意力 (MLA) 和多令牌預(yù)測(cè) (MTP)。

          二、 DeepSeek-R1-Zero — 無(wú) SFT 模型

          1. 強(qiáng)化學(xué)習(xí)算法

          DeepSeek AI 利用了組相對(duì)策略優(yōu)化 (GRPO),這是 2024 年 DeepSeekMath 論文中提出的強(qiáng)化學(xué)習(xí)算法。GRPO 基于近端策略優(yōu)化 (PPO) 框架構(gòu)建,旨在增強(qiáng)語(yǔ)言模型中的數(shù)學(xué)推理能力,同時(shí)減少內(nèi)存消耗。

          DeepSeekMath 論文的詳細(xì)信息:https://arxiv.org/pdf/2402.03300

          圖 1. GRPO 目標(biāo)函數(shù)

          2. 獎(jiǎng)勵(lì)建模:

          獎(jiǎng)勵(lì)的計(jì)算方式在很大程度上決定了強(qiáng)化學(xué)習(xí)訓(xùn)練的成功。DeepSeek-R1-Zero 完全依賴于基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng),該系統(tǒng)主要由兩種類(lèi)型組成:

          準(zhǔn)確度獎(jiǎng)勵(lì):準(zhǔn)確度獎(jiǎng)勵(lì)模型評(píng)估響應(yīng)是否正確。

          格式獎(jiǎng)勵(lì):獎(jiǎng)勵(lì)強(qiáng)制模型將其思考過(guò)程置于“<think>”和“</think>”標(biāo)簽之間。

          請(qǐng)注意,在此設(shè)置中,沒(méi)有使用神經(jīng)獎(jiǎng)勵(lì)模型,這意味著沒(méi)有經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)來(lái)近似獎(jiǎng)勵(lì)函數(shù)。作者認(rèn)為,神經(jīng)獎(jiǎng)勵(lì)模型在大規(guī)模強(qiáng)化學(xué)習(xí)過(guò)程中容易受到獎(jiǎng)勵(lì)黑客攻擊。此外,重新訓(xùn)練獎(jiǎng)勵(lì)模型需要額外的資源,并使整個(gè)訓(xùn)練流程變得復(fù)雜。

          3.訓(xùn)練模板

          對(duì)于對(duì)話式的 LLM,通常需要問(wèn)答模板。令人驚訝的是,DeepSeek-R1-Zero 的提示模板非常簡(jiǎn)單。

          表 1. DeepSeek-R1-Zero 的模板。訓(xùn)練期間,提示將被替換為具體的推理問(wèn)題。

          4.性能與推理:

          在訓(xùn)練過(guò)程中,DeepSeek-R1-Zero 開(kāi)發(fā)出了復(fù)雜的推理行為,例如反思(模型重新審視并重新評(píng)估其先前的步驟)以及探索解決問(wèn)題的替代方法。

          他們還觀察到 DeepSeek-R1-Zero 在訓(xùn)練過(guò)程中的“自我進(jìn)化”過(guò)程,平均響應(yīng)長(zhǎng)度穩(wěn)步增加。換句話說(shuō),R1-Zero 學(xué)會(huì)了花更多時(shí)間思考,有效地反映了測(cè)試時(shí)間計(jì)算的縮放規(guī)律。

          圖 3. DeepSeek-R1-Zero 在強(qiáng)化學(xué)習(xí)過(guò)程中對(duì)訓(xùn)練集的平均響應(yīng)長(zhǎng)度

          盡管僅使用強(qiáng)化學(xué)習(xí)(RL)進(jìn)行訓(xùn)練,DeepSeek-R1-Zero 仍具有令人印象深刻的表現(xiàn)。

          表 2. DeepSeek-R1-Zero 與 OpenAI o1 模型在推理相關(guān)基準(zhǔn)上的比較

          圖 2. DeepSeek-R1-Zero 在訓(xùn)練過(guò)程中的 AIME 準(zhǔn)確率

          不過(guò),正如前面提到的,R1-Zero 也存在一些局限性。它經(jīng)常面臨可讀性差、語(yǔ)言混雜等問(wèn)題。DeepSeek-R1 的推出旨在解決這些挑戰(zhàn)。

          三、DeepSeek-R1

          DeepSeek-R1 旨在通過(guò)結(jié)合多階段后訓(xùn)練過(guò)程來(lái)改進(jìn) Zero。

          與 R1-Zero 不同,R1 從監(jiān)督微調(diào) (SFT) 開(kāi)始,以克服強(qiáng)化學(xué)習(xí)的冷啟動(dòng)階段。首先通過(guò)使用少量演示直接提示 R1-Zero 回答來(lái)生成標(biāo)簽。然后通過(guò)人工注釋者進(jìn)行后處理來(lái)完善這些標(biāo)簽。在此步驟中收集了數(shù)千個(gè)冷啟動(dòng)樣本以進(jìn)行微調(diào)。

          在對(duì)冷啟動(dòng)數(shù)據(jù)進(jìn)行 DeepSeek-V3-Base 微調(diào)后,作者采用了與 R1-Zero 相同的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練流程。此階段側(cè)重于增強(qiáng)模型的推理能力。為了解決語(yǔ)言混合問(wèn)題,他們?cè)趶?qiáng)化學(xué)習(xí)訓(xùn)練期間引入了語(yǔ)言一致性獎(jiǎng)勵(lì),該獎(jiǎng)勵(lì)以思路鏈 (CoT) 中目標(biāo)語(yǔ)言單詞的比例計(jì)算。

          第三個(gè)訓(xùn)練階段是另一個(gè)使用標(biāo)記數(shù)據(jù)的監(jiān)督微調(diào) (SFT) 階段。與主要側(cè)重于推理的初始冷啟動(dòng)數(shù)據(jù)不同,此階段結(jié)合了來(lái)自其他領(lǐng)域的數(shù)據(jù),以增強(qiáng)模型在寫(xiě)作、角色扮演和其他通用任務(wù)中的能力。目標(biāo)響應(yīng)(ground-truth)是通過(guò)從一組生成的響應(yīng)中進(jìn)行拒絕采樣生成的,其分?jǐn)?shù)由前面提到的基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)或生成獎(jiǎng)勵(lì)模型(模型作為判斷)確定。

          最后,應(yīng)用第二個(gè) RL 階段,即適用于所有場(chǎng)景的強(qiáng)化學(xué)習(xí),以提高模型的有用性和無(wú)害性,同時(shí)完善其推理能力。此階段還整合了來(lái)自不同管道的數(shù)據(jù),將獎(jiǎng)勵(lì)信號(hào)與不同的提示分布相結(jié)合。

          四、基準(zhǔn)測(cè)試

          DeepSeek-R1 在基準(zhǔn)測(cè)試中取得了令人印象深刻的成績(jī),其性能與 GPT-o1-1217 相當(dāng),特別是在數(shù)學(xué)和編碼等復(fù)雜的推理任務(wù)中。

          表 3 DeepSeek-R1 與其他代表模型對(duì)比

          DeepSeek-R1 震驚了世界,不僅因?yàn)樗诘偷枚嗟挠?xùn)練成本下取得了令人印象深刻的表現(xiàn),還因?yàn)樗苿?dòng)了 LLM 后訓(xùn)練中僅使用 RL 方法的使用。這一突破肯定會(huì)在不久的將來(lái)推動(dòng)整個(gè)研究界向前發(fā)展,并引發(fā)人們對(duì)全球大型實(shí)驗(yàn)室在訓(xùn)練 LLM 上花費(fèi)大量預(yù)算的合理性的質(zhì)疑。

          參考

          [1]DeepSeek-R1 論文:https://arxiv.org/pdf/2501.12948

          [2]DeepSeek-V3論文:

          https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

          本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
          打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
          猜你喜歡
          類(lèi)似文章
          全球掀DeepSeek復(fù)現(xiàn)狂潮!硅谷巨頭神話崩塌,30刀見(jiàn)證啊哈時(shí)刻
          談?wù)剬?duì)DeepSeek-R1的一些理解
          一文搞懂DeepSeek - DeepSeek-R1-Zero和DeepSeek-R1
          DeepSeek-V3 是怎么訓(xùn)練的|深度拆解
          一文讀懂 DeepSeek R1:強(qiáng)化學(xué)習(xí)如何重塑大語(yǔ)言模型推理能力? ? Tech Explorer ??
          1/10訓(xùn)練數(shù)據(jù)超越GPT-4o!清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME,在線刷SOTA
          更多類(lèi)似文章 >>
          生活服務(wù)
          分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
          綁定賬號(hào)成功
          后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點(diǎn)擊這里聯(lián)系客服!

          聯(lián)系客服