开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開APP
          userphoto
          未登錄

          開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

          開通VIP
          LLMs之DeepSeek:DeepSeek-R1的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

          LLMs之DeepSeek:DeepSeek-R1的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

          目錄


          相關(guān)文章

          LLMs之MoE之DeepSeek-V3:DeepSeek-V3的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

          LLMs之MoE之DeepSeek-V3:DeepSeek-V3的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略-CSDN博客

          LLMs之DeepSeek:DeepSeek-R1的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

          https://yunyaniu.blog.csdn.net/article/details/145293767

          DeepSeek-R1的簡介

          2025年1月20日,正式發(fā)布 DeepSeek-R1,并同步開源模型權(quán)重。DeepSeek-R1是 DeepSeek 推出的第一代推理模型,它包含兩個(gè)主要版本:DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 和 DeepSeek-R1 基于 DeepSeek-V3-Base 進(jìn)行訓(xùn)練。有關(guān)模型架構(gòu)的更多詳細(xì)信息,請參閱DeepSeek-V3存儲庫。
          >> DeepSeek-R1-Zero:這是一個(gè)通過大規(guī)模強(qiáng)化學(xué)習(xí)?(RL) 訓(xùn)練的模型,無需預(yù)先進(jìn)行監(jiān)督微調(diào) (SFT)。它在推理方面表現(xiàn)出色,展現(xiàn)出自我驗(yàn)證、反思生成長鏈思維?(CoT) 等能力。然而,它也存在一些問題,例如無限重復(fù)、可讀性差和語言混合。
          >> DeepSeek-R1:為了解決 DeepSeek-R1-Zero 的問題并進(jìn)一步提升推理性能,DeepSeek-R1在 RL 訓(xùn)練之前加入了冷啟動數(shù)據(jù)。其性能與 OpenAI-o1 在數(shù)學(xué)、代碼和推理任務(wù)上相當(dāng)。
          DeepSeek-R1 遵循 MIT License,允許用戶通過蒸餾技術(shù)借助 R1 訓(xùn)練其他模型。
          DeepSeek-R1 上線 API,對用戶開放思維鏈輸出,通過設(shè)置 model='deepseek-reasoner' 即可調(diào)用。
          DeepSeek 官網(wǎng)與 App 即日起同步更新上線。

          此外,項(xiàng)目還開源了 DeepSeek-R1-Zero、DeepSeek-R1,以及六個(gè)基于 Llama 和 Qwen 蒸餾出的密集模型 (DeepSeek-R1-Distill 模型)。其中,DeepSeek-R1-Distill-Qwen-32B 在多個(gè)基準(zhǔn)測試中超越了 OpenAI-o1-mini,在密集模型中取得了新的最先進(jìn)結(jié)果。

          GitHub地址GitHub - deepseek-ai/DeepSeek-R1

          1、算法原理

          方法

          意義

          后訓(xùn)練階段

          后訓(xùn)練階段:直接在基礎(chǔ)模型上應(yīng)用強(qiáng)化學(xué)習(xí)(RL),不依賴于監(jiān)督式微調(diào)(SFT)作為初步步驟。這種方法使模型能夠探索解決復(fù)雜問題的鏈?zhǔn)剿季S(CoT),從而發(fā)展出DeepSeek-R1-Zero。

          提出了開發(fā) DeepSeek-R1 的流程:

          >> 兩個(gè)RL階段:發(fā)現(xiàn)更優(yōu)的推理模式并對齊人類偏好。

          >> 兩個(gè)SFT階段:為模型的推理和非推理能力提供初始種子。

          模型可以探索鏈?zhǔn)剿伎?#xff08;CoT),用于解決復(fù)雜問題。

          >> 開發(fā)了 DeepSeek-R1-Zero,具備自我驗(yàn)證反思生成長鏈?zhǔn)剿伎?/span>的能力。

          >> 首次通過研究驗(yàn)證了大型語言模型的推理能力可以純粹通過RL激勵實(shí)現(xiàn),無需SFT。

          >> 為未來研究提供了突破性的方向。該流程可以幫助行業(yè)開發(fā)更優(yōu)質(zhì)的模型

          蒸餾

          蒸餾:小模型也能發(fā)揮強(qiáng)大作用。

          大模型的推理模式可以通過蒸餾傳遞到小模型中,性能優(yōu)于直接在小模型上通過RL發(fā)現(xiàn)的推理模式。

          >> 使用 DeepSeek-R1?生成的推理數(shù)據(jù),微調(diào)了多個(gè)在研究社區(qū)中廣泛使用的稠密模型。

          >> 評估結(jié)果表明,蒸餾后的較小稠密模型在基準(zhǔn)測試中表現(xiàn)卓越。

          >> DeepSeek-R1及其API為研究社區(qū)提供了蒸餾更優(yōu)秀小模型的基礎(chǔ)。

          >> 向社區(qū)開源了基于 Qwen2.5 和 Llama3 系列的以下模型檢查點(diǎn):

          - 1.5B、7B、8B、14B、32B 和 70B。

          2、模型性能

          README 中提供了 DeepSeek-R1在多個(gè)基準(zhǔn)測試上的評估結(jié)果,涵蓋了英語和中文的各種推理、代碼和數(shù)學(xué)任務(wù)。 這些結(jié)果表明 DeepSeek-R1在這些任務(wù)上取得了與 OpenAI-o1 相當(dāng)甚至更好的性能。 具體來說,它在以下基準(zhǔn)測試中表現(xiàn)出色:

          英語:MMLU, MMLU-Redux, MMLU-Pro, DROP, IF-Eval, GPQA-Diamond, SimpleQA, FRAMES, AlpacaEval2.0, ArenaHard

          代碼:LiveCodeBench, Codeforces, SWE Verified, Aider-Polyglot

          數(shù)學(xué):AIME 2024, MATH-500, CNMO 2024

          中文:CLUEWSC, C-Eval, C-SimpleQA

          DeepSeek-R1模型:性能對齊 OpenAI-o1 正式版

          DeepSeek-R1 在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩 OpenAI o1 正式版。

          在此,我們將 DeepSeek-R1 訓(xùn)練技術(shù)全部公開,以期促進(jìn)技術(shù)社區(qū)的充分交流與創(chuàng)新協(xié)作。

          論文鏈接: DeepSeek-R1/DeepSeek_R1.pdf at main · deepseek-ai/DeepSeek-R1 · GitHub

          ?DeepSeek-R1-Distill模型:蒸餾小模型超越 OpenAI o1-mini

          我們在開源 DeepSeek-R1-Zero 和 DeepSeek-R1 兩個(gè) 660B 模型的同時(shí),通過 DeepSeek-R1 的輸出,蒸餾了 6 個(gè)小模型開源給社區(qū),其中 32B 和 70B 模型在多項(xiàng)能力上實(shí)現(xiàn)了對標(biāo) OpenAI o1-mini 的效果。

          HuggingFace 鏈接: https://huggingface.co/deepseek-ai

          3、使用建議

          將溫度設(shè)置為 0.5-0.7 之間(推薦 0.6),以防止無限重復(fù)或輸出不連貫。

          避免添加系統(tǒng)提示;所有指令都應(yīng)包含在用戶提示中。

          對于數(shù)學(xué)問題,建議在提示中包含指令,例如:“將最終答案放在 \boxed{} 中”。

          評估模型性能時(shí),建議進(jìn)行多次測試并平均結(jié)果。

          4、開放的許可證和用戶協(xié)議

          為了推動和鼓勵開源社區(qū)以及行業(yè)生態(tài)的發(fā)展,在發(fā)布并開源 R1 的同時(shí),我們同步在協(xié)議授權(quán)層面也進(jìn)行了如下調(diào)整:
          模型開源 License 統(tǒng)一使用 MIT。我們曾針對大模型開源的特點(diǎn),參考當(dāng)前行業(yè)的通行實(shí)踐,特別引入 DeepSeek License 為開源社區(qū)提供授權(quán),但實(shí)踐表明非標(biāo)準(zhǔn)的開源 License 可能反而增加了開發(fā)者的理解成本。為此,此次我們的開源倉庫(包括模型權(quán)重)統(tǒng)一采用標(biāo)準(zhǔn)化、寬松的 MIT License,完全開源,不限制商用,無需申請。
          產(chǎn)品協(xié)議明確可“模型蒸餾”。為了進(jìn)一步促進(jìn)技術(shù)的開源和共享,我們決定支持用戶進(jìn)行“模型蒸餾”。我們已更新線上產(chǎn)品的用戶協(xié)議,明確允許用戶利用模型輸出、通過模型蒸餾等方式訓(xùn)練其他模型。

          DeepSeek-R1的安裝和使用方法

          1、安裝

          模型下載:DeepSeek-R1 和 DeepSeek-R1-Distill 模型都可以在 Hugging Face 上下載。

          DeepSeek-R1 模型

          模型#總參數(shù)#已激活參數(shù)上下文長度下載
          DeepSeek-R1-Zero671B37B128千🤗 HuggingFace
          DeepSeek-R1671B37B128千🤗 HuggingFace

          DeepSeek-R1-Zero 和 DeepSeek-R1 基于 DeepSeek-V3-Base 進(jìn)行訓(xùn)練。有關(guān)模型架構(gòu)的更多詳細(xì)信息,請參閱DeepSeek-V3存儲庫。

          DeepSeek-R1-Distill 模型

          模型基礎(chǔ)模型下載
          DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-數(shù)學(xué)-1.5B🤗 HuggingFace
          DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7B🤗 HuggingFace
          DeepSeek-R1-Distill-Llama-8B駱駝-3.1-8B🤗 HuggingFace
          DeepSeek-R1-Distill-Qwen-14BQwen2.5-14B🤗 HuggingFace
          DeepSeek-R1-Distill-Qwen-32BQwen2.5-32B🤗 HuggingFace
          DeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-指導(dǎo)🤗 HuggingFace

          DeepSeek-R1-Distill 模型基于開源模型進(jìn)行了微調(diào),使用了 DeepSeek-R1 生成的樣本。我們對其配置和分詞器進(jìn)行了輕微更改。請使用我們的設(shè)置來運(yùn)行這些模型。

          2、使用方法

          T1、本地運(yùn)行

          DeepSeek-R1 模型

          有關(guān)在本地運(yùn)行 DeepSeek-R1 的更多信息,請?jiān)L問DeepSeek-V3 repo。

          DeepSeek-R1-Distill 模型

          DeepSeek-R1-Distill 模型可以以與 Qwen 或 Llama 模型相同的方式使用。使用 vLLM 和 SGLang 運(yùn)行 DeepSeek-R1-Distill-Qwen-32B 模型的示例命令

          vLLM
          vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
          SGLang
          python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

          T2、采用API

          DeepSeek 提供了兼容 OpenAI 的 API,地址為 platform.deepseek.com。

          下面的代碼以 Python 語言為例,展示了如何訪問思維鏈和最終回答,以及如何在多輪對話中進(jìn)行上下文拼接

          官方文檔:推理模型 (deepseek-reasoner) | DeepSeek API Docs

          非流式
          
          from openai import OpenAI
          client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")
          
          # Round 1
          messages = [{"role": "user", "content": "9.11 and 9.8, which is greater?"}]
          response = client.chat.completions.create(
              model="deepseek-reasoner",
              messages=messages
          )
          
          reasoning_content = response.choices[0].message.reasoning_content
          content = response.choices[0].message.content
          
          # Round 2
          messages.append({'role': 'assistant', 'content': content})
          messages.append({'role': 'user', 'content': "How many Rs are there in the word 'strawberry'?"})
          response = client.chat.completions.create(
              model="deepseek-reasoner",
              messages=messages
          )
          # ...
          流式
          
          from openai import OpenAI
          client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")
          
          # Round 1
          messages = [{"role": "user", "content": "9.11 and 9.8, which is greater?"}]
          response = client.chat.completions.create(
              model="deepseek-reasoner",
              messages=messages,
              stream=True
          )
          
          reasoning_content = ""
          content = ""
          
          for chunk in response:
              if chunk.choices[0].delta.reasoning_content:
                  reasoning_content += chunk.choices[0].delta.reasoning_content
              else:
                  content += chunk.choices[0].delta.content
          
          # Round 2
          messages.append({"role": "assistant", "content": content})
          messages.append({'role': 'user', 'content': "How many Rs are there in the word 'strawberry'?"})
          response = client.chat.completions.create(
              model="deepseek-reasoner",
              messages=messages,
              stream=True
          )
          # ...

          T3、在線聊天

          用戶可以通過 DeepSeek 的官方網(wǎng)站 chat.deepseek.com 與 DeepSeek-R1 進(jìn)行交互。

          在線測試地址:DeepSeek

          邏輯問題測試:測試“甲乙丙丁誰是小偷”——兩者均回答正確,雖然OpenAI更快,但DeepSeek-R1性價(jià)超高!

          邏輯問題測試:測試央視撒貝寧提出的“誰是小偷”邏輯問題

          DeepSeek-R1的案例應(yīng)用

          持續(xù)更新中……

          本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
          打開APP,閱讀全文并永久保存 查看更多類似文章
          猜你喜歡
          類似文章
          大模型最新情報(bào)
          OpenAI停服,國產(chǎn)大模型免費(fèi)用!開發(fā)者Token自由實(shí)現(xiàn)了
          大模型“免費(fèi)”送,廠商們圖什么?
          “美國最該尷尬的,是今天中國開源模型們重大的貢獻(xiàn)”
          Embedchain 簡介:為 LLM 量身定做的數(shù)據(jù)平臺
          Fluent文檔翻譯中使用的工具
          更多類似文章 >>
          生活服務(wù)
          分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
          綁定賬號成功
          后續(xù)可登錄賬號暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點(diǎn)擊這里聯(lián)系客服!

          聯(lián)系客服