中國的OpenAI有了，可能還不止一個(gè)！Kimi、DeepSeek新模型如何媲美o1？

出品 | 搜狐科技

作者 | 梁昌均

編輯 | 楊錦

開卷推理大模型！OpenAI的秘密要被揭開了？

1月20日晚，月之暗面（Kimi）、深度求索（DeepSeek）撞車發(fā)布最新深度推理模型，均稱性能對標(biāo)OpenAI “滿血版”o1，并公開技術(shù)報(bào)告。

Kimi這次發(fā)布的是k1.5多模態(tài)思考模型。該公司稱，從基準(zhǔn)測試看，該模型實(shí)現(xiàn)了SOTA（最先進(jìn)）級別的多模態(tài)推理和通用推理能力。

“這應(yīng)該是全球范圍內(nèi)，OpenAI之外的公司首次實(shí)現(xiàn)o1正式版的多模態(tài)推理性能?！盞imi說。

大模型黑馬DeepSeek可能“不服”。該公司發(fā)布的開源推理模型DeepSeek-R1，性能亦比肩OpenAI o1正式版，加之極低的價(jià)格，再次引發(fā)熱議。

“這不可能是巧合?！庇ミ_(dá)高級研究科學(xué)家Jim Fan先后轉(zhuǎn)發(fā)這兩款模型信息，并再對DeepSeek發(fā)出稱贊：“他們或許是第一個(gè)展示強(qiáng)化學(xué)習(xí)飛輪效應(yīng)，且持續(xù)增長的開源項(xiàng)目……這真是一個(gè)天才的團(tuán)隊(duì)?！?/p>

從最領(lǐng)先的模型能力看，到底誰才是中國的OpenAI，這一刻似乎不再僅有一個(gè)答案。至少現(xiàn)在，Kimi、DeepSeek已是最有實(shí)力的競爭者。

同時(shí)，追趕者甚眾。早前，科大訊飛、商湯、智譜、MiniMax、階躍星辰等多家AI企業(yè)都先后推出強(qiáng)調(diào)推理性能的模型，谷歌也在緊追OpenAI。新一輪的大模型技術(shù)競賽又開始了！

Kimi撞車DeepSeek，媲美o1的國產(chǎn)推理王者來了

Kimi此次發(fā)布的k1.5多模態(tài)思考模型，是其最近三個(gè)月以來在推理模型上的持續(xù)升級。

據(jù)技術(shù)報(bào)告，在 short-CoT（短思維鏈）模式下，k1.5的數(shù)學(xué)、代碼、視覺多模態(tài)和通用能力，超過GPT-4o和Claude 3.5 Sonnet等模型。同時(shí)，多個(gè)基準(zhǔn)測試超過通義、DeepSeek、Llama等國內(nèi)外領(lǐng)先開源模型。

在long-CoT（長思維鏈）模式下，k1.5的數(shù)學(xué)、代碼、多模態(tài)推理能力，基本達(dá)到OpenAI o1正式版的水平，僅有編碼和視覺能力的部分測試（如更為全面且動態(tài)的編碼測試基準(zhǔn)LiveCodeBench v5）不及o1水平。

DeepSeek同一天發(fā)布模型參數(shù)660B的DeepSeek-R1，號稱在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上，性能也比肩OpenAI o1正式版，僅有部分測試相較o1稍有遜色。

這兩個(gè)在同一天發(fā)布，且均號稱對標(biāo)o1的國產(chǎn)模型，誰更強(qiáng)？搜狐科技對比發(fā)現(xiàn)，在數(shù)學(xué)能力方面，Kimi k1.5在AIME2024和MATH500兩個(gè)主流基準(zhǔn)測試中均不及DeepSeek-R1。

同時(shí)，在代碼基準(zhǔn)Codeforces，以及多任務(wù)語言理解MMLU測試中，k1.5亦不及DeepSeek-R1。但與k1.5對比，DeepSeek-R1尚不具備視覺等多模態(tài)能力。

k1.5和DeepSeek-R1相同基準(zhǔn)表現(xiàn)（EM為多次生成的準(zhǔn)確性，Pass@1為單次生成的準(zhǔn)確性）

更讓不少開發(fā)者興奮的是，DeepSeek-R1依然開源，并通過DeepSeek-R1蒸餾了6個(gè)小模型進(jìn)行開源，其中32B和70B模型在多項(xiàng)能力對標(biāo)OpenAI o1-mini的效果。

DeepSeek還宣布，模型將完全開源、不限制商用，允許用戶利用模型輸出、通過蒸餾等方式訓(xùn)練其他模型，并對用戶開放思維鏈輸出。

同時(shí)，DeepSeek沿襲了“大模型界拼多多”的風(fēng)格。DeepSeek-R1的API定價(jià)為每百萬輸入 tokens 1元（緩存命中/4元（緩存未命中），每百萬輸出tokens 16元，不到o1的4%。

中國同時(shí)發(fā)布兩個(gè)類o1 模型，并實(shí)現(xiàn)對OpenAI的對標(biāo)，引發(fā)熱議，尤其是開源的DeepSeek-R1再次受到不少認(rèn)可，目前其在開源社區(qū)GitHub獲得近萬顆星。

“這才是真正的OpenAI！”有網(wǎng)友稱，DeepSeek才是真正繼承了OpenAI最初使命的團(tuán)隊(duì)。

英偉達(dá)高級研究科學(xué)家Jim Fan這次又對其稱贊到：“一家非美國公司正在讓OpenAl的最初使命繼續(xù)存在——做真正開放、前沿的研究，并為所有人賦能。”

去年12月底，DeepSeek開源6710億參數(shù)的DeepSeek-V3，起以不到600萬美元的訓(xùn)練成本，媲美全球最強(qiáng)模型，讓這家低調(diào)的公司進(jìn)一步出圈。

硅基流動創(chuàng)始人&CEO袁進(jìn)輝讀完DeepSeek-R1的技術(shù)論文，感覺又一次被震驚?！皬腣3到 R1，DeepSeek完成了對OpenAI的從致敬到超越，這讓我有點(diǎn)相信梁文鋒說的ASI了?！?/p>

作為DeepSeek的創(chuàng)始人，梁文鋒堅(jiān)信ASI會到來。最近，他還參加了政府最高規(guī)格座談會。

強(qiáng)化學(xué)習(xí)再立功，走出大模型性能提升新路徑

和o1一樣，Kimi和DeepSeek這次在模型推理性能的提升，得益于強(qiáng)化學(xué)習(xí)的力量。

k1.5和DeepSeek-R1的技術(shù)論文題目，均強(qiáng)調(diào)了強(qiáng)化學(xué)習(xí)（RL，Reinforcement Learning）的作用，這兩款模型均是利用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。

強(qiáng)化學(xué)習(xí)并不是特別新的算法，其由“強(qiáng)化學(xué)習(xí)之父”理查德·薩頓（Richard Sutton）在2010年左右提出，屬于機(jī)器學(xué)習(xí)的分支之一。

早在2016年，谷歌旗下的圍棋機(jī)器人AlphaGo先后打敗李世石和柯潔等世界圍棋冠軍，背后借助的正是強(qiáng)化學(xué)習(xí)的能力。

雖然Kimi和DeepSeek的這兩款模型都利用了強(qiáng)化學(xué)習(xí)進(jìn)行模型訓(xùn)練，且沒有采用AlphaGo使用的蒙特卡羅樹搜索（MCTS）、過程獎(jiǎng)勵(lì)模型（PRM）等算法，但具體實(shí)現(xiàn)路徑有所差異。

Jim Fan提到，DeepSeek的模型完全由強(qiáng)化學(xué)習(xí)驅(qū)動，沒有任何監(jiān)督微調(diào)（SFT），即“冷啟動”?！斑@讓人想起AlphaZero——從零開始掌握圍棋、將棋和國際象棋，而不是先模仿人類大師的棋局，這是論文中最重要的收獲?！?/p>

與此不同的是，Kimi采用的是類似AlphaGo Master方法，通過提示工程構(gòu)建的思維鏈軌跡進(jìn)行輕量級監(jiān)督微調(diào)以進(jìn)行預(yù)訓(xùn)練。

AlphaZero和AlphaGo Master是谷歌當(dāng)年推出的不同版本的下棋機(jī)器人，前者無需人類棋譜數(shù)據(jù)，完全依賴自我對弈進(jìn)行訓(xùn)練；后者則是AlphaGo的升級版，使用人類棋譜數(shù)據(jù)進(jìn)行訓(xùn)練，從而模仿學(xué)習(xí)人類的下棋策略。

一般來說，大模型包括預(yù)訓(xùn)練、監(jiān)督微調(diào)、獎(jiǎng)勵(lì)建模、強(qiáng)化學(xué)習(xí)四個(gè)訓(xùn)練階段，這基本由OpenAI定義?，F(xiàn)在，月之暗面和DeepSeek則探索出“可能”的新路徑。

k1.5通過預(yù)訓(xùn)練、監(jiān)督微調(diào)、長思維鏈（CoT）監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)，實(shí)現(xiàn)推理性能的提升。DeepSeek-R1更為“大膽”，拒絕采樣和監(jiān)督微調(diào)，僅靠強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，而以往則要依賴大量監(jiān)督數(shù)據(jù)來提升模型性能。

“這標(biāo)志著研究社區(qū)的一個(gè)重要里程碑。這也是第一個(gè)公開的研究，證明大語言模型的推理能力可以完全通過強(qiáng)化學(xué)習(xí)激勵(lì)，而不必使用SFT來驗(yàn)證?！盌eepSeek在論文中提到。

值得關(guān)注的是，DeepSeek在論文中還提到了模型的“aha時(shí)刻”（頓悟時(shí)刻）——DeepSeek-R1-Zero學(xué)會擬人化的語氣重新思考?！斑@顯示了強(qiáng)化學(xué)習(xí)在解鎖AI智能方面的潛力，為未來更自主、適應(yīng)性更強(qiáng)的模型鋪平道路?！?/p>

AI計(jì)算資源公司Hyperbolic Labs 創(chuàng)始人&CTO金宇辰認(rèn)為，這個(gè)“頓悟時(shí)刻”意義重大：純強(qiáng)化學(xué)習(xí)能夠讓大語言模型學(xué)會思考和反思?！斑@挑戰(zhàn)了此前的信念，即復(fù)制o1推理模型需要大量的思維鏈數(shù)據(jù)。事實(shí)證明，只需要給它正確的激勵(lì)就行。”

K1.5的訓(xùn)練過程也有類似發(fā)現(xiàn)。月之暗面研究員Flood Sung公開發(fā)文稱，團(tuán)隊(duì)在實(shí)際訓(xùn)練過程中發(fā)現(xiàn)，模型會隨著訓(xùn)練提升性能，并不斷增加token數(shù)。

“這是強(qiáng)化學(xué)習(xí)訓(xùn)練過程中模型自己涌現(xiàn)的！這和友商Deepseek的發(fā)現(xiàn)幾乎一樣。他們直接做了無監(jiān)督微調(diào)的強(qiáng)化學(xué)習(xí)，也是挺impressive！”

袁進(jìn)輝對此也表示，如果說DeepSeek-V3的思路還都在想象范圍內(nèi)，更多是驚艷的工程交付能力，DeepSeek-R1就是純粹的無人區(qū)探索和發(fā)現(xiàn)。“可能OpenAI已經(jīng)這么做了，但沒公開，也可能DeepSeek-R1的做法比OpenAI還要好?！?/p>

眾所周知，o1是通過強(qiáng)化學(xué)習(xí)和思維鏈進(jìn)行訓(xùn)練，但OpenAI并未披露訓(xùn)練過程?，F(xiàn)在，o1的秘密已被揭曉。有評論稱，這意味著硅谷AI霸權(quán)和神話破滅的開始。

開卷推理模型，新的大模型技術(shù)競賽開始了

業(yè)內(nèi)對推理模型的關(guān)注始于去年9月，當(dāng)時(shí)OpenAI發(fā)布首款具備深度推理能力的o1預(yù)覽版，12月發(fā)布正式版，并預(yù)告將推出更為強(qiáng)大的o3模型。

這也推動大模型，從預(yù)訓(xùn)練Scaling Law轉(zhuǎn)向后訓(xùn)練Scaling Law。通過強(qiáng)化學(xué)習(xí)等提高模型推理能力，成為國內(nèi)外AI企業(yè)追求的主流方向之一。

Flood Sung分享到，o1發(fā)布后效果爆炸，而Kimi團(tuán)隊(duì)一年多前就驗(yàn)證過長思維鏈的有效性。但當(dāng)時(shí)團(tuán)隊(duì)意識到長文本的重要性，率先考慮把文本搞長，而對長思維鏈不夠重視。

“成本速度有摩爾定律加持，可以不斷下降，只要把性能搞上去，剩下的都不是主要問題。所以我們得搞Long CoT，搞o1?！盕lood Sung正是這次k1.5的研發(fā)人員之一。

在去年11月的媒體溝通中，Kimi創(chuàng)始人楊植麟強(qiáng)調(diào)，接下來AI發(fā)展的方向，要通過強(qiáng)化學(xué)習(xí)去擴(kuò)展。當(dāng)時(shí)，Kimi發(fā)布了首個(gè)主打推理能力的k0-math模型，12月又發(fā)布k1視覺模型。按月之暗面的話來說，這些工作并未產(chǎn)生具有競爭力的結(jié)果，但k1.5做到了。

實(shí)際上，除了Kimi和DeepSeek，最近國內(nèi)不少企業(yè)都在密集發(fā)布內(nèi)部的首個(gè)推理模型，包括科大訊飛、商湯、智譜、MiniMax、階躍星辰等多家AI企業(yè)。

這些模型各有各的特色，如訊飛星火X1是首個(gè)基于全國產(chǎn)算力平臺進(jìn)行訓(xùn)練的推理模型，商湯的日日新融合大模型具備多模態(tài)能力，階躍星辰的Step R-mini則強(qiáng)調(diào)文理兼修。

不過，這些模型在推理性能方面普遍不及o1正式版。Kimi和DeepSeek顯然已是領(lǐng)頭羊，并為業(yè)內(nèi)提供了值得借鑒的探索路徑，即利用強(qiáng)化學(xué)習(xí)的力量。

薩頓此前就批評到，目前的AI，包括大模型，過度依賴深度學(xué)習(xí)。“某種意義上，我相信強(qiáng)化學(xué)習(xí)是AI的未來?！?/p>

AI大神安德烈·卡帕蒂（Andrej Karpathy）此前表示，更看好AlphaGo那樣的自博弈的強(qiáng)化學(xué)習(xí)，認(rèn)為沒有人工干預(yù)的自我進(jìn)化才是大模型的未來。

就在昨日，谷歌還發(fā)布了Gemini2.0Flash Thinking 推理模型的增強(qiáng)版，和OpenAI爭鋒相對。最近，o3陷入數(shù)學(xué)成績作弊質(zhì)疑，OpenAI通過贊助拿到了嚴(yán)格保密的題目。

谷歌AI負(fù)責(zé)人Jeff Dean表示，該模型不僅延續(xù)了原有版本的優(yōu)點(diǎn)，還新增了基于思維增強(qiáng)推理能力的功能，表現(xiàn)出色，奪回 Chatbot Arena榜首，并將繼續(xù)探索。

“這是一場通往多模態(tài)推理未來的競賽，這些涌現(xiàn)出來的新模型，正在使AI競賽升溫?！庇型鈬W(wǎng)友甚至還提到，“中國將引領(lǐng)AGI之路”。

Kimi表示，2025年繼續(xù)沿著路線圖，加速升級k系列強(qiáng)化學(xué)習(xí)模型，帶來更多模態(tài)、更多領(lǐng)域的能力和更強(qiáng)的通用能力。

DeepSeek則表示，未來將圍繞更多通用能力、混合語言、提示工程、軟件工程任務(wù)等方面繼續(xù)提升DeepSeek-R1的表現(xiàn)。

智譜也坦言，GLM-Zero-Preview與o3還有不少差距。未來將持續(xù)優(yōu)化迭代強(qiáng)化學(xué)習(xí)技術(shù)，并將很快推出正式版GLM-Zero，將深度思考的能力從數(shù)理邏輯擴(kuò)展到更多更通用的技術(shù)。

“我們正在進(jìn)入大語言模型的強(qiáng)化學(xué)習(xí)時(shí)代，2025年可能是強(qiáng)化學(xué)習(xí)的年份?！苯鹩畛奖硎尽?/p>

現(xiàn)在，這場新的大模型技術(shù)競賽，風(fēng)起于太平洋兩岸，而中國的AI企業(yè)已探索出屬于自己的路。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频