出品 | 搜狐科技
作者 | 梁昌均
編輯 | 楊錦
開卷推理大模型!OpenAI的秘密要被揭開了?
1月20日晚,月之暗面(Kimi)、深度求索(DeepSeek)撞車發(fā)布最新深度推理模型,均稱性能對標(biāo)OpenAI “滿血版”o1,并公開技術(shù)報(bào)告。
Kimi這次發(fā)布的是k1.5多模態(tài)思考模型。該公司稱,從基準(zhǔn)測試看,該模型實(shí)現(xiàn)了SOTA(最先進(jìn))級別的多模態(tài)推理和通用推理能力。
“這應(yīng)該是全球范圍內(nèi),OpenAI之外的公司首次實(shí)現(xiàn)o1正式版的多模態(tài)推理性能?!盞imi說。
大模型黑馬DeepSeek可能“不服”。該公司發(fā)布的開源推理模型DeepSeek-R1,性能亦比肩OpenAI o1正式版,加之極低的價(jià)格,再次引發(fā)熱議。
“這不可能是巧合?!庇ミ_(dá)高級研究科學(xué)家Jim Fan先后轉(zhuǎn)發(fā)這兩款模型信息,并再對DeepSeek發(fā)出稱贊:“他們或許是第一個(gè)展示強(qiáng)化學(xué)習(xí)飛輪效應(yīng),且持續(xù)增長的開源項(xiàng)目……這真是一個(gè)天才的團(tuán)隊(duì)?!?/p>
從最領(lǐng)先的模型能力看,到底誰才是中國的OpenAI,這一刻似乎不再僅有一個(gè)答案。至少現(xiàn)在,Kimi、DeepSeek已是最有實(shí)力的競爭者。
同時(shí),追趕者甚眾。早前,科大訊飛、商湯、智譜、MiniMax、階躍星辰等多家AI企業(yè)都先后推出強(qiáng)調(diào)推理性能的模型,谷歌也在緊追OpenAI。新一輪的大模型技術(shù)競賽又開始了!
Kimi撞車DeepSeek,媲美o1的國產(chǎn)推理王者來了
Kimi此次發(fā)布的k1.5多模態(tài)思考模型,是其最近三個(gè)月以來在推理模型上的持續(xù)升級。
據(jù)技術(shù)報(bào)告,在 short-CoT(短思維鏈)模式下,k1.5的數(shù)學(xué)、代碼、視覺多模態(tài)和通用能力,超過GPT-4o和Claude 3.5 Sonnet等模型。同時(shí),多個(gè)基準(zhǔn)測試超過通義、DeepSeek、Llama等國內(nèi)外領(lǐng)先開源模型。
在long-CoT(長思維鏈)模式下,k1.5的數(shù)學(xué)、代碼、多模態(tài)推理能力,基本達(dá)到OpenAI o1正式版的水平,僅有編碼和視覺能力的部分測試(如更為全面且動態(tài)的編碼測試基準(zhǔn)LiveCodeBench v5)不及o1水平。
DeepSeek同一天發(fā)布模型參數(shù)660B的DeepSeek-R1,號稱在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能也比肩OpenAI o1正式版,僅有部分測試相較o1稍有遜色。
這兩個(gè)在同一天發(fā)布,且均號稱對標(biāo)o1的國產(chǎn)模型,誰更強(qiáng)?搜狐科技對比發(fā)現(xiàn),在數(shù)學(xué)能力方面,Kimi k1.5在AIME2024和MATH500兩個(gè)主流基準(zhǔn)測試中均不及DeepSeek-R1。
同時(shí),在代碼基準(zhǔn)Codeforces,以及多任務(wù)語言理解MMLU測試中,k1.5亦不及DeepSeek-R1。但與k1.5對比,DeepSeek-R1尚不具備視覺等多模態(tài)能力。
k1.5和DeepSeek-R1相同基準(zhǔn)表現(xiàn)(EM為多次生成的準(zhǔn)確性,Pass@1為單次生成的準(zhǔn)確性)
更讓不少開發(fā)者興奮的是,DeepSeek-R1依然開源,并通過DeepSeek-R1蒸餾了6個(gè)小模型進(jìn)行開源,其中32B和70B模型在多項(xiàng)能力對標(biāo)OpenAI o1-mini的效果。
DeepSeek還宣布,模型將完全開源、不限制商用,允許用戶利用模型輸出、通過蒸餾等方式訓(xùn)練其他模型,并對用戶開放思維鏈輸出。
同時(shí),DeepSeek沿襲了“大模型界拼多多”的風(fēng)格。DeepSeek-R1的API定價(jià)為每百萬輸入 tokens 1元(緩存命中/4元(緩存未命中),每百萬輸出tokens 16元,不到o1的4%。
中國同時(shí)發(fā)布兩個(gè)類o1 模型,并實(shí)現(xiàn)對OpenAI的對標(biāo),引發(fā)熱議,尤其是開源的DeepSeek-R1再次受到不少認(rèn)可,目前其在開源社區(qū)GitHub獲得近萬顆星。
“這才是真正的OpenAI!”有網(wǎng)友稱,DeepSeek才是真正繼承了OpenAI最初使命的團(tuán)隊(duì)。
英偉達(dá)高級研究科學(xué)家Jim Fan這次又對其稱贊到:“一家非美國公司正在讓OpenAl的最初使命繼續(xù)存在——做真正開放、前沿的研究,并為所有人賦能。”
去年12月底,DeepSeek開源6710億參數(shù)的DeepSeek-V3,起以不到600萬美元的訓(xùn)練成本,媲美全球最強(qiáng)模型,讓這家低調(diào)的公司進(jìn)一步出圈。
硅基流動創(chuàng)始人&CEO袁進(jìn)輝讀完DeepSeek-R1的技術(shù)論文,感覺又一次被震驚?!皬腣3到 R1,DeepSeek完成了對OpenAI的從致敬到超越,這讓我有點(diǎn)相信梁文鋒說的ASI了?!?/p>
作為DeepSeek的創(chuàng)始人,梁文鋒堅(jiān)信ASI會到來。最近,他還參加了政府最高規(guī)格座談會。
強(qiáng)化學(xué)習(xí)再立功,走出大模型性能提升新路徑
和o1一樣,Kimi和DeepSeek這次在模型推理性能的提升,得益于強(qiáng)化學(xué)習(xí)的力量。
k1.5和DeepSeek-R1的技術(shù)論文題目,均強(qiáng)調(diào)了強(qiáng)化學(xué)習(xí)(RL,Reinforcement Learning)的作用,這兩款模型均是利用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。
強(qiáng)化學(xué)習(xí)并不是特別新的算法,其由“強(qiáng)化學(xué)習(xí)之父”理查德·薩頓(Richard Sutton)在2010年左右提出,屬于機(jī)器學(xué)習(xí)的分支之一。
早在2016年,谷歌旗下的圍棋機(jī)器人AlphaGo先后打敗李世石和柯潔等世界圍棋冠軍,背后借助的正是強(qiáng)化學(xué)習(xí)的能力。
雖然Kimi和DeepSeek的這兩款模型都利用了強(qiáng)化學(xué)習(xí)進(jìn)行模型訓(xùn)練,且沒有采用AlphaGo使用的蒙特卡羅樹搜索(MCTS)、過程獎(jiǎng)勵(lì)模型(PRM)等算法,但具體實(shí)現(xiàn)路徑有所差異。
Jim Fan提到,DeepSeek的模型完全由強(qiáng)化學(xué)習(xí)驅(qū)動,沒有任何監(jiān)督微調(diào)(SFT),即“冷啟動”?!斑@讓人想起AlphaZero——從零開始掌握圍棋、將棋和國際象棋,而不是先模仿人類大師的棋局,這是論文中最重要的收獲?!?/p>
與此不同的是,Kimi采用的是類似AlphaGo Master方法,通過提示工程構(gòu)建的思維鏈軌跡進(jìn)行輕量級監(jiān)督微調(diào)以進(jìn)行預(yù)訓(xùn)練。
AlphaZero和AlphaGo Master是谷歌當(dāng)年推出的不同版本的下棋機(jī)器人,前者無需人類棋譜數(shù)據(jù),完全依賴自我對弈進(jìn)行訓(xùn)練;后者則是AlphaGo的升級版,使用人類棋譜數(shù)據(jù)進(jìn)行訓(xùn)練,從而模仿學(xué)習(xí)人類的下棋策略。
一般來說,大模型包括預(yù)訓(xùn)練、監(jiān)督微調(diào)、獎(jiǎng)勵(lì)建模、強(qiáng)化學(xué)習(xí)四個(gè)訓(xùn)練階段,這基本由OpenAI定義?,F(xiàn)在,月之暗面和DeepSeek則探索出“可能”的新路徑。
k1.5通過預(yù)訓(xùn)練、監(jiān)督微調(diào)、長思維鏈(CoT)監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)推理性能的提升。DeepSeek-R1更為“大膽”,拒絕采樣和監(jiān)督微調(diào),僅靠強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,而以往則要依賴大量監(jiān)督數(shù)據(jù)來提升模型性能。
“這標(biāo)志著研究社區(qū)的一個(gè)重要里程碑。這也是第一個(gè)公開的研究,證明大語言模型的推理能力可以完全通過強(qiáng)化學(xué)習(xí)激勵(lì),而不必使用SFT來驗(yàn)證?!盌eepSeek在論文中提到。
值得關(guān)注的是,DeepSeek在論文中還提到了模型的“aha時(shí)刻”(頓悟時(shí)刻)——DeepSeek-R1-Zero學(xué)會擬人化的語氣重新思考?!斑@顯示了強(qiáng)化學(xué)習(xí)在解鎖AI智能方面的潛力,為未來更自主、適應(yīng)性更強(qiáng)的模型鋪平道路?!?/p>
AI計(jì)算資源公司Hyperbolic Labs 創(chuàng)始人&CTO金宇辰認(rèn)為,這個(gè)“頓悟時(shí)刻”意義重大:純強(qiáng)化學(xué)習(xí)能夠讓大語言模型學(xué)會思考和反思?!斑@挑戰(zhàn)了此前的信念,即復(fù)制o1推理模型需要大量的思維鏈數(shù)據(jù)。事實(shí)證明,只需要給它正確的激勵(lì)就行。”
K1.5的訓(xùn)練過程也有類似發(fā)現(xiàn)。月之暗面研究員Flood Sung公開發(fā)文稱,團(tuán)隊(duì)在實(shí)際訓(xùn)練過程中發(fā)現(xiàn),模型會隨著訓(xùn)練提升性能,并不斷增加token數(shù)。
“這是強(qiáng)化學(xué)習(xí)訓(xùn)練過程中模型自己涌現(xiàn)的!這和友商Deepseek的發(fā)現(xiàn)幾乎一樣。他們直接做了無監(jiān)督微調(diào)的強(qiáng)化學(xué)習(xí),也是挺impressive!”
袁進(jìn)輝對此也表示,如果說DeepSeek-V3的思路還都在想象范圍內(nèi),更多是驚艷的工程交付能力,DeepSeek-R1就是純粹的無人區(qū)探索和發(fā)現(xiàn)。“可能OpenAI已經(jīng)這么做了,但沒公開,也可能DeepSeek-R1的做法比OpenAI還要好?!?/p>
眾所周知,o1是通過強(qiáng)化學(xué)習(xí)和思維鏈進(jìn)行訓(xùn)練,但OpenAI并未披露訓(xùn)練過程?,F(xiàn)在,o1的秘密已被揭曉。有評論稱,這意味著硅谷AI霸權(quán)和神話破滅的開始。
開卷推理模型,新的大模型技術(shù)競賽開始了
業(yè)內(nèi)對推理模型的關(guān)注始于去年9月,當(dāng)時(shí)OpenAI發(fā)布首款具備深度推理能力的o1預(yù)覽版,12月發(fā)布正式版,并預(yù)告將推出更為強(qiáng)大的o3模型。
這也推動大模型,從預(yù)訓(xùn)練Scaling Law轉(zhuǎn)向后訓(xùn)練Scaling Law。通過強(qiáng)化學(xué)習(xí)等提高模型推理能力,成為國內(nèi)外AI企業(yè)追求的主流方向之一。
Flood Sung分享到,o1發(fā)布后效果爆炸,而Kimi團(tuán)隊(duì)一年多前就驗(yàn)證過長思維鏈的有效性。但當(dāng)時(shí)團(tuán)隊(duì)意識到長文本的重要性,率先考慮把文本搞長,而對長思維鏈不夠重視。
“成本速度有摩爾定律加持,可以不斷下降,只要把性能搞上去,剩下的都不是主要問題。所以我們得搞Long CoT,搞o1?!盕lood Sung正是這次k1.5的研發(fā)人員之一。
在去年11月的媒體溝通中,Kimi創(chuàng)始人楊植麟強(qiáng)調(diào),接下來AI發(fā)展的方向,要通過強(qiáng)化學(xué)習(xí)去擴(kuò)展。當(dāng)時(shí),Kimi發(fā)布了首個(gè)主打推理能力的k0-math模型,12月又發(fā)布k1視覺模型。按月之暗面的話來說,這些工作并未產(chǎn)生具有競爭力的結(jié)果,但k1.5做到了。
實(shí)際上,除了Kimi和DeepSeek,最近國內(nèi)不少企業(yè)都在密集發(fā)布內(nèi)部的首個(gè)推理模型,包括科大訊飛、商湯、智譜、MiniMax、階躍星辰等多家AI企業(yè)。
這些模型各有各的特色,如訊飛星火X1是首個(gè)基于全國產(chǎn)算力平臺進(jìn)行訓(xùn)練的推理模型,商湯的日日新融合大模型具備多模態(tài)能力,階躍星辰的Step R-mini則強(qiáng)調(diào)文理兼修。
不過,這些模型在推理性能方面普遍不及o1正式版。Kimi和DeepSeek顯然已是領(lǐng)頭羊,并為業(yè)內(nèi)提供了值得借鑒的探索路徑,即利用強(qiáng)化學(xué)習(xí)的力量。
薩頓此前就批評到,目前的AI,包括大模型,過度依賴深度學(xué)習(xí)。“某種意義上,我相信強(qiáng)化學(xué)習(xí)是AI的未來?!?/p>
AI大神安德烈·卡帕蒂(Andrej Karpathy)此前表示,更看好AlphaGo那樣的自博弈的強(qiáng)化學(xué)習(xí),認(rèn)為沒有人工干預(yù)的自我進(jìn)化才是大模型的未來。
就在昨日,谷歌還發(fā)布了Gemini2.0Flash Thinking 推理模型的增強(qiáng)版,和OpenAI爭鋒相對。最近,o3陷入數(shù)學(xué)成績作弊質(zhì)疑,OpenAI通過贊助拿到了嚴(yán)格保密的題目。
谷歌AI負(fù)責(zé)人Jeff Dean表示,該模型不僅延續(xù)了原有版本的優(yōu)點(diǎn),還新增了基于思維增強(qiáng)推理能力的功能,表現(xiàn)出色,奪回 Chatbot Arena榜首,并將繼續(xù)探索。
“這是一場通往多模態(tài)推理未來的競賽,這些涌現(xiàn)出來的新模型,正在使AI競賽升溫?!庇型鈬W(wǎng)友甚至還提到,“中國將引領(lǐng)AGI之路”。
Kimi表示,2025年繼續(xù)沿著路線圖,加速升級k系列強(qiáng)化學(xué)習(xí)模型,帶來更多模態(tài)、更多領(lǐng)域的能力和更強(qiáng)的通用能力。
DeepSeek則表示,未來將圍繞更多通用能力、混合語言、提示工程、軟件工程任務(wù)等方面繼續(xù)提升DeepSeek-R1的表現(xiàn)。
智譜也坦言,GLM-Zero-Preview與o3還有不少差距。未來將持續(xù)優(yōu)化迭代強(qiáng)化學(xué)習(xí)技術(shù),并將很快推出正式版GLM-Zero,將深度思考的能力從數(shù)理邏輯擴(kuò)展到更多更通用的技術(shù)。
“我們正在進(jìn)入大語言模型的強(qiáng)化學(xué)習(xí)時(shí)代,2025年可能是強(qiáng)化學(xué)習(xí)的年份?!苯鹩畛奖硎尽?/p>
現(xiàn)在,這場新的大模型技術(shù)競賽,風(fēng)起于太平洋兩岸,而中國的AI企業(yè)已探索出屬于自己的路。