开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開APP
          userphoto
          未登錄

          開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

          開通VIP
          GPT-4.5被DeepSeek 500倍吊打!基準(zhǔn)測(cè)試全班墊底,OpenAI痛失護(hù)城河

          來源:新智元


          編輯:編輯部 JHZ
          【導(dǎo)讀】GPT-4.5上線一天,已經(jīng)引起了集體群嘲:這個(gè)模型徹頭徹尾失敗了,OpenAI已經(jīng)陷入嚴(yán)重困境,失去護(hù)城河!有人算出,GPT-4.5比DeepSeek V3貴了500倍,性能卻更差。有的權(quán)威AI預(yù)測(cè)者看完GPT-4.5,氣得直接把AGI預(yù)測(cè)時(shí)間推后了……當(dāng)然了,OpenAI并不這么認(rèn)為。

          自從OpenAI發(fā)布GPT-4.5之后,Ilya這張圖又開始火了。

          GPT-4.5令人失望的表現(xiàn),再次印證了Ilya這句話的含金量:預(yù)訓(xùn)練已經(jīng)達(dá)到極限,推理Scaling才是未來有希望的范式。

          GPT-4.5在基準(zhǔn)測(cè)試上并沒有提升,推理沒有增強(qiáng),只是變成了一個(gè)更易于合作、更有創(chuàng)造性、幻覺更少的模型。

          GPT-4.5的「失敗」更加證明,Ilya是對(duì)的。

          現(xiàn)在,各方評(píng)測(cè)都已經(jīng)出爐,結(jié)果顯示,OpenAI實(shí)在是太打臉了。

          從ARC-AGC的評(píng)估上來看,GPT-4.5幾乎跟GPT-4o處于同一水平,智能上似乎沒有任何提升。

          紐約大學(xué)教授馬庫斯直接發(fā)長文痛批:GPT-4.5就是個(gè)空心漢堡。

          一位AI初創(chuàng)CEO更是直言:在自己心目中最實(shí)用評(píng)估基準(zhǔn)Aider Polyglot上,OpenAI的「鎮(zhèn)國之寶」GPT-4.5,比DeepSeek-V3貴了500倍,但表現(xiàn)反而更差。

          如果這個(gè)結(jié)果準(zhǔn)確,那OpenAI將陷入嚴(yán)重困境,甚至是徹底失去護(hù)城河!

          與此同時(shí),國內(nèi)這邊DeepSeek連續(xù)6天給人們帶來了開源暴擊,R1模型直接減價(jià)75%。

          總之,在DeepSeek、xAI Grok 3、Anthropic首個(gè)混合模型Cluade 3.7 Sonnet等的前后夾擊之下,OpenAI這位昔日明星,如今顯然已風(fēng)光不再。

          「GPT-4.5真這么差?我不會(huì)看錯(cuò)了吧」

          正如上文所提,剛剛那位AI初創(chuàng)CEO在看到下面這張圖表后,感覺實(shí)在難以置信,因?yàn)镚PT-4.5 Preview的表現(xiàn),直接全班墊底。

          為此,他還求證了表格制作者,對(duì)方表示自己仔細(xì)檢查了性能數(shù)據(jù),進(jìn)行了多次運(yùn)行,能保證每個(gè)結(jié)果都是對(duì)的。

          GPT-4.5比GPT-4基礎(chǔ)模型多出了10倍的預(yù)訓(xùn)練計(jì)算量,但卻什么都不擅長,這合理嗎?

          有人猜測(cè)說,GPT-4.5可能并沒有經(jīng)過太多的監(jiān)督微調(diào),因?yàn)镺penAI本來是打算將其作為未來模型(如GPT-5)的基礎(chǔ)模型或教師模型,用于進(jìn)一步通過強(qiáng)化學(xué)習(xí)進(jìn)行微調(diào)的。

          可能是這個(gè)原因,導(dǎo)致它在代碼的指令遵循上不算特別強(qiáng)。

          或者,問題可能出在了數(shù)據(jù)混合上,因?yàn)镺penAI這次采用了一種全新的訓(xùn)練機(jī)制,所以可能有某種「成長痛」。

          不過令人心涼的是:OpenAI內(nèi)部許多能做到這件事的人,如今已經(jīng)走了。

          有人直接開麥表示:「如果DeepSeek能有OpenAI的資金量,那我們就完蛋了」。

          還有人調(diào)侃道,這可能就是所謂的「用智商換情商」吧。

          不管怎么說,在大家眼中,OpenAI的先發(fā)優(yōu)勢(shì)已經(jīng)不復(fù)存在了。

           
           
           

          左右滑動(dòng)查看

          馬庫斯:OpenAI徹底失去護(hù)城河


          馬庫斯轉(zhuǎn)發(fā)了這個(gè)結(jié)果驚人的研究后表示,不管OpenAI在兩年前有什么優(yōu)勢(shì),如今他們已經(jīng)徹底失去了護(hù)城河。

          雖然他們現(xiàn)在仍擁有響亮的名字、大量數(shù)據(jù)和眾多用戶,但相對(duì)競(jìng)爭(zhēng)對(duì)手并未擁有任何決定性的優(yōu)勢(shì)。

          Scaling并沒有讓他們走到AGI的終點(diǎn)。GPT-4.5非常昂貴,GPT-5也失敗了。

          所有人都開始疑問:OpenAI能拿出的,就只有這么多了?

          現(xiàn)在,DeepSeek已經(jīng)引發(fā)了一場(chǎng)價(jià)格戰(zhàn),削減了大模型的潛在利潤。而且,目前還沒有任何殺手級(jí)應(yīng)用出現(xiàn)。

          在每一次模型的響應(yīng)中,OpenAI都在虧損。公司的燒錢速度如此之快,但資金鏈卻有限,連微軟也不再完全支持他們了。

          如果不能快速轉(zhuǎn)型為非營利組織,一大筆投資就會(huì)變成債務(wù)。

          而且,Ilya、Murati、Schulman……許多頂尖人物已經(jīng)離開。

          如果孫正義改變主意,OpenAI就會(huì)立刻面臨嚴(yán)重的現(xiàn)金問題(馬斯克有一句話說對(duì)了,星際之門的很大一部分資金,他們并沒有拿到手)。

          總之,在推出ChatGPT上,奧特曼確實(shí)是那個(gè)正確的CEO,但他并沒有足夠的技術(shù)遠(yuǎn)見,帶領(lǐng)OpenAI邁向下一個(gè)階段。

          在這篇《GPT-4.5是個(gè)空心漢堡》中,馬庫斯也再次強(qiáng)調(diào):Scaling已經(jīng)撞墻了。

          在GPT-4.5發(fā)布前,他就預(yù)測(cè)將是一場(chǎng)空歡喜,而LLM的純粹Scaling(無論是增加數(shù)據(jù)量還是計(jì)算)已經(jīng)撞墻。

          在某些方面,GPT-4.5還不如Claude上一個(gè)版本的模型。

          甚至第一次出現(xiàn)了這種情況:頗受尊敬的AI預(yù)測(cè)師感到極度失望,以至于推遲了自己對(duì)于AGI何時(shí)到來的預(yù)測(cè)時(shí)間。

          而奧特曼在產(chǎn)品發(fā)布上的異常冷靜,就更耐人尋味了。

          他沒有像往常那樣大肆宣傳AGI,而是承認(rèn)了大規(guī)模模型的成本,卻對(duì)AGI完全避而不提。

          總之,馬庫斯表示,自己在2024年的預(yù)測(cè)依然強(qiáng)勁——

          耗費(fèi)五千億美元后,依然沒人找到可行的商業(yè)模式,除了英偉達(dá)和一些咨詢公司之外,沒人獲得了可觀的利益。

          沒有GPT-5,沒有護(hù)城河。

          「Scaling是一個(gè)假設(shè),我們投入了相當(dāng)于阿波羅計(jì)劃兩倍的資金,但至今并未取得太多實(shí)質(zhì)性成果。」

          GPT-4.5:不求最好,但求最貴


          總之,從輸入價(jià)格來看,GPT-4.5可謂是貴到離譜:

          • o1的5倍

          • GPT-4o的30倍

          • o3-mini的68倍

          • DeepSeek-R1的137倍

          • DeepSeek-V3的278倍

          但正如前文所說,作為「最貴」模型的GPT-4.5,在表現(xiàn)上卻不是「最好」的。

          跑分一個(gè)第1都沒有

          由知名華裔億萬富翁Alexandr Wang創(chuàng)辦的Scale AI,定期會(huì)更新一套基于私有數(shù)據(jù)集的LLM排行榜SEAL,目前首頁上共有15個(gè)。

          然而,在這波最新的排名中,GPT-4.5 Preview竟然沒有一項(xiàng)取得第一!

          全場(chǎng)最佳成績(jī),是智能工具使用(Chat)項(xiàng)目的亞軍——略強(qiáng)于Claude 3.7  Sonnet,但次于上一代GPT-4o。

          接下來,GPT-4.5在EnginmaEval,Agentic Tool Use(Enterprise)兩個(gè)項(xiàng)目上,取得第3。

          其中,前者需要?jiǎng)?chuàng)造性地解決問題和綜合不同領(lǐng)域信息的能力;后者評(píng)估模型工具使用的熟練程度,特點(diǎn)是需要將多個(gè)工具組合在一起。

          分別輸給了自家的o1/o1-preview和競(jìng)爭(zhēng)對(duì)手最新的Claude 3.7 Sonnet(Thingking)。

          在MultiChallenge中,排名第4,輸給了o1、Claude 3.5 Sonnet和3.7 Sonnet。

          榜單MultiChallenge用于評(píng)估LLM與人類用戶進(jìn)行多輪對(duì)話的能力,考察LLM的指令保留、用戶信息推理記憶、可靠版本編輯和自我一致性等4方面上的指令遵循、上下文分配和在上下文中推理的能力。

          在「人類最后一次考試」中,排在第5。

          這次,它不僅輸給了Anthropic的Claude,就連Gemini也騎在了它的頭上。甚至,還是Flash版本。

          顧名思義,這里測(cè)試的是LLM推理深度(例如,世界級(jí)數(shù)學(xué)問題)及其學(xué)科領(lǐng)域的知識(shí)廣度,提供對(duì)模型能力的精確測(cè)量。目前,還沒有模型的真確率能達(dá)到10%。

          千萬不要用來編程

          根據(jù)Aider的LLM編程排行榜,OpenAI旗下AI模型性價(jià)比都不高,而GPT-4.5是性價(jià)比最差的。

          創(chuàng)立AI公司的Enrico則表示,除非你愿意做「冤大頭」或「人傻錢多」,否則在編程中不要使用GPT-4.5。

          但其實(shí),這些現(xiàn)象或許也在情理之中,畢竟按照OpenAI的說法,這次既不看智商也不看性能,而是強(qiáng)調(diào)「啥都懂」和「情商高」。

          OpenAI首席研究官:我們還能Scaling!


          雖然外面的爭(zhēng)論異常激烈,但在OpenAI首席研究官Mark Chen看來,GPT-4.5的發(fā)布正是說明模型在規(guī)模上的Scaling還沒達(dá)到極限。

          同時(shí),對(duì)OpenAI而言,GPT-4.5也是對(duì)那些質(zhì)疑「Scaling模型規(guī)??梢岳^續(xù)取得進(jìn)展」的回應(yīng):

          「GPT-4.5實(shí)實(shí)在在地證明了我們可以繼續(xù)沿用Scaling Law,并且代表著我們已經(jīng)邁入了下一個(gè)數(shù)量級(jí)的發(fā)展階段。」

          預(yù)訓(xùn)練和推理,兩條路并行

          如今,OpenAI正沿著兩個(gè)不同的維度進(jìn)行Scaling。

          GPT-4.5是團(tuán)隊(duì)在無監(jiān)督學(xué)習(xí)上最新的擴(kuò)展實(shí)驗(yàn),與此同時(shí),團(tuán)隊(duì)也在推進(jìn)推理能力的進(jìn)展。

          這兩種方法,是相輔相成的:「為了構(gòu)建推理能力,你首先需要知識(shí)基礎(chǔ)。模型不能盲目地從零開始學(xué)習(xí)推理?!?/span>

          相比起推理模型,擁有更多世界知識(shí)的GPT-4.5,在「智能」的體現(xiàn)方式上完全不同。

          使用規(guī)模更大的語言模型時(shí),雖然需要更多時(shí)間處理和思考用戶提出的問題,但它依然能夠提供及時(shí)的反饋。這一點(diǎn)與GPT-4的體驗(yàn)非常相似。而當(dāng)使用像o1這樣的推理模型時(shí),它需要先思考幾分鐘甚至幾分鐘,才會(huì)作答。

          對(duì)于不同的場(chǎng)景,你可以選擇一個(gè)能夠立即回應(yīng)、不需要長時(shí)間思考但能給出更優(yōu)質(zhì)答案的語言模型;或者選擇一個(gè)需要一段時(shí)間思考后才能給出答案的推理模型。

          根據(jù)OpenAI的說法,在創(chuàng)意寫作等領(lǐng)域,更大規(guī)模的傳統(tǒng)語言模型,在表現(xiàn)上會(huì)顯著優(yōu)于推理模型。

          此外,相比于上一代GPT-4o,用戶在60%的日常使用場(chǎng)景中也更喜歡GPT-4.5;對(duì)于生產(chǎn)力和知識(shí)工作,這一比例更是上升到了近70%。

          GPT-4.5符合預(yù)期,沒有特別困難

          Mark Chen表示,OpenAI在研究方法上非常嚴(yán)謹(jǐn),會(huì)基于所有之前訓(xùn)練的LLM創(chuàng)建預(yù)測(cè),以確定預(yù)期的性能表現(xiàn)。

          對(duì)于GPT-4.5來說,它在傳統(tǒng)基準(zhǔn)測(cè)試上展現(xiàn)出的改進(jìn),和GPT-3.5到GPT-4的躍升可以說十分類似。

          除此之外,GPT-4.5還具備了很多新的能力。比如制作早期模型都無法完成的——ASCII Art。

          值得一提的是,Mark Chen特別指出——GPT-4.5在開發(fā)過程中并沒有特別困難。

          「我們所有基礎(chǔ)模型的開發(fā)都是實(shí)驗(yàn)性的。這通常意味著在某些節(jié)點(diǎn)停止,分析發(fā)生了什么,然后重新啟動(dòng)運(yùn)行。這并非GPT-4.5特有的情況,而是OpenAI在開發(fā)GPT-4和o系列時(shí)都采用的方法?!?/span>

          參考資料:
          https://scale.com/leaderboard
          https://x.com/GaryMarcus/status/1895299900952453362
          https://x.com/jeremyphoward/status/1895279057614577828
          https://the-decoder.com/gpt-4-5-is-proof-that-we-can-continue-the-Scaling-paradigm-says-openais-chief-research-officer/

          本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
          打開APP,閱讀全文并永久保存 查看更多類似文章
          猜你喜歡
          類似文章
          奧特曼回答一切:Ilya確實(shí)看到了了不起的東西,OpenAI也缺算力
          DeepSeek-R1:架構(gòu)和訓(xùn)練詳解| DeepSeek 系列
          JP摩根:DeepSeek專家Call核心要點(diǎn)
          DeepSeek-R1 憑什么這么強(qiáng)?看完這篇你就懂了!附贈(zèng)DeepSeek論文中文版
          DeepSeek數(shù)學(xué)大翻車?普林斯頓谷歌錘爆LLM:做題不會(huì)推理,全靠死記硬背
          DeepSeek-R1助力科學(xué)突破,NP難問題接近被破解!
          更多類似文章 >>
          生活服務(wù)
          分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
          綁定賬號(hào)成功
          后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點(diǎn)擊這里聯(lián)系客服!

          聯(lián)系客服