2 月 25 日消息,美國當(dāng)?shù)貢r間周一,由 OpenAI 前員工創(chuàng)辦的人工智能公司 Anthropic 突發(fā)大招,宣布推出全球首個 “混合推理” AI 模型 Claude 3.7 Sonnet,同時推出 AI 編程助手 Claude Code,強勢進軍企業(yè) AI 市場。這一系列動作不僅向 OpenAI、DeepSeek 等競爭對手發(fā)起了有力挑戰(zhàn),也為 AI 領(lǐng)域的發(fā)展注入了新的活力。
Claude 3.7 Sonnet 作為 Anthropic 迄今為止最智能的模型,其最大的亮點在于引入了獨特的 “思考模式” 切換功能,賦予了用戶前所未有的控制權(quán)。用戶可以根據(jù)任務(wù)的復(fù)雜程度,靈活決定 AI 在生成回答前花費多少時間進行 “思考”。這一創(chuàng)新設(shè)計,使得 AI 能夠像人類一樣,既能夠快速響應(yīng)簡單問題,又能對復(fù)雜任務(wù)進行深入思考,大大提升了模型的實用性和適應(yīng)性。
在標(biāo)準(zhǔn)模式下,Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升級版,能夠快速生成響應(yīng),滿足用戶對于日常問題的快速解答需求。而在擴展思考模式下,模型會在回答問題前進行自我反思,充分發(fā)揮其推理能力,在數(shù)學(xué)、物理、編程等需要深度思考的任務(wù)中表現(xiàn)更為出色。
Anthropic 研究產(chǎn)品管理負(fù)責(zé)人 Dianne Penn 表示:“我們認(rèn)為推理是 AI 的核心組成部分,而不是需要額外付費才能使用的功能。理想情況下,模型本身應(yīng)該能夠識別問題是否需要更深入的思考,并自動調(diào)整,為用戶提供最優(yōu)質(zhì)的答案?!?/span>
這種將推理能力與標(biāo)準(zhǔn)大語言模型功能相融合的設(shè)計理念,在市場上獨樹一幟。與其他將推理能力獨立出來的模型不同,Claude 3.7 Sonnet 為用戶創(chuàng)造了更加無縫的使用體驗,無需在不同模型之間進行切換,大大提高了工作效率。
基準(zhǔn)測試數(shù)據(jù)充分證明了 Claude 3.7 Sonnet 的強大實力。在擴展思考模式下,該模型在研究生級別的推理任務(wù)中,準(zhǔn)確率高達 78.2%,不僅對 OpenAI 的最新模型發(fā)起了有力挑戰(zhàn),還成功超越了 DeepSeek - R1 的表現(xiàn),展現(xiàn)出了卓越的推理能力和問題解決能力。
圖注:在SWE-bench Verified基準(zhǔn)測試中,Claude 3.7 Sonnet的性能表現(xiàn)最佳。該測試旨在評估AI模型解決現(xiàn)實世界軟件問題的能力
圖注:Claude 3.7 Sonnet在TAU-bench基準(zhǔn)測試中表現(xiàn)優(yōu)異。該測試框架專注于評估AI模型在復(fù)雜現(xiàn)實任務(wù)中的表現(xiàn),包括與用戶和工具的交互
圖注:Claude 3.7 Sonnet在指令遵循、通用推理、多模態(tài)能力以及智能體編碼方面表現(xiàn)卓越,其擴展思考模式在數(shù)學(xué)和科學(xué)任務(wù)中尤為突出,顯著提升了性能。不僅如此,在傳統(tǒng)基準(zhǔn)測試之外,其表現(xiàn)甚至在內(nèi)部Pokémon游戲測試中超越了所有之前的模型
隨著 Claude 3.7 Sonnet 的發(fā)布,Anthropic 還推出了一款專門用于輔助編程的命令行工具 ——Claude Code。目前,Claude Code 以有限研究預(yù)覽的形式提供,開發(fā)者可以直接從終端將大量工程任務(wù)委托給 Claude 完成,極大地提高了編程效率。
在早期測試中,Claude Code 展現(xiàn)出了驚人的能力,一次性完成了通常需要 45 分鐘以上手動工作的任務(wù),顯著減少了開發(fā)時間和工作量。它能夠搜索和讀取代碼、編輯文件、編寫和運行測試、提交代碼到 GitHub,并使用命令行工具,為開發(fā)者提供了全方位的編程支持。
Anthropic 計劃在未來幾周內(nèi),根據(jù)開發(fā)者的使用反饋,對 Claude Code 進行持續(xù)改進。具體措施包括增強工具調(diào)用的可靠性、支持長時間運行的命令、優(yōu)化應(yīng)用內(nèi)渲染,并進一步擴展 Claude 對自身能力的理解,以提供更加穩(wěn)定和高效的編程服務(wù)。
Claude 3.7 Sonnet 在編程領(lǐng)域的表現(xiàn)同樣十分出色。它在處理復(fù)雜代碼庫和高級工具使用方面取得了顯著進展,得到了眾多專業(yè)人士的認(rèn)可。Cursor 表示,Claude 再次成為處理實際編程任務(wù)的最佳選擇;Cognition 發(fā)現(xiàn),Claude 在規(guī)劃代碼變更和處理全棧更新方面遠超其他任何模型;Vercel 強調(diào)了 Claude 在復(fù)雜代理工作流中的卓越表現(xiàn);Replit 成功利用 Claude 從零開始構(gòu)建復(fù)雜的 Web 應(yīng)用和儀表盤,而其他模型則難以勝任;Canva 的評估顯示,Claude 始終能生成生產(chǎn)級代碼,設(shè)計品味出眾,且錯誤率大幅降低。
在 SWE - bench Verified 和 TAU - bench 等專門評估 AI 解決現(xiàn)實世界軟件問題和復(fù)雜任務(wù)能力的基準(zhǔn)測試中,Claude 3.7 Sonnet 均達到了最先進的性能水平,充分證明了其在企業(yè)級應(yīng)用中的強大實力。這一系列成果,使得 Claude 3.7 Sonnet 和 Claude Code 成為了 Anthropic 進軍企業(yè) AI 市場的有力武器,有望徹底改變企業(yè)構(gòu)建軟件和自動化工作的方式。
在發(fā)布新模型的同時,Anthropic 還傳出了一則重磅消息 —— 即將完成 35 億美元的融資,公司估值也因此飆升至 615 億美元。這一消息無疑為 Anthropic 的發(fā)展注入了一劑強心針,也顯示出投資者對其未來前景的高度看好。
據(jù)悉,本輪融資的投資者陣容強大,包括風(fēng)險投資公司 Lightspeed Venture Partners、General Catalyst 和 Bessemer Venture Partners 等。此外,總部位于阿布扎比的 MGX 投資公司也在積極與 Anthropic 商談參與投資事宜。
盡管在消費者用戶市場上,Anthropic 的 Claude 聊天機器人目前仍落后于 OpenAI 的 ChatGPT,但在程序員和企業(yè)客戶群體中,Claude 已經(jīng)逐漸嶄露頭角,獲得了越來越多的青睞。知情人士透露,Anthropic 的年化收入(基于近期銷售數(shù)據(jù)推算的未來 12 個月收入)已達約 12 億美元,展現(xiàn)出了良好的商業(yè)發(fā)展?jié)摿Α?/span>
雖然目前 Anthropic 仍處于虧損狀態(tài),但此次巨額融資將為其提供充足的資金支持,用于進一步開發(fā)更強大的 AI 模型,提升技術(shù)實力,拓展市場份額。在競爭激烈的 AI 領(lǐng)域,資金的注入將使 Anthropic 在與 OpenAI 等競爭對手的角逐中更具底氣。
值得一提的是,自 DeepSeek 發(fā)布了一款與美國最強大 AI 模型相媲美的新型 AI 模型后,硅谷的一些投資者曾對 Anthropic 等公司的前景表示擔(dān)憂。然而,Anthropic 首席執(zhí)行官達里奧?阿莫代伊(Dario Amodei)在一篇博客中明確指出,DeepSeek 的成功并未改變開發(fā) AI 技術(shù)的經(jīng)濟邏輯。此次大規(guī)模融資的達成,充分證明了投資者仍然堅定地押注于像 Anthropic 這樣致力于開發(fā)專有 AI 模型的公司,對其未來的發(fā)展充滿信心。
與此同時,OpenAI 也在洽談籌集高達 400 億美元的資金,估值為 3000 億美元;埃隆?馬斯克旗下的 xAI 公司也在進行非正式的融資洽談,計劃進行一輪大規(guī)模融資。AI 領(lǐng)域的融資大戰(zhàn)愈演愈烈,各大公司都在積極尋求資金支持,以推動技術(shù)創(chuàng)新和業(yè)務(wù)拓展,搶占未來市場的制高點。
Anthropic 推出的全球首款 “混合推理” AI 模型 Claude 3.7 Sonnet 以及 AI 編程助手 Claude Code,無疑為其在 AI 領(lǐng)域的競爭中贏得了先機。而即將完成的 35 億美元融資,更是為其未來的發(fā)展提供了堅實的資金保障。在 2025 年的 AI 大模型競爭中,Anthropic 已經(jīng)打響了第一槍,未來其將如何憑借這些優(yōu)勢進一步拓展市場,與 OpenAI 等競爭對手展開激烈角逐,值得我們持續(xù)關(guān)注。