2 月 1 日,面壁智能與清華大學(xué)自然語言處理實(shí)驗(yàn)室共同開源了系列端側(cè)語言大模型 MiniCPM,主體語言模型 MiniCPM-2B 僅有 24 億(2.4B)的非詞嵌入?yún)?shù)量。
在綜合性榜單上與 Mistral-7B 相近,在中文、數(shù)學(xué)、代碼能力表現(xiàn)更優(yōu),整體性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。
具體開源模型包括:
開源地址(內(nèi)含技術(shù)報告):
MiniCPM GitHub:https://github.com/OpenBMB/MiniCPMOmniLMM
GitHub:https://github.com/OpenBMB/OmniLMM
“用最小的規(guī)模,做最強(qiáng)的 AI?!泵姹谥悄?CEO 李大海說道?!耙孕〔蟆钡牡湫褪?Mistral-7B,其在業(yè)內(nèi)收獲了很多贊譽(yù),一度被譽(yù)為“開源模型的新王者”,其公司 Mistral AI 也被稱為“歐洲 OpenAI”。
面壁智能的 MiniCPM 一定程度上直接對標(biāo)了 Mistral-7B。在多項(xiàng)主流測評中,MiniCPM-2B 的中英文平均成績均超過了 Mistral-7B?!癕istral-7B 用 7B 戰(zhàn)勝了 LLaMA-13B 的模型,我們用 2B 干掉 LLaMA 的 13B?!泵姹谥悄?CTO 曾國洋說道。
李大海表示,“跟微軟相比我們有兩大優(yōu)勢,2B 性能小鋼炮同等規(guī)模能力領(lǐng)先,主流表現(xiàn)大幅超越,能力更全、更強(qiáng)。與 13、20B 和 40B 規(guī)模的模型也有掰手腕的能力?!?/span>
添加圖片注釋,不超過 140 字(可選)
在英文能力上,MiniCPM 的得分超越了 Llama2-13B、Falcon-40B:
添加圖片注釋,不超過 140 字(可選)
在當(dāng)前最接近用戶體感的評測集 MTBench 上,MiniCPM-2B 超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等眾多代表性開源大模型。
添加圖片注釋,不超過 140 字(可選)
語言能力方面, MiniCPM 可以一下寫十個“深夜憂傷”文案:
添加圖片注釋,不超過 140 字(可選)
也能陪你“cosplay”:
添加圖片注釋,不超過 140 字(可選)
或許小時候出去玩,老師還要求寫游記的“頭痛”可以緩解下:
添加圖片注釋,不超過 140 字(可選)
此外,MiniCPM 不僅知道黃山、泰山準(zhǔn)確海拔,還能計(jì)算差值:
添加圖片注釋,不超過 140 字(可選)
當(dāng)不同語言混在一起時,MiniCPM 可以把兩種不同的語言識別出來并自動進(jìn)行翻譯:
添加圖片注釋,不超過 140 字(可選)
編程能力上,MiniCPM 也會寫代碼,可以讓它自己“開發(fā)”自己:
視頻請到原文觀看
MiniCPM 也具有多模態(tài)能力,比如拍個不知名的蘑菇問問它是不是可以吃:
視頻請到原文觀看
如果在野外時,從帳篷里面看到一條蛇怎么處理:
視頻請到原文觀看
根據(jù)清華大學(xué)計(jì)算機(jī)系博士胡聲鼎的說法,MiniCPM 大約用了兩周的時間進(jìn)行訓(xùn)練。隨著硬件的發(fā)展,未來在手機(jī)上跑 7B 甚至幾十 B 的模型也是有可能的。
以 MiniCPM-2B 為基礎(chǔ),團(tuán)隊(duì)還構(gòu)建了端側(cè)多模態(tài)大模型 MiniCPM-V。MiniCPM-V 可以部署在大多數(shù) GPU 卡和個人計(jì)算機(jī)上,甚至可以部署在手機(jī)等端側(cè)設(shè)備上,并支持中英文雙語多模態(tài)交互。
在視覺編碼方面,團(tuán)隊(duì)通過 perceiver 重采樣器將圖像表示壓縮為 64 個 tokens,明顯少于其他基于 MLP 架構(gòu)的 lms(通常要大于 512tokens)。這使得 MiniCPM-V 在推理過程中以更少的內(nèi)存開銷和更高的速度運(yùn)行。
在多個基準(zhǔn)(包括 MMMU、MME 和 MMbech 等)中,MiniCPM-V 實(shí)現(xiàn)了更先進(jìn)的性能,超越了基于 Phi-2 構(gòu)建的現(xiàn)有多模態(tài)大模型,甚至達(dá)到了與 9.6B Qwen-VL-Chat 相當(dāng)或更好的性能。
添加圖片注釋,不超過 140 字(可選)
測試下 MiniCPM-V 的圖像識別能力,它成功識別出了圖片中有一只貓,并且正睡在毛毯上,并告訴我們不要打擾它。
添加圖片注釋,不超過 140 字(可選)
面壁智能表示,在進(jìn)行 Int4 量化后,MiniCPM 只占 2 GB 空間,具備在端側(cè)手機(jī)進(jìn)行模型部署的條件,消費(fèi)級顯卡也能流暢玩轉(zhuǎn)大模型。
此外,面壁智能還開源了擅長視覺和語言建模的大型多模態(tài)模型 OmniLMM,目前發(fā)布了 兩個特色版本,OmniLMM-12B 和 OmniLMM-3B。
在多模態(tài)視覺交互問答上,OmniLMM 與純文本的 ChatGPT3.5 結(jié)合,表現(xiàn)出了多重能力:實(shí)時動作識別,理解玩游戲的取勝策略等:
視頻請到原文觀看
面壁智能也把多模態(tài)能力集成到更多圖片細(xì)節(jié)觀察能力上,比如導(dǎo)盲犬沒有穿標(biāo)識服裝,也可以通過“手杖”和“挽具”推測出它是一個導(dǎo)盲犬:
添加圖片注釋,不超過 140 字(可選)
對于錯位圖片,OmniLMM 也能夠識別出來,實(shí)際上是一個人坐在椅子上,另一個人走在路上:
添加圖片注釋,不超過 140 字(可選)
對于幽默向的圖片,它也可以識別出來:一只狗穿著藍(lán)色襯衫和短褲在自拍,這不是一只狗的典型行為。
添加圖片注釋,不超過 140 字(可選)
目前,團(tuán)隊(duì)已經(jīng)針對不同的操作系統(tǒng)進(jìn)行了不同的適配。對于 Android、Harmony 系統(tǒng),用戶需要使用開源框架 MLC-LLM 進(jìn)行模型適配,支持文本模型、多模態(tài)模型,適用于 MiniCPM-2B-SFT-INT4、MiniCPM-2B-DPO-INT4、MiniCPM-V;對于 iOS 系統(tǒng),則需使用開源框架 LLMFarm 進(jìn)行模型適配,僅支持文本模型,適用于 MiniCPM-2B-SFT-INT4、MiniCPM-2B-DPO-INT4。
添加圖片注釋,不超過 140 字(可選)
在不同手機(jī)型號上的相關(guān)驗(yàn)證數(shù)據(jù)
李大海表示,端側(cè)模型能夠?yàn)榇竽P秃?Agent 服務(wù),因?yàn)槎烁频膮f(xié)同能夠讓應(yīng)用更好地落地。端側(cè)模型是大模型技術(shù)的積累,讓模型小型化、云上模型能夠用更小的規(guī)模實(shí)現(xiàn)更好的效果,與大模型技術(shù)是一脈相承的。
“省錢大模型”是面壁智能對 MiniCPM 另一個稱呼。
在李大??磥恚杀緯谖磥泶竽P透偁幊蔀殡[性競爭優(yōu)勢。“端側(cè)模型的另外一點(diǎn)就是成本,成本是大模型的利潤率,2023 年我們做非常多商業(yè)化實(shí)驗(yàn)的時候發(fā)現(xiàn),客戶在很多應(yīng)用場景下都非常關(guān)注模型的成本。雖然千億模型效果很好,但真要大規(guī)模部署時還是有很多障礙?!?/span>
當(dāng)前,MiniCPM 的 int 4 量化版本壓縮了 75% 的尺寸,但性能幾乎無損,大大降低了模型對于內(nèi)存和閃存的需求。
以 OPPO 手機(jī)為例,驍龍 855 芯片,成本 600 元, 一共運(yùn)行 5 年報廢,每秒運(yùn)行 7.5 tokens。以 5 年時間計(jì)算,170 萬 tokens 的推理成本僅為 1 元。這是幾乎只有在云端運(yùn)行 Mistral-medium 成本的 1%。而 GPT-4 的推理成本則是 4700 tokens 1 元。
添加圖片注釋,不超過 140 字(可選)
除了在端側(cè)推理之外,MiniCPM 還有持續(xù)的成本改進(jìn),因?yàn)樗銐蛐?,只需?1 臺機(jī)器持續(xù)參數(shù)訓(xùn)練、1 張顯卡進(jìn)行高效參數(shù)微調(diào)。
添加圖片注釋,不超過 140 字(可選)
李大海表示,當(dāng)前手機(jī)推理未曾深入進(jìn)行優(yōu)化,而 GPU 加速已采用各種采樣加速進(jìn)行優(yōu)化,未來手機(jī)推理成本還可以進(jìn)一步降低。
“凡是能在端側(cè)用戶手里解決的算力,就不要到云側(cè)運(yùn)算,否則承擔(dān)的算力成本是不可想象的。”清華大學(xué)長聘副教授劉知遠(yuǎn)說道。而對于未來更大算力問題的解決,劉知遠(yuǎn)表示答案一定是云端協(xié)同。端側(cè)大模型要找到它的天花板,并把天花板不斷抬高,這對商業(yè)化的大模型非常重要。
李大海表示,小尺寸是模型技術(shù)的極限競技場。那么,面壁智能團(tuán)隊(duì)如何實(shí)現(xiàn)“以小博大”?
“Infra 是大模型創(chuàng)業(yè)護(hù)城河,決定了公司的技術(shù)上限?!眻F(tuán)隊(duì) 2021 年開發(fā)的高效訓(xùn)練框架 BMTrain,是業(yè)界 SOTA 的分布式實(shí)現(xiàn),將千億模型訓(xùn)練門檻拉低到 64 卡;高效推理框架 BMInf 高效采樣加速算法,采用稀疏激活方法實(shí)現(xiàn) 3 倍推理加速;高效壓縮框架 BMCook 進(jìn)行 Int4 無損壓縮,可實(shí)現(xiàn) 5 倍以上推理加速,降低 70% 的存儲開銷;高效微調(diào)框架 BMTune 內(nèi)含各種工具包。
算法論是面壁智能在過去三年實(shí)踐中總結(jié)出來的訓(xùn)練方法論,把大模型變成了實(shí)驗(yàn)科學(xué),面壁智能的團(tuán)隊(duì)希望未來將其變成理論科學(xué)。
面壁智能技術(shù)團(tuán)隊(duì)提出在小模型上進(jìn)行廣泛的實(shí)驗(yàn),通過可遷移的配置,獲得大模型的最優(yōu)訓(xùn)練方法。具體而言,團(tuán)隊(duì)進(jìn)行了 Hyper-paramters、Batch size、Learning Rate、Learning Rate Scheduler、Data Strategy 五個方面的模型沙盒研究。
添加圖片注釋,不超過 140 字(可選)
在超參穩(wěn)定的模型規(guī)模擴(kuò)增上,團(tuán)隊(duì)對模型的各參數(shù)模塊之間進(jìn)行了連接權(quán)重的調(diào)整、以及對模型初始化的調(diào)整,部分調(diào)整接近 Cerebras-GPT。
Batchsize 決定了模型的收斂速度和消耗計(jì)算資源的平衡。對此,團(tuán)隊(duì)在 0.009B,0.036B,0.17B 的模型上分別進(jìn)行了 6 個 batchsize 的訓(xùn)練實(shí)驗(yàn),最終觀察到了最優(yōu) batchsize 隨著 C4 數(shù)據(jù)集上的 loss 的偏移規(guī)律。根據(jù)這個規(guī)律,團(tuán)隊(duì)預(yù)估了 2B 模型達(dá)到 C4 損失 2.5 左右,4M 是比較合適的 Batchsize。
最優(yōu)學(xué)習(xí)率上,團(tuán)隊(duì)通過在 0.04B, 0.1B, 0.3B, 0.5B 上分別做的 6 組學(xué)習(xí)率實(shí)驗(yàn)發(fā)現(xiàn),雖然模型大小擴(kuò)大了 10 倍,但是最優(yōu)學(xué)習(xí)率偏移并不明顯,均在 0.01 左右。在 2.1B 的規(guī)模上進(jìn)行了簡單驗(yàn)證,發(fā)現(xiàn)在 0.01 的學(xué)習(xí)率確實(shí)能取得最低的 Loss。
此外,團(tuán)隊(duì)還提出了一種新的學(xué)習(xí)率調(diào)度策略:Warmup-Stable-Decay(WSD)調(diào)度器。這種學(xué)習(xí)率調(diào)度器分為三個階段,warmup 階段(用 W 表示 warmup 階段結(jié)束時的步數(shù) / 訓(xùn)練量)、穩(wěn)定訓(xùn)練階段(用 S 表示穩(wěn)定訓(xùn)練階段結(jié)束時的步數(shù) / 訓(xùn)練量)和退火階段(用 D 表示退火階段的訓(xùn)練量)。
由于 WSD 調(diào)度器可以在任何階段退火,取得該階段最優(yōu)的模型,因此團(tuán)隊(duì)也探索了如果持續(xù)訓(xùn)練一個大小為 N 的模型,最優(yōu)情況下能超過多大參數(shù)量的 Chichilla-optimal 模型。
結(jié)果顯示,如果一個模型用面壁智能團(tuán)隊(duì)的 WSD 調(diào)度器訓(xùn)練,在消耗等量計(jì)算量時,可以達(dá)到約 5 倍模型參數(shù)量的 Chinchilla-optimal 模型。而持續(xù)訓(xùn)練下去,有可能超越更大的 Chinchilla-optimal 模型。
同時團(tuán)隊(duì)預(yù)測,9B 模型的 Chinchilla Optimal 的終態(tài) C4 Loss 約為 2.40,7B 模型約為 2.45。MiniCPM 的最終 C4 Loss 為 2.41,接近于 9B 的 Chinchilla Optimal 模型。
發(fā)布 MiniCPM 之前,團(tuán)隊(duì)做了上千次的模型沙盒實(shí)驗(yàn),探索出的最優(yōu)配置為:WSD LRS,batchsize 為 3.93M,Max Learning Rate 為 0.01。
除了技術(shù)積累之外,面壁智能在 MiniCPM 的訓(xùn)練中,也追求數(shù)據(jù)的極致高效。
這次,MiniCPM 公開了訓(xùn)練的兩個數(shù)據(jù)配方。在穩(wěn)定訓(xùn)練階段,團(tuán)隊(duì)使用了 1T 的去重后數(shù)據(jù),其中大部分?jǐn)?shù)據(jù)從開源數(shù)據(jù)中收集而來:
添加圖片注釋,不超過 140 字(可選)
退火階段,SFT 數(shù)據(jù)配比如下:
添加圖片注釋,不超過 140 字(可選)
“用更低的成本完成最小的模型,我們沒有在追趕,我們一直領(lǐng)先。”劉知遠(yuǎn)說道。
更多技術(shù)細(xì)節(jié)可以查看:
https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a
作為 2024 年的首次對外發(fā)布,李大海也回顧了面壁智能的成長歷程:
“面壁智能是最早的大模型研究團(tuán)隊(duì)之一。2018 年,我們脫胎于清華 NLP 實(shí)驗(yàn)室發(fā)布 ERNIE 模型,ERNIE 模型是全球首個知識指導(dǎo)的預(yù)訓(xùn)練模型;2020 年 12 月,我們是悟道大模型首發(fā)主力陣容;2022 年 4 月,OpenBMB 開源社區(qū)成立;2022 年 8 月,面壁智能公司化運(yùn)作;2023 年,經(jīng)歷了兩輪融資,其中第一輪是知乎獨(dú)家天使輪融資,也是這一年,面壁智能領(lǐng)跑 Agent 研究發(fā)布了 AgentVerse、ChatDev、XAgent 等框架?!?/span>
如今已經(jīng)擁有超 100 人的科研團(tuán)隊(duì),其中“清華”含量 80%,平均年齡 28 歲,還有來自阿里、字節(jié)、百度等公司的人才。
未來,面壁智能表示將貫徹“大模型 +Agent”雙引擎戰(zhàn)略,致力于更小規(guī)模、更快速度和更低成本的實(shí)現(xiàn)。
原文鏈接:
https://www.infoq.cn/news/dQmGdaleo5P0I2NVCxpZ