2 月 1 日，面壁智能與清華大學(xué)自然語言處理實(shí)驗(yàn)室共同開源了系列端側(cè)語言大模型 MiniCPM，主體語言模型 MiniCPM-2B 僅有 24 億（2.4B）的非詞嵌入?yún)?shù)量。

在綜合性榜單上與 Mistral-7B 相近，在中文、數(shù)學(xué)、代碼能力表現(xiàn)更優(yōu)，整體性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。

具體開源模型包括：

基于 MiniCPM-2B 的指令微調(diào)與人類偏好對齊的 MiniCPM-2B-SFT/DPO。
基于 MiniCPM-2B 的多模態(tài)模型 MiniCPM-V，能力超越基于 Phi-2 的同參數(shù)級別多模態(tài)模型。
MiniCPM-2B-SFT/DPO 的 Int4 量化版 MiniCPM-2B-SFT/DPO-Int4。
基于 MLC-LLM、LLMFarm 開發(fā)的 MiniCPM 手機(jī)端程序，文本及多模態(tài)模型均可在手機(jī)端進(jìn)行推理。

開源地址（內(nèi)含技術(shù)報告）：

MiniCPM GitHub：https://github.com/OpenBMB/MiniCPMOmniLMM

GitHub：https://github.com/OpenBMB/OmniLMM

超越 Mistral-7B、LLaMA-13B

“用最小的規(guī)模，做最強(qiáng)的 AI?！泵姹谥悄?CEO 李大海說道?！耙孕〔蟆钡牡湫褪?Mistral-7B，其在業(yè)內(nèi)收獲了很多贊譽(yù)，一度被譽(yù)為“開源模型的新王者”，其公司 Mistral AI 也被稱為“歐洲 OpenAI”。

面壁智能的 MiniCPM 一定程度上直接對標(biāo)了 Mistral-7B。在多項(xiàng)主流測評中，MiniCPM-2B 的中英文平均成績均超過了 Mistral-7B?！癕istral-7B 用 7B 戰(zhàn)勝了 LLaMA-13B 的模型，我們用 2B 干掉 LLaMA 的 13B?！泵姹谥悄?CTO 曾國洋說道。

李大海表示，“跟微軟相比我們有兩大優(yōu)勢，2B 性能小鋼炮同等規(guī)模能力領(lǐng)先，主流表現(xiàn)大幅超越，能力更全、更強(qiáng)。與 13、20B 和 40B 規(guī)模的模型也有掰手腕的能力?！?/span>

添加圖片注釋，不超過 140 字（可選）

在英文能力上，MiniCPM 的得分超越了 Llama2-13B、Falcon-40B：

添加圖片注釋，不超過 140 字（可選）

在當(dāng)前最接近用戶體感的評測集 MTBench 上，MiniCPM-2B 超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等眾多代表性開源大模型。

添加圖片注釋，不超過 140 字（可選）

小試一下

語言能力方面， MiniCPM 可以一下寫十個“深夜憂傷”文案：

添加圖片注釋，不超過 140 字（可選）

也能陪你“cosplay”：

添加圖片注釋，不超過 140 字（可選）

或許小時候出去玩，老師還要求寫游記的“頭痛”可以緩解下：

添加圖片注釋，不超過 140 字（可選）

此外，MiniCPM 不僅知道黃山、泰山準(zhǔn)確海拔，還能計(jì)算差值：

添加圖片注釋，不超過 140 字（可選）

當(dāng)不同語言混在一起時，MiniCPM 可以把兩種不同的語言識別出來并自動進(jìn)行翻譯：

添加圖片注釋，不超過 140 字（可選）

編程能力上，MiniCPM 也會寫代碼，可以讓它自己“開發(fā)”自己：

視頻請到原文觀看

MiniCPM 也具有多模態(tài)能力，比如拍個不知名的蘑菇問問它是不是可以吃：

視頻請到原文觀看

如果在野外時，從帳篷里面看到一條蛇怎么處理：

視頻請到原文觀看

根據(jù)清華大學(xué)計(jì)算機(jī)系博士胡聲鼎的說法，MiniCPM 大約用了兩周的時間進(jìn)行訓(xùn)練。隨著硬件的發(fā)展，未來在手機(jī)上跑 7B 甚至幾十 B 的模型也是有可能的。

可以手機(jī)上部署的多模態(tài)大模型

以 MiniCPM-2B 為基礎(chǔ)，團(tuán)隊(duì)還構(gòu)建了端側(cè)多模態(tài)大模型 MiniCPM-V。MiniCPM-V 可以部署在大多數(shù) GPU 卡和個人計(jì)算機(jī)上，甚至可以部署在手機(jī)等端側(cè)設(shè)備上，并支持中英文雙語多模態(tài)交互。

在視覺編碼方面，團(tuán)隊(duì)通過 perceiver 重采樣器將圖像表示壓縮為 64 個 tokens，明顯少于其他基于 MLP 架構(gòu)的 lms(通常要大于 512tokens)。這使得 MiniCPM-V 在推理過程中以更少的內(nèi)存開銷和更高的速度運(yùn)行。

在多個基準(zhǔn)（包括 MMMU、MME 和 MMbech 等）中，MiniCPM-V 實(shí)現(xiàn)了更先進(jìn)的性能，超越了基于 Phi-2 構(gòu)建的現(xiàn)有多模態(tài)大模型，甚至達(dá)到了與 9.6B Qwen-VL-Chat 相當(dāng)或更好的性能。

添加圖片注釋，不超過 140 字（可選）

測試下 MiniCPM-V 的圖像識別能力，它成功識別出了圖片中有一只貓，并且正睡在毛毯上，并告訴我們不要打擾它。

添加圖片注釋，不超過 140 字（可選）

面壁智能表示，在進(jìn)行 Int4 量化后，MiniCPM 只占 2 GB 空間，具備在端側(cè)手機(jī)進(jìn)行模型部署的條件，消費(fèi)級顯卡也能流暢玩轉(zhuǎn)大模型。

此外，面壁智能還開源了擅長視覺和語言建模的大型多模態(tài)模型 OmniLMM，目前發(fā)布了兩個特色版本，OmniLMM-12B 和 OmniLMM-3B。

在多模態(tài)視覺交互問答上，OmniLMM 與純文本的 ChatGPT3.5 結(jié)合，表現(xiàn)出了多重能力：實(shí)時動作識別，理解玩游戲的取勝策略等：

視頻請到原文觀看

面壁智能也把多模態(tài)能力集成到更多圖片細(xì)節(jié)觀察能力上，比如導(dǎo)盲犬沒有穿標(biāo)識服裝，也可以通過“手杖”和“挽具”推測出它是一個導(dǎo)盲犬：

添加圖片注釋，不超過 140 字（可選）

對于錯位圖片，OmniLMM 也能夠識別出來，實(shí)際上是一個人坐在椅子上，另一個人走在路上：

添加圖片注釋，不超過 140 字（可選）

對于幽默向的圖片，它也可以識別出來：一只狗穿著藍(lán)色襯衫和短褲在自拍，這不是一只狗的典型行為。

添加圖片注釋，不超過 140 字（可選）

目前，團(tuán)隊(duì)已經(jīng)針對不同的操作系統(tǒng)進(jìn)行了不同的適配。對于 Android、Harmony 系統(tǒng)，用戶需要使用開源框架 MLC-LLM 進(jìn)行模型適配，支持文本模型、多模態(tài)模型，適用于 MiniCPM-2B-SFT-INT4、MiniCPM-2B-DPO-INT4、MiniCPM-V；對于 iOS 系統(tǒng)，則需使用開源框架 LLMFarm 進(jìn)行模型適配，僅支持文本模型，適用于 MiniCPM-2B-SFT-INT4、MiniCPM-2B-DPO-INT4。

添加圖片注釋，不超過 140 字（可選）

在不同手機(jī)型號上的相關(guān)驗(yàn)證數(shù)據(jù)

李大海表示，端側(cè)模型能夠?yàn)榇竽Ｐ秃?Agent 服務(wù)，因?yàn)槎烁频膮f(xié)同能夠讓應(yīng)用更好地落地。端側(cè)模型是大模型技術(shù)的積累，讓模型小型化、云上模型能夠用更小的規(guī)模實(shí)現(xiàn)更好的效果，與大模型技術(shù)是一脈相承的。

“省錢大模型”

“省錢大模型”是面壁智能對 MiniCPM 另一個稱呼。

在李大?？磥恚杀緯谖磥泶竽Ｐ透偁幊蔀殡[性競爭優(yōu)勢。“端側(cè)模型的另外一點(diǎn)就是成本，成本是大模型的利潤率，2023 年我們做非常多商業(yè)化實(shí)驗(yàn)的時候發(fā)現(xiàn)，客戶在很多應(yīng)用場景下都非常關(guān)注模型的成本。雖然千億模型效果很好，但真要大規(guī)模部署時還是有很多障礙?！?/span>

當(dāng)前，MiniCPM 的 int 4 量化版本壓縮了 75% 的尺寸，但性能幾乎無損，大大降低了模型對于內(nèi)存和閃存的需求。

以 OPPO 手機(jī)為例，驍龍 855 芯片，成本 600 元，一共運(yùn)行 5 年報廢，每秒運(yùn)行 7.5 tokens。以 5 年時間計(jì)算，170 萬 tokens 的推理成本僅為 1 元。這是幾乎只有在云端運(yùn)行 Mistral-medium 成本的 1%。而 GPT-4 的推理成本則是 4700 tokens 1 元。

添加圖片注釋，不超過 140 字（可選）

除了在端側(cè)推理之外，MiniCPM 還有持續(xù)的成本改進(jìn)，因?yàn)樗銐蛐?，只需?1 臺機(jī)器持續(xù)參數(shù)訓(xùn)練、1 張顯卡進(jìn)行高效參數(shù)微調(diào)。

添加圖片注釋，不超過 140 字（可選）

李大海表示，當(dāng)前手機(jī)推理未曾深入進(jìn)行優(yōu)化，而 GPU 加速已采用各種采樣加速進(jìn)行優(yōu)化，未來手機(jī)推理成本還可以進(jìn)一步降低。

“凡是能在端側(cè)用戶手里解決的算力，就不要到云側(cè)運(yùn)算，否則承擔(dān)的算力成本是不可想象的。”清華大學(xué)長聘副教授劉知遠(yuǎn)說道。而對于未來更大算力問題的解決，劉知遠(yuǎn)表示答案一定是云端協(xié)同。端側(cè)大模型要找到它的天花板，并把天花板不斷抬高，這對商業(yè)化的大模型非常重要。

以小搏大，憑什么

李大海表示，小尺寸是模型技術(shù)的極限競技場。那么，面壁智能團(tuán)隊(duì)如何實(shí)現(xiàn)“以小博大”？

全流程高效 Infra

“Infra 是大模型創(chuàng)業(yè)護(hù)城河，決定了公司的技術(shù)上限?！眻F(tuán)隊(duì) 2021 年開發(fā)的高效訓(xùn)練框架 BMTrain，是業(yè)界 SOTA 的分布式實(shí)現(xiàn)，將千億模型訓(xùn)練門檻拉低到 64 卡；高效推理框架 BMInf 高效采樣加速算法，采用稀疏激活方法實(shí)現(xiàn) 3 倍推理加速；高效壓縮框架 BMCook 進(jìn)行 Int4 無損壓縮，可實(shí)現(xiàn) 5 倍以上推理加速，降低 70% 的存儲開銷；高效微調(diào)框架 BMTune 內(nèi)含各種工具包。

算法論是面壁智能在過去三年實(shí)踐中總結(jié)出來的訓(xùn)練方法論，把大模型變成了實(shí)驗(yàn)科學(xué)，面壁智能的團(tuán)隊(duì)希望未來將其變成理論科學(xué)。

模型沙盒實(shí)驗(yàn)

面壁智能技術(shù)團(tuán)隊(duì)提出在小模型上進(jìn)行廣泛的實(shí)驗(yàn)，通過可遷移的配置，獲得大模型的最優(yōu)訓(xùn)練方法。具體而言，團(tuán)隊(duì)進(jìn)行了 Hyper-paramters、Batch size、Learning Rate、Learning Rate Scheduler、Data Strategy 五個方面的模型沙盒研究。

添加圖片注釋，不超過 140 字（可選）

在超參穩(wěn)定的模型規(guī)模擴(kuò)增上，團(tuán)隊(duì)對模型的各參數(shù)模塊之間進(jìn)行了連接權(quán)重的調(diào)整、以及對模型初始化的調(diào)整，部分調(diào)整接近 Cerebras-GPT。

Batchsize 決定了模型的收斂速度和消耗計(jì)算資源的平衡。對此，團(tuán)隊(duì)在 0.009B，0.036B，0.17B 的模型上分別進(jìn)行了 6 個 batchsize 的訓(xùn)練實(shí)驗(yàn)，最終觀察到了最優(yōu) batchsize 隨著 C4 數(shù)據(jù)集上的 loss 的偏移規(guī)律。根據(jù)這個規(guī)律，團(tuán)隊(duì)預(yù)估了 2B 模型達(dá)到 C4 損失 2.5 左右，4M 是比較合適的 Batchsize。

最優(yōu)學(xué)習(xí)率上，團(tuán)隊(duì)通過在 0.04B, 0.1B, 0.3B, 0.5B 上分別做的 6 組學(xué)習(xí)率實(shí)驗(yàn)發(fā)現(xiàn)，雖然模型大小擴(kuò)大了 10 倍，但是最優(yōu)學(xué)習(xí)率偏移并不明顯，均在 0.01 左右。在 2.1B 的規(guī)模上進(jìn)行了簡單驗(yàn)證，發(fā)現(xiàn)在 0.01 的學(xué)習(xí)率確實(shí)能取得最低的 Loss。

此外，團(tuán)隊(duì)還提出了一種新的學(xué)習(xí)率調(diào)度策略：Warmup-Stable-Decay（WSD）調(diào)度器。這種學(xué)習(xí)率調(diào)度器分為三個階段，warmup 階段（用 W 表示 warmup 階段結(jié)束時的步數(shù) / 訓(xùn)練量）、穩(wěn)定訓(xùn)練階段（用 S 表示穩(wěn)定訓(xùn)練階段結(jié)束時的步數(shù) / 訓(xùn)練量）和退火階段（用 D 表示退火階段的訓(xùn)練量）。

由于 WSD 調(diào)度器可以在任何階段退火，取得該階段最優(yōu)的模型，因此團(tuán)隊(duì)也探索了如果持續(xù)訓(xùn)練一個大小為 N 的模型，最優(yōu)情況下能超過多大參數(shù)量的 Chichilla-optimal 模型。

結(jié)果顯示，如果一個模型用面壁智能團(tuán)隊(duì)的 WSD 調(diào)度器訓(xùn)練，在消耗等量計(jì)算量時，可以達(dá)到約 5 倍模型參數(shù)量的 Chinchilla-optimal 模型。而持續(xù)訓(xùn)練下去，有可能超越更大的 Chinchilla-optimal 模型。

同時團(tuán)隊(duì)預(yù)測，9B 模型的 Chinchilla Optimal 的終態(tài) C4 Loss 約為 2.40，7B 模型約為 2.45。MiniCPM 的最終 C4 Loss 為 2.41，接近于 9B 的 Chinchilla Optimal 模型。

發(fā)布 MiniCPM 之前，團(tuán)隊(duì)做了上千次的模型沙盒實(shí)驗(yàn)，探索出的最優(yōu)配置為：WSD LRS，batchsize 為 3.93M，Max Learning Rate 為 0.01。

高質(zhì)量數(shù)據(jù)

除了技術(shù)積累之外，面壁智能在 MiniCPM 的訓(xùn)練中，也追求數(shù)據(jù)的極致高效。

這次，MiniCPM 公開了訓(xùn)練的兩個數(shù)據(jù)配方。在穩(wěn)定訓(xùn)練階段，團(tuán)隊(duì)使用了 1T 的去重后數(shù)據(jù)，其中大部分?jǐn)?shù)據(jù)從開源數(shù)據(jù)中收集而來：

添加圖片注釋，不超過 140 字（可選）

退火階段，SFT 數(shù)據(jù)配比如下：

添加圖片注釋，不超過 140 字（可選）

“用更低的成本完成最小的模型，我們沒有在追趕，我們一直領(lǐng)先。”劉知遠(yuǎn)說道。

更多技術(shù)細(xì)節(jié)可以查看：

https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a

結(jié)束語

作為 2024 年的首次對外發(fā)布，李大海也回顧了面壁智能的成長歷程：

“面壁智能是最早的大模型研究團(tuán)隊(duì)之一。2018 年，我們脫胎于清華 NLP 實(shí)驗(yàn)室發(fā)布 ERNIE 模型，ERNIE 模型是全球首個知識指導(dǎo)的預(yù)訓(xùn)練模型；2020 年 12 月，我們是悟道大模型首發(fā)主力陣容；2022 年 4 月，OpenBMB 開源社區(qū)成立；2022 年 8 月，面壁智能公司化運(yùn)作；2023 年，經(jīng)歷了兩輪融資，其中第一輪是知乎獨(dú)家天使輪融資，也是這一年，面壁智能領(lǐng)跑 Agent 研究發(fā)布了 AgentVerse、ChatDev、XAgent 等框架?！?/span>

如今已經(jīng)擁有超 100 人的科研團(tuán)隊(duì)，其中“清華”含量 80%，平均年齡 28 歲，還有來自阿里、字節(jié)、百度等公司的人才。

未來，面壁智能表示將貫徹“大模型 +Agent”雙引擎戰(zhàn)略，致力于更小規(guī)模、更快速度和更低成本的實(shí)現(xiàn)。

原文鏈接：

https://www.infoq.cn/news/dQmGdaleo5P0I2NVCxpZ

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報。

开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

超越 Mistral-7B、LLaMA-13B

小試一下

可以手機(jī)上部署的多模態(tài)大模型

“省錢大模型”

以小搏大，憑什么

全流程高效 Infra

模型沙盒實(shí)驗(yàn)

高質(zhì)量數(shù)據(jù)

結(jié)束語

以小搏大，憑什么