开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開APP
          userphoto
          未登錄

          開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

          開通VIP
          清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬 tokens 僅需 1 塊錢!

          2 月 1 日,面壁智能與清華大學(xué)自然語言處理實(shí)驗(yàn)室共同開源了系列端側(cè)語言大模型 MiniCPM,主體語言模型 MiniCPM-2B 僅有 24 億(2.4B)的非詞嵌入?yún)?shù)量。

          在綜合性榜單上與 Mistral-7B 相近,在中文、數(shù)學(xué)、代碼能力表現(xiàn)更優(yōu),整體性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。

          具體開源模型包括:

          • 基于 MiniCPM-2B 的指令微調(diào)與人類偏好對齊的 MiniCPM-2B-SFT/DPO。
          • 基于 MiniCPM-2B 的多模態(tài)模型 MiniCPM-V,能力超越基于 Phi-2 的同參數(shù)級別多模態(tài)模型 。
          • MiniCPM-2B-SFT/DPO 的 Int4 量化版 MiniCPM-2B-SFT/DPO-Int4。
          • 基于 MLC-LLM、LLMFarm 開發(fā)的 MiniCPM 手機(jī)端程序,文本及多模態(tài)模型均可在手機(jī)端進(jìn)行推理。

          開源地址(內(nèi)含技術(shù)報告):

          MiniCPM GitHub:https://github.com/OpenBMB/MiniCPMOmniLMM

          GitHub:https://github.com/OpenBMB/OmniLMM

          超越 Mistral-7B、LLaMA-13B

          “用最小的規(guī)模,做最強(qiáng)的 AI?!泵姹谥悄?CEO 李大海說道?!耙孕〔蟆钡牡湫褪?Mistral-7B,其在業(yè)內(nèi)收獲了很多贊譽(yù),一度被譽(yù)為“開源模型的新王者”,其公司 Mistral AI 也被稱為“歐洲 OpenAI”。

          面壁智能的 MiniCPM 一定程度上直接對標(biāo)了 Mistral-7B。在多項(xiàng)主流測評中,MiniCPM-2B 的中英文平均成績均超過了 Mistral-7B?!癕istral-7B 用 7B 戰(zhàn)勝了 LLaMA-13B 的模型,我們用 2B 干掉 LLaMA 的 13B?!泵姹谥悄?CTO 曾國洋說道。

          李大海表示,“跟微軟相比我們有兩大優(yōu)勢,2B 性能小鋼炮同等規(guī)模能力領(lǐng)先,主流表現(xiàn)大幅超越,能力更全、更強(qiáng)。與 13、20B 和 40B 規(guī)模的模型也有掰手腕的能力?!?/span>

          添加圖片注釋,不超過 140 字(可選)

          在英文能力上,MiniCPM 的得分超越了 Llama2-13B、Falcon-40B:

          添加圖片注釋,不超過 140 字(可選)

          在當(dāng)前最接近用戶體感的評測集 MTBench 上,MiniCPM-2B 超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等眾多代表性開源大模型。

          添加圖片注釋,不超過 140 字(可選)

          小試一下

          語言能力方面, MiniCPM 可以一下寫十個“深夜憂傷”文案:

          添加圖片注釋,不超過 140 字(可選)

          也能陪你“cosplay”:

          添加圖片注釋,不超過 140 字(可選)

          或許小時候出去玩,老師還要求寫游記的“頭痛”可以緩解下:

          添加圖片注釋,不超過 140 字(可選)

          此外,MiniCPM 不僅知道黃山、泰山準(zhǔn)確海拔,還能計(jì)算差值:

          添加圖片注釋,不超過 140 字(可選)

          當(dāng)不同語言混在一起時,MiniCPM 可以把兩種不同的語言識別出來并自動進(jìn)行翻譯:

          添加圖片注釋,不超過 140 字(可選)

          編程能力上,MiniCPM 也會寫代碼,可以讓它自己“開發(fā)”自己:

          視頻請到原文觀看

          MiniCPM 也具有多模態(tài)能力,比如拍個不知名的蘑菇問問它是不是可以吃:

          視頻請到原文觀看

          如果在野外時,從帳篷里面看到一條蛇怎么處理:

          視頻請到原文觀看

          根據(jù)清華大學(xué)計(jì)算機(jī)系博士胡聲鼎的說法,MiniCPM 大約用了兩周的時間進(jìn)行訓(xùn)練。隨著硬件的發(fā)展,未來在手機(jī)上跑 7B 甚至幾十 B 的模型也是有可能的。

          可以手機(jī)上部署的多模態(tài)大模型

          以 MiniCPM-2B 為基礎(chǔ),團(tuán)隊(duì)還構(gòu)建了端側(cè)多模態(tài)大模型 MiniCPM-V。MiniCPM-V 可以部署在大多數(shù) GPU 卡和個人計(jì)算機(jī)上,甚至可以部署在手機(jī)等端側(cè)設(shè)備上,并支持中英文雙語多模態(tài)交互。

          在視覺編碼方面,團(tuán)隊(duì)通過 perceiver 重采樣器將圖像表示壓縮為 64 個 tokens,明顯少于其他基于 MLP 架構(gòu)的 lms(通常要大于 512tokens)。這使得 MiniCPM-V 在推理過程中以更少的內(nèi)存開銷和更高的速度運(yùn)行。

          在多個基準(zhǔn)(包括 MMMU、MME 和 MMbech 等)中,MiniCPM-V 實(shí)現(xiàn)了更先進(jìn)的性能,超越了基于 Phi-2 構(gòu)建的現(xiàn)有多模態(tài)大模型,甚至達(dá)到了與 9.6B Qwen-VL-Chat 相當(dāng)或更好的性能。

          添加圖片注釋,不超過 140 字(可選)

          測試下 MiniCPM-V 的圖像識別能力,它成功識別出了圖片中有一只貓,并且正睡在毛毯上,并告訴我們不要打擾它。

          添加圖片注釋,不超過 140 字(可選)

          面壁智能表示,在進(jìn)行 Int4 量化后,MiniCPM 只占 2 GB 空間,具備在端側(cè)手機(jī)進(jìn)行模型部署的條件,消費(fèi)級顯卡也能流暢玩轉(zhuǎn)大模型。

          此外,面壁智能還開源了擅長視覺和語言建模的大型多模態(tài)模型 OmniLMM,目前發(fā)布了 兩個特色版本,OmniLMM-12B 和 OmniLMM-3B。

          在多模態(tài)視覺交互問答上,OmniLMM 與純文本的 ChatGPT3.5 結(jié)合,表現(xiàn)出了多重能力:實(shí)時動作識別,理解玩游戲的取勝策略等:

          視頻請到原文觀看

          面壁智能也把多模態(tài)能力集成到更多圖片細(xì)節(jié)觀察能力上,比如導(dǎo)盲犬沒有穿標(biāo)識服裝,也可以通過“手杖”和“挽具”推測出它是一個導(dǎo)盲犬:

          添加圖片注釋,不超過 140 字(可選)

          對于錯位圖片,OmniLMM 也能夠識別出來,實(shí)際上是一個人坐在椅子上,另一個人走在路上:

          添加圖片注釋,不超過 140 字(可選)

          對于幽默向的圖片,它也可以識別出來:一只狗穿著藍(lán)色襯衫和短褲在自拍,這不是一只狗的典型行為。

          添加圖片注釋,不超過 140 字(可選)

          目前,團(tuán)隊(duì)已經(jīng)針對不同的操作系統(tǒng)進(jìn)行了不同的適配。對于 Android、Harmony 系統(tǒng),用戶需要使用開源框架 MLC-LLM 進(jìn)行模型適配,支持文本模型、多模態(tài)模型,適用于 MiniCPM-2B-SFT-INT4、MiniCPM-2B-DPO-INT4、MiniCPM-V;對于 iOS 系統(tǒng),則需使用開源框架 LLMFarm 進(jìn)行模型適配,僅支持文本模型,適用于 MiniCPM-2B-SFT-INT4、MiniCPM-2B-DPO-INT4。

          添加圖片注釋,不超過 140 字(可選)

          在不同手機(jī)型號上的相關(guān)驗(yàn)證數(shù)據(jù)

          李大海表示,端側(cè)模型能夠?yàn)榇竽P秃?Agent 服務(wù),因?yàn)槎烁频膮f(xié)同能夠讓應(yīng)用更好地落地。端側(cè)模型是大模型技術(shù)的積累,讓模型小型化、云上模型能夠用更小的規(guī)模實(shí)現(xiàn)更好的效果,與大模型技術(shù)是一脈相承的。

          “省錢大模型”

          “省錢大模型”是面壁智能對 MiniCPM 另一個稱呼。

          在李大??磥恚杀緯谖磥泶竽P透偁幊蔀殡[性競爭優(yōu)勢。“端側(cè)模型的另外一點(diǎn)就是成本,成本是大模型的利潤率,2023 年我們做非常多商業(yè)化實(shí)驗(yàn)的時候發(fā)現(xiàn),客戶在很多應(yīng)用場景下都非常關(guān)注模型的成本。雖然千億模型效果很好,但真要大規(guī)模部署時還是有很多障礙?!?/span>

          當(dāng)前,MiniCPM 的 int 4 量化版本壓縮了 75% 的尺寸,但性能幾乎無損,大大降低了模型對于內(nèi)存和閃存的需求。

          以 OPPO 手機(jī)為例,驍龍 855 芯片,成本 600 元, 一共運(yùn)行 5 年報廢,每秒運(yùn)行 7.5 tokens。以 5 年時間計(jì)算,170 萬 tokens 的推理成本僅為 1 元。這是幾乎只有在云端運(yùn)行 Mistral-medium 成本的 1%。而 GPT-4 的推理成本則是 4700 tokens 1 元。

          添加圖片注釋,不超過 140 字(可選)

          除了在端側(cè)推理之外,MiniCPM 還有持續(xù)的成本改進(jìn),因?yàn)樗銐蛐?,只需?1 臺機(jī)器持續(xù)參數(shù)訓(xùn)練、1 張顯卡進(jìn)行高效參數(shù)微調(diào)。

          添加圖片注釋,不超過 140 字(可選)

          李大海表示,當(dāng)前手機(jī)推理未曾深入進(jìn)行優(yōu)化,而 GPU 加速已采用各種采樣加速進(jìn)行優(yōu)化,未來手機(jī)推理成本還可以進(jìn)一步降低。

          “凡是能在端側(cè)用戶手里解決的算力,就不要到云側(cè)運(yùn)算,否則承擔(dān)的算力成本是不可想象的。”清華大學(xué)長聘副教授劉知遠(yuǎn)說道。而對于未來更大算力問題的解決,劉知遠(yuǎn)表示答案一定是云端協(xié)同。端側(cè)大模型要找到它的天花板,并把天花板不斷抬高,這對商業(yè)化的大模型非常重要。

          以小搏大,憑什么

          李大海表示,小尺寸是模型技術(shù)的極限競技場。那么,面壁智能團(tuán)隊(duì)如何實(shí)現(xiàn)“以小博大”?

          全流程高效 Infra

          “Infra 是大模型創(chuàng)業(yè)護(hù)城河,決定了公司的技術(shù)上限?!眻F(tuán)隊(duì) 2021 年開發(fā)的高效訓(xùn)練框架 BMTrain,是業(yè)界 SOTA 的分布式實(shí)現(xiàn),將千億模型訓(xùn)練門檻拉低到 64 卡;高效推理框架 BMInf 高效采樣加速算法,采用稀疏激活方法實(shí)現(xiàn) 3 倍推理加速;高效壓縮框架 BMCook 進(jìn)行 Int4 無損壓縮,可實(shí)現(xiàn) 5 倍以上推理加速,降低 70% 的存儲開銷;高效微調(diào)框架 BMTune 內(nèi)含各種工具包。

          算法論是面壁智能在過去三年實(shí)踐中總結(jié)出來的訓(xùn)練方法論,把大模型變成了實(shí)驗(yàn)科學(xué),面壁智能的團(tuán)隊(duì)希望未來將其變成理論科學(xué)。

          模型沙盒實(shí)驗(yàn)

          面壁智能技術(shù)團(tuán)隊(duì)提出在小模型上進(jìn)行廣泛的實(shí)驗(yàn),通過可遷移的配置,獲得大模型的最優(yōu)訓(xùn)練方法。具體而言,團(tuán)隊(duì)進(jìn)行了 Hyper-paramters、Batch size、Learning Rate、Learning Rate Scheduler、Data Strategy 五個方面的模型沙盒研究。

          添加圖片注釋,不超過 140 字(可選)

          在超參穩(wěn)定的模型規(guī)模擴(kuò)增上,團(tuán)隊(duì)對模型的各參數(shù)模塊之間進(jìn)行了連接權(quán)重的調(diào)整、以及對模型初始化的調(diào)整,部分調(diào)整接近 Cerebras-GPT。

          Batchsize 決定了模型的收斂速度和消耗計(jì)算資源的平衡。對此,團(tuán)隊(duì)在 0.009B,0.036B,0.17B 的模型上分別進(jìn)行了 6 個 batchsize 的訓(xùn)練實(shí)驗(yàn),最終觀察到了最優(yōu) batchsize 隨著 C4 數(shù)據(jù)集上的 loss 的偏移規(guī)律。根據(jù)這個規(guī)律,團(tuán)隊(duì)預(yù)估了 2B 模型達(dá)到 C4 損失 2.5 左右,4M 是比較合適的 Batchsize。

          最優(yōu)學(xué)習(xí)率上,團(tuán)隊(duì)通過在 0.04B, 0.1B, 0.3B, 0.5B 上分別做的 6 組學(xué)習(xí)率實(shí)驗(yàn)發(fā)現(xiàn),雖然模型大小擴(kuò)大了 10 倍,但是最優(yōu)學(xué)習(xí)率偏移并不明顯,均在 0.01 左右。在 2.1B 的規(guī)模上進(jìn)行了簡單驗(yàn)證,發(fā)現(xiàn)在 0.01 的學(xué)習(xí)率確實(shí)能取得最低的 Loss。

          此外,團(tuán)隊(duì)還提出了一種新的學(xué)習(xí)率調(diào)度策略:Warmup-Stable-Decay(WSD)調(diào)度器。這種學(xué)習(xí)率調(diào)度器分為三個階段,warmup 階段(用 W 表示 warmup 階段結(jié)束時的步數(shù) / 訓(xùn)練量)、穩(wěn)定訓(xùn)練階段(用 S 表示穩(wěn)定訓(xùn)練階段結(jié)束時的步數(shù) / 訓(xùn)練量)和退火階段(用 D 表示退火階段的訓(xùn)練量)。

          由于 WSD 調(diào)度器可以在任何階段退火,取得該階段最優(yōu)的模型,因此團(tuán)隊(duì)也探索了如果持續(xù)訓(xùn)練一個大小為 N 的模型,最優(yōu)情況下能超過多大參數(shù)量的 Chichilla-optimal 模型。

          結(jié)果顯示,如果一個模型用面壁智能團(tuán)隊(duì)的 WSD 調(diào)度器訓(xùn)練,在消耗等量計(jì)算量時,可以達(dá)到約 5 倍模型參數(shù)量的 Chinchilla-optimal 模型。而持續(xù)訓(xùn)練下去,有可能超越更大的 Chinchilla-optimal 模型。

          同時團(tuán)隊(duì)預(yù)測,9B 模型的 Chinchilla Optimal 的終態(tài) C4 Loss 約為 2.40,7B 模型約為 2.45。MiniCPM 的最終 C4 Loss 為 2.41,接近于 9B 的 Chinchilla Optimal 模型。

          發(fā)布 MiniCPM 之前,團(tuán)隊(duì)做了上千次的模型沙盒實(shí)驗(yàn),探索出的最優(yōu)配置為:WSD LRS,batchsize 為 3.93M,Max Learning Rate 為 0.01。

          高質(zhì)量數(shù)據(jù)

          除了技術(shù)積累之外,面壁智能在 MiniCPM 的訓(xùn)練中,也追求數(shù)據(jù)的極致高效。

          這次,MiniCPM 公開了訓(xùn)練的兩個數(shù)據(jù)配方。在穩(wěn)定訓(xùn)練階段,團(tuán)隊(duì)使用了 1T 的去重后數(shù)據(jù),其中大部分?jǐn)?shù)據(jù)從開源數(shù)據(jù)中收集而來:

          添加圖片注釋,不超過 140 字(可選)

          退火階段,SFT 數(shù)據(jù)配比如下:

          添加圖片注釋,不超過 140 字(可選)

          “用更低的成本完成最小的模型,我們沒有在追趕,我們一直領(lǐng)先。”劉知遠(yuǎn)說道。

          更多技術(shù)細(xì)節(jié)可以查看:

          https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a

          結(jié)束語

          作為 2024 年的首次對外發(fā)布,李大海也回顧了面壁智能的成長歷程:

          “面壁智能是最早的大模型研究團(tuán)隊(duì)之一。2018 年,我們脫胎于清華 NLP 實(shí)驗(yàn)室發(fā)布 ERNIE 模型,ERNIE 模型是全球首個知識指導(dǎo)的預(yù)訓(xùn)練模型;2020 年 12 月,我們是悟道大模型首發(fā)主力陣容;2022 年 4 月,OpenBMB 開源社區(qū)成立;2022 年 8 月,面壁智能公司化運(yùn)作;2023 年,經(jīng)歷了兩輪融資,其中第一輪是知乎獨(dú)家天使輪融資,也是這一年,面壁智能領(lǐng)跑 Agent 研究發(fā)布了 AgentVerse、ChatDev、XAgent 等框架?!?/span>

          如今已經(jīng)擁有超 100 人的科研團(tuán)隊(duì),其中“清華”含量 80%,平均年齡 28 歲,還有來自阿里、字節(jié)、百度等公司的人才。

          未來,面壁智能表示將貫徹“大模型 +Agent”雙引擎戰(zhàn)略,致力于更小規(guī)模、更快速度和更低成本的實(shí)現(xiàn)。

          原文鏈接:

          https://www.infoq.cn/news/dQmGdaleo5P0I2NVCxpZ

          本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報。
          打開APP,閱讀全文并永久保存 查看更多類似文章
          猜你喜歡
          類似文章
          人工智能[1233]當(dāng)大模型公司都在卷大參數(shù),面壁智能卻在盡可能把參數(shù)做小
          2B小鋼炮碾壓Mistral-7B,旗艦級端側(cè)模型炸場開年黑馬!1080Ti可訓(xùn),170萬tokens成本僅1元
          1元=1700000tokens!清華系發(fā)布國產(chǎn)Mistral僅2B,老手機(jī)都帶得動,GitHub一天斬獲300 星
          谷歌內(nèi)部文件泄漏:谷歌、OpenAI都沒有護(hù)城河,大模型門檻正被開源踏破
          谷歌再放核彈!開源最強(qiáng)大模型Gemini技術(shù),碾壓Llama 2,一月三大招硬剛OpenAI
          路線變了!重返開源戰(zhàn)場,谷歌打響AI“斯大林格勒保衛(wèi)戰(zhàn)”
          更多類似文章 >>
          生活服務(wù)
          分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
          綁定賬號成功
          后續(xù)可登錄賬號暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點(diǎn)擊這里聯(lián)系客服!

          聯(lián)系客服