“雖然在 2012 年到 2015 年間,深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域獲得了巨大成功,但要達(dá)到通用人工智能,還需要時(shí)間?!边@是讀研究生時(shí)劉小洋的老教授告訴他的。 自然語(yǔ)言理解是走向通用人工智能的關(guān)鍵,但當(dāng)時(shí)整個(gè)行業(yè)沒(méi)能邁出這一步。機(jī)器學(xué)習(xí)框架 TensorFlow 曾一度名聲大噪,“當(dāng)年很多人都學(xué)習(xí) Tensorflow,但是我從頭到尾沒(méi)有學(xué)過(guò),因?yàn)槲业囊恍┡笥烟貏e是學(xué)術(shù)圈的朋友認(rèn)為,它已經(jīng)是過(guò)去式了,不會(huì)再有什么前途。” 如今,劉小洋已經(jīng)是哥倫比亞大學(xué)電子工程系研究員。這么多年過(guò)去,時(shí)間終于給出如何走向通用人工智能的答案:ChatGPT。ChatGPT 的意外突破讓包括劉小洋在內(nèi)的學(xué)者們和企業(yè)里的研發(fā)人員看到了希望?!拔也幌肼浜?,”劉小洋隨后便投入了自己的開源模型創(chuàng)建中,而他的這句話也道出了眾人的心聲:是的,沒(méi)人想在這場(chǎng)競(jìng)賽中落后。 真正影響深遠(yuǎn)的技術(shù)突破并不出現(xiàn)在 ChatGPT 引領(lǐng)的這次浪潮中,而是在五年前。2017 年,谷歌發(fā)表了劃時(shí)代的論文:Attention Is All You Need,創(chuàng)新性地提出了神經(jīng)網(wǎng)絡(luò)架構(gòu) Transformer,Transformer 后來(lái)成了許多模型的主導(dǎo)架構(gòu),包括我們熟知的 GPT。 OpenAI 基于 Transformer 從 GPT-1 開始做起,但直到 GPT-3,普通大眾才看到了 GPT 的強(qiáng)大能力。OpenAI 的關(guān)鍵突破在于 GPT-3 讓人機(jī)對(duì)話變得更有“溫度”,人們開始將人工智能應(yīng)用看作有情感、有理解能力的“生命體”。 具體來(lái)看,ChatGPT 的學(xué)習(xí)流程主要分三個(gè)步驟:第一步,訓(xùn)練監(jiān)督調(diào)優(yōu)模型,主要收集數(shù)據(jù)、訓(xùn)練有監(jiān)督的策略模型;第二步,訓(xùn)練獎(jiǎng)勵(lì)模型,人類標(biāo)注者對(duì)監(jiān)督調(diào)優(yōu)模型的輸出打分,這個(gè)分?jǐn)?shù)反映了被選定人類標(biāo)注者的偏好,這個(gè)偏好多數(shù)情況下是符合人類共同認(rèn)知的;第三步,使用近端策略優(yōu)化模型微調(diào)監(jiān)督調(diào)優(yōu)模型。這其中的關(guān)鍵在于用人類反饋來(lái)強(qiáng)化學(xué)習(xí)不斷提升效果,最后讓用戶感覺(jué)“就像在跟人對(duì)話”。 這種優(yōu)化后的對(duì)話體驗(yàn)促進(jìn)了人與計(jì)算機(jī)交互方式的發(fā)展,即從 GUI(Graphical User Interface,圖形用戶界面)變?yōu)榱?LUI(Language User Interface,語(yǔ)言用戶界面),用戶可以用自然語(yǔ)言表達(dá)需要,而不需要記住特定的命令或點(diǎn)擊特定的圖標(biāo)。 交互方式的改變意味著用戶習(xí)慣的改變,進(jìn)而可能導(dǎo)致與 IT 有關(guān)的各行各業(yè)都或多或少受到?jīng)_擊。對(duì)開發(fā)技術(shù)棧的一個(gè)顯著影響就是,應(yīng)用將以某個(gè)龐大的通用模型為基礎(chǔ)設(shè)施。就如李彥宏所說(shuō),人工智能時(shí)代,IT 技術(shù)棧發(fā)生的根本性改變是從原來(lái)的芯片、操作系統(tǒng)和應(yīng)用三層架構(gòu),變成了芯片、框架、模型、應(yīng)用四層架構(gòu)。LLM(Large Language Model,大型語(yǔ)言模型)成為了人工智能時(shí)代的操作系統(tǒng),所有應(yīng)用都將基于 LLM 開發(fā)。 具體來(lái)看,之前的 NLP(Natural Language Processing,自然語(yǔ)言處理) 技術(shù)棧相對(duì)較淺,假設(shè)需要對(duì)一段文本進(jìn)行詞向量表示,要先將這段文本轉(zhuǎn)化為詞向量,然后將向量數(shù)據(jù)輸入到模型中處理,最后模型輸出結(jié)果。整個(gè)過(guò)程可以看作是由輸入端到輸出端的多個(gè)階段組成,一個(gè)小團(tuán)隊(duì)就可以完成架構(gòu)搭建。雖然這種技術(shù)棧有助于保持一致性,但對(duì)于 LLM 來(lái)說(shuō),這種方式能力差強(qiáng)人意,還不夠“性感”。 對(duì)于新的 LLM 應(yīng)用技術(shù)棧,目前流傳較廣、也較為全面的是硅谷風(fēng)投公司 Andreessen Horowitz 發(fā)布的下面這張圖,圖中涵蓋了數(shù)據(jù)管道、API 插件、存儲(chǔ)、LLMOps、日志等方方面面。
而 LLM 應(yīng)用理念的基本組件有四個(gè):數(shù)據(jù)源、數(shù)據(jù)工程、LLM 和應(yīng)用程序。其中,數(shù)據(jù)源層是管道的起點(diǎn),負(fù)責(zé)協(xié)調(diào)從各種來(lái)源獲取大量數(shù)據(jù);數(shù)據(jù)工程層專注 NLP 數(shù)據(jù)的實(shí)時(shí)處理;LLM 層是核心,包括各種微調(diào)方法等;應(yīng)用層則面向個(gè)人用戶,提供咨詢、程序開發(fā)等不同的服務(wù)。
目前,業(yè)內(nèi)將 LLM 分為兩類:通用模型和行業(yè)模型。通用模型面向各種通用功能設(shè)計(jì),通常由資源豐富的大公司主導(dǎo),如 OpenAI、Google 和 Meta。但在電商、客服和輔助教學(xué)等特定行業(yè)場(chǎng)景下,通用模型并不完全適用,同時(shí)個(gè)人或小型企業(yè)在業(yè)務(wù)規(guī)模較小時(shí)也沒(méi)有足夠的資源支撐通用模型,這時(shí)的另一個(gè)可選項(xiàng)就是用特定場(chǎng)景數(shù)據(jù)對(duì)通用模型微調(diào)得到的行業(yè)模型。
在這種分類影響下,LLM 應(yīng)用主要有兩種:基于通用模型構(gòu)建的應(yīng)用和基于特定行業(yè)模型的應(yīng)用。
對(duì)于前者,開發(fā)者在通用模型的支持下,直接調(diào)用 API(Application Programming Interface,應(yīng)用程序編程接口)就能夠構(gòu)建很多應(yīng)用。許多企業(yè)會(huì)選擇直接購(gòu)買通用模型提供商發(fā)布的 API,如 OpenAI 提供的 GPT-4 接口,并在上面進(jìn)行 UI(User Interface,用戶界面)開發(fā)。開發(fā)過(guò)程中,開發(fā)者輸入自然語(yǔ)言就可以實(shí)現(xiàn)開發(fā)操作,這個(gè)過(guò)程更像是一種交流,而不是僵硬的執(zhí)行。
與此同時(shí),企業(yè)還會(huì)開發(fā)很多功能不同的插件集成到應(yīng)用中,讓應(yīng)用變得更加豐富和靈活。插件模式在國(guó)內(nèi)得到了廣泛應(yīng)用,無(wú)論是要開發(fā)一個(gè)新的應(yīng)用,還是嵌入到現(xiàn)有的像 Slack、微信等平臺(tái),插件模式都具有極強(qiáng)的滲透力。
這種使用 API 的開發(fā)模式會(huì)讓 LLM 應(yīng)用在未來(lái)很長(zhǎng)一段時(shí)間里趨于標(biāo)準(zhǔn)化。不過(guò),這種模式主要依賴大公司發(fā)布通用模型進(jìn)行更新和迭代,企業(yè)用戶雖然可以更方便地使用通用模型,但很容易跟不上大公司的迭代速度。
對(duì)于后者,企業(yè)可以通過(guò)微調(diào)擁有自己的行業(yè)模型,進(jìn)而構(gòu)建相應(yīng)的應(yīng)用。模型微調(diào)具備少數(shù)據(jù)、少參數(shù)、強(qiáng)任務(wù)的泛化能力,具體實(shí)現(xiàn)方法很多,不少企業(yè)開發(fā)者都在嘗試。
據(jù)悉,30B 參數(shù)以上規(guī)模的 LLM 比較適合用來(lái)構(gòu)建應(yīng)用:能力足夠強(qiáng),顯存需求最低但還有擴(kuò)展空間。開發(fā)者可以根據(jù)場(chǎng)景特點(diǎn)做取舍,比如金融領(lǐng)域的量化表達(dá)應(yīng)用不必是 32 位或 64 位浮點(diǎn)數(shù),8 位就足夠好,但不能再降低否則性能會(huì)大幅下降。內(nèi)存方面,8 位浮點(diǎn)數(shù)至少要 10G 左右,移動(dòng)端還可以考慮用通信換存儲(chǔ)。
目前,中美 LLM 應(yīng)用的軟件技術(shù)棧存在一些區(qū)別。美國(guó)更傾向于水平分層的結(jié)構(gòu),即某些公司如 OpenAI 位于通用模型的層級(jí)上方,并給下游公司提供接口,下游公司再將服務(wù)提供給最終用戶。
相比之下,國(guó)內(nèi)更多采用垂直分層的結(jié)構(gòu)。國(guó)內(nèi)企業(yè)目前在生成式人工智能技術(shù)上處于相對(duì)劣勢(shì)的位置,如果做不出高度先進(jìn)的通用模型,那就會(huì)將精力放在尋找大量合適的應(yīng)用場(chǎng)景上,這些企業(yè)能夠自行訓(xùn)練開源的通用模型得到自己的行業(yè)模型,并直接服務(wù)于特定的垂直領(lǐng)域。
事實(shí)上,業(yè)內(nèi)人士普遍認(rèn)為,國(guó)內(nèi)的機(jī)會(huì)就在于行業(yè)模型。行業(yè)模型擁有行業(yè)數(shù)據(jù)優(yōu)勢(shì),只需要修改開源通用模型代碼、投喂特定的行業(yè)數(shù)據(jù),并服務(wù)于已有的用戶來(lái)優(yōu)化體驗(yàn),就可以達(dá)到降本增效的目的。因此,緊密貼合具體應(yīng)用場(chǎng)景的行業(yè)模型,像金融、醫(yī)療、教育等在數(shù)據(jù)方面有獨(dú)特優(yōu)勢(shì)的 LLM 項(xiàng)目備受風(fēng)投們青睞。
“當(dāng)前比較流行的通用模型 ChatGPT 和 Llama2 已經(jīng)做得很好,OpenAI、Meta 早期投入了巨額 GPU 算力成本、訓(xùn)練了海量數(shù)據(jù),也提供了比較好的產(chǎn)品體驗(yàn),如今大量用戶涌入又提供了新的數(shù)據(jù)幫助企業(yè)優(yōu)化模型,已經(jīng)形成了'強(qiáng)者恒強(qiáng)’的趨勢(shì)?!盋hainfir Capital CEO 田大超表示。另外,基于通用模型的應(yīng)用還存在大量技術(shù)不成熟的地方,風(fēng)投們認(rèn)為過(guò)早投入這一領(lǐng)域的風(fēng)險(xiǎn)太高,很難形成規(guī)模效應(yīng)。
都知道做 LLM“燒錢”,但到底能“燒”多少?我們可以姑且看下 Bloomberg 訓(xùn)練出來(lái)的金融大語(yǔ)言模型 BloombergGPT。
BloombergGPT 參數(shù)規(guī)模高達(dá) 500 億,使用了包含 3630 億 token 的金融領(lǐng)域數(shù)據(jù)集以及 3450 億 token 的通用數(shù)據(jù)集。雖然測(cè)試中這個(gè)模型在金融方面表現(xiàn)不俗,但 BloombergGPT 有著密集的計(jì)算需求,使用了大約 130 萬(wàn) GPU 小時(shí)進(jìn)行訓(xùn)練,以亞馬遜云科技 2.3 美元的費(fèi)率計(jì)算,每次訓(xùn)練成本已經(jīng)接近驚人的 300 萬(wàn)美元了。可以說(shuō),一般企業(yè)承擔(dān)不起這樣的費(fèi)用。
開源是現(xiàn)在大家降本的基本解法。比如與 BloombergGPT 相比,同為開源金融模型的 FinGPT 通過(guò)專注于頂級(jí)開源 LLMs 的輕量級(jí)改編,提供更容易訪問(wèn)的解決方案,可以讓訓(xùn)練成本大幅下降,每次訓(xùn)練費(fèi)用不到 300 美元,成本下降了 1 萬(wàn)倍。
在訓(xùn)練 LLM 的時(shí)候,業(yè)內(nèi)也會(huì)通過(guò)給 LLM“瘦身”的方式降低成本。比如對(duì)于 7B、13B 的 Llama 2,開發(fā)者首先可以做一定的限制,如將其調(diào)整為 Int8 類型以減小模型尺寸。接下來(lái),開發(fā)者可以對(duì)模型進(jìn)行低復(fù)雜度微調(diào),具體做法是將原本線性的 QKV(Query,Key,Value)層設(shè)計(jì)簡(jiǎn)化成更為精簡(jiǎn)的結(jié)構(gòu),即將權(quán)重矩陣分解成多個(gè)小矩陣,從而大幅減小 LLM 的規(guī)模。
示意圖,來(lái)源:https://arxiv.org/pdf/2205.05638.pdf
劉小洋團(tuán)隊(duì)研發(fā)的開源金融模型 FinGPT 就是通過(guò)使用 LoRA(Low-Rank Adaptation of Large Language Models),將可訓(xùn)練參數(shù)數(shù)量從 61.7 億減少到僅有 367 萬(wàn)。整體下來(lái),該模型在顯存方面的需求從 38G 降低到了大約 13G,而且微調(diào)所需的時(shí)間也被顯著縮短,通常在 8 個(gè) GPU 小時(shí)內(nèi)就可以完成,有時(shí)甚至只需要 6 個(gè)小時(shí),而費(fèi)用則保持在 1000 元以下,甚至低至 600 元。與此同時(shí),F(xiàn)inGPT 的性能提升了 30%。
以上數(shù)據(jù)顯示出了企業(yè)在利用開源大型模型進(jìn)行微調(diào)時(shí)可以擁有的強(qiáng)大成本優(yōu)勢(shì)。在進(jìn)行 LLM 微調(diào)時(shí),通常需要直接調(diào)整模型的權(quán)重,而那些提供基礎(chǔ)模型 API 的企業(yè)則更多是提供接口服務(wù),如果購(gòu)買模型的權(quán)重,費(fèi)用將會(huì)高得多,并且可能需要簽署保密協(xié)議,預(yù)計(jì)花費(fèi)可達(dá)在 2000 萬(wàn)人民幣左右。
另外一項(xiàng)不可忽視的成本就是人力。田大超以這段時(shí)間爆火的妙鴨相機(jī)為例道,這樣一款產(chǎn)品的開發(fā)周期實(shí)際上很短,起初團(tuán)隊(duì)也就7個(gè)人左右,就是他們內(nèi)部被稱為“AIGC破壁行動(dòng)小組”的一個(gè)以張?jiān)鹿鉃閘eader的小團(tuán)隊(duì),也就用了6個(gè)月左右的時(shí)間就做出來(lái)了。這樣一款 LLM 應(yīng)用總投入成本大概是小幾百萬(wàn)人民幣,其中人工成本占大頭,其次是租用算力的成本和調(diào)用 API 的成本。
目前生成式人工智能領(lǐng)域的上下游關(guān)系已經(jīng)逐漸建立起來(lái)了:上游是芯片廠商,如英偉達(dá);中游是通用級(jí)別的大模型公司,如 OpenAI;中下游是細(xì)分領(lǐng)域的大模型廠商,如 Bloomberg;下游就是一些 LLM 應(yīng)用,如 Midjourney。普通用戶最能感知到的就是面向 C 端的各種 LLM 應(yīng)用,比如 AI 繪畫工具 Midjourney、Stable Diffusion,AI 音頻生成工具 Forever Voice 等。
一方面,現(xiàn)在 LLM 應(yīng)用的研發(fā)方式?jīng)Q定了“生態(tài)”的重要性。比如,使用 OpenAI GPT 模型的用戶自成一個(gè)生態(tài),使用開源 Llama 模型的用戶又自成另一個(gè)生態(tài),最后開發(fā)者選擇哪一種研發(fā)方式本質(zhì)上就是選擇進(jìn)入哪個(gè)生態(tài)。
另一方面,以搜索為例,將 ChatBot 整合到搜索引擎這樣的大型平臺(tái)中,需要足夠龐大的搜索引擎用戶基礎(chǔ),這樣才能夠迅速解決可能出現(xiàn)的問(wèn)題。開發(fā)者必須具備全網(wǎng)范圍內(nèi)思考的能力,了解全球用戶的搜索習(xí)慣,對(duì)信息檢索有充分的理解。然而,并非所有人都能做到這一點(diǎn)。因此,“整合”游戲說(shuō)到底還是生態(tài)游戲。
LLM 應(yīng)用的本質(zhì)還是商業(yè)產(chǎn)品,營(yíng)收模式還是以用戶付費(fèi)購(gòu)買服務(wù)為主,比如妙鴨相機(jī)要付費(fèi)后才給用戶改變形象后的照片,這與美圖秀秀收會(huì)員費(fèi)類似。這種模式與過(guò)去各種應(yīng)用的商業(yè)邏輯是一樣的,即用戶流量為王。
用戶在誰(shuí)家,誰(shuí)才能笑到最后。就像劉小洋說(shuō)的,在 IT 行業(yè),有許多第一批實(shí)踐者最后成為炮灰的案例,能否走到最后取決于用戶選擇哪家公司、用戶對(duì)什么產(chǎn)品感興趣。廣大用戶構(gòu)成最終市場(chǎng),這個(gè)市場(chǎng)進(jìn)而支撐起大模型的更新迭代。
當(dāng)前,行業(yè)模型發(fā)展的關(guān)鍵已經(jīng)不是模型本身的能力如何,而是它們?cè)谀骋活I(lǐng)域的專業(yè)知識(shí)、專業(yè)數(shù)據(jù)的積累,專業(yè)能力多強(qiáng),它們未來(lái)的壁壘就有多高。
未來(lái)短期內(nèi),通用模型和各領(lǐng)域的行業(yè)模型賽道,最后可能分別只有一兩家企業(yè)能夠脫穎而出。而長(zhǎng)期看,做得好的通用模型可能會(huì)創(chuàng)造巨頭公司。同時(shí),隨著通用模型的專業(yè)度越來(lái)越高,通用模型會(huì)掌握大多數(shù)垂直領(lǐng)域的專業(yè)知識(shí),不排除未來(lái)行業(yè)模型被通用模型替代的可能。
LLM 應(yīng)用剛起步不久,如果要長(zhǎng)期發(fā)展下去,每個(gè)環(huán)節(jié)都面臨著不同的問(wèn)題:在算力方面,電子芯片的能耗太高,70% 的能耗被用在散熱上,這造成了巨大的能源浪費(fèi),行業(yè)急需出現(xiàn)效能更高的芯片;在算法方面,人工智能發(fā)展到一定階段后可能會(huì)面臨數(shù)學(xué)領(lǐng)域最高深問(wèn)題,算法也需要不斷提高和優(yōu)化;在數(shù)據(jù)方面,隱私、數(shù)據(jù)所有權(quán)等問(wèn)題亟待解決,尤其隨著人工智能的快速發(fā)展,政府、機(jī)構(gòu)、公司和個(gè)人都極其關(guān)心自己的敏感數(shù)據(jù)是否會(huì)泄露,數(shù)據(jù)處理變得十分重要。
可以看出,LLM 應(yīng)用行業(yè)未來(lái)需要努力的地方還有很多,但這也是留給后來(lái)者的機(jī)會(huì)?,F(xiàn)在處在技術(shù)前沿、風(fēng)光無(wú)限的企業(yè)未來(lái)未必一定成功。如今競(jìng)賽才剛剛開始,入局的開發(fā)者們?nèi)绾文茉谶@條路上一直走下去,還需要時(shí)間給出答案。
劉小洋,哥倫比亞大學(xué)電子工程系研究員,倫斯勒理工學(xué)院計(jì)算機(jī)系講師,開源項(xiàng)目 FinGPT、FinRL 和 ElegantRL 的主創(chuàng)
田大超,Chainfir Capital CEO
聯(lián)系客服