方舟要過萬重山

半個月前，AMD的蘇姿豐發(fā)布了新款大語言模型GPU MI300X，據(jù)說比Nvidia的H100更小更快。

說起來，美國朋友追求又小又快已經(jīng)很多年了。

最近浙江人民出版社的朋友寄給我一本《芯片戰(zhàn)爭》，說你看看。我說我看過英文版，總是打開又合上，合上又打開。他說你是看不懂英文嗎？看不起誰呢，my English is fine thank you, and you?

中文版的《芯片戰(zhàn)爭》翻譯的不錯，作者用一個個芯片發(fā)展史上的歷史故事告訴讀者，為什么靠砸錢和堆人搞不出芯片產(chǎn)業(yè)。

因?yàn)檎麄€行業(yè)的分工極為細(xì)密，背后是一個極其復(fù)雜的商業(yè)生態(tài)系統(tǒng)，這個系統(tǒng)不可能源于任何政府扶持，也不可能有任何國家做到全產(chǎn)業(yè)鏈獨(dú)立自主，它依靠的是企業(yè)家們像生物演化一樣的：

自行冒險和優(yōu)勝劣汰。

中國人是不缺優(yōu)勝劣汰的，缺不缺冒險精神，網(wǎng)上一直爭論不休。要說不缺吧，考公的人是越來越多，要說缺吧，ChatGPT大火之后的短短幾個月內(nèi)，國內(nèi)光是上市公司就有9個老板說自己要搞大模型后隨即離婚的，導(dǎo)致原本就不富裕的存量夫妻數(shù)量因此雪上加霜。

最重要的是，你看AI芯片最核心的三個大拿黃仁勛、蘇姿豐和張忠謀都是華裔。再具體一點(diǎn)，他們都是胡建裔。

昨天，字節(jié)跳動旗下的火山引擎開了個大模型發(fā)布會。國內(nèi)別的大模型起名都文文靜靜的，什么文心、混元、通義，唯獨(dú)火山引擎給自己的大模型平臺起了個去哪個國家都不要簽證的名字：

方舟。

搞AI，果真還是要靠純血胡建朋友。

自從幾萬年前人類征服了藍(lán)色星球之后，仰望星空后的好奇促使大家做了一個違反祖宗的決定——暴露自己，不顧黑暗森林法則。

至于為什么這么做，千百年來從哲學(xué)家到科學(xué)家做過很多解釋。蠔腩覺得，主要是因?yàn)樘^孤獨(dú)。

為了對抗集體孤獨(dú)感，除了尋找地球之外的智慧生命，還有就是試圖給自己之外的東西注入神性。

從遠(yuǎn)古神話里出現(xiàn)的黃金機(jī)器人到雪萊的《科學(xué)怪人》，從亞里士多德的三段論邏輯到微積分發(fā)明人萊布尼茲試圖設(shè)計一種普適性語言，經(jīng)歷了幾千年的探索，即便在計算機(jī)技術(shù)不斷進(jìn)步后，人類還經(jīng)歷了無數(shù)次挫敗。

具體到怎么讓機(jī)器人和人自然對話甚至完成交辦的任務(wù)這方面，直到2017年，谷歌的一篇論文《Attention is all you need》，才算是真正打開了局面。

這篇論文看起來很簡潔，主要就是講Transformer（翻譯器）是怎么工作的，這個Transformer就是ChatGPT里的T。

有了可以驗(yàn)證的理論，大家就把大語言模型的訓(xùn)練實(shí)現(xiàn)基本簡化為了兩個要素：

語料和算力。

簡單點(diǎn)來說，先要有足夠多的文字內(nèi)容，然后要規(guī)劃學(xué)習(xí)方法，比如自己學(xué)習(xí)，工程師監(jiān)督學(xué)習(xí)和用戶反饋后的強(qiáng)化學(xué)習(xí)?？雌饋砗腿祟悓W(xué)習(xí)過程差不多，但機(jī)器學(xué)習(xí)是可以開掛的，想讓它加快學(xué)習(xí)過程，就要上算力，大幅提升訓(xùn)練速度。

比如為了訓(xùn)練ChatGPT-3，微軟給OpenAI配了10000張A100顯卡，單次訓(xùn)練成本上千萬美元，這個我們中國人理解起來一點(diǎn)也不難。想讓孩子上清北嗎？從小學(xué)開始就要擇校，吃好的用好的還要報各種班。

去年底ChatGPT大火之前，連搞AI的人自己都在懷疑自己。阿里云在去年降價了6次，GPU租用價格下降了兩成，騰訊也直接砍掉了對NVIDIA GPU的采購單。

然后，ChatGPT火了，大家紛紛宣布我也行，我也能上。最夸張的是很善于做全家桶的周總，他說：

比爾·蓋茨都沒我看得準(zhǔn)。

20多年前，從亞馬遜誕生到阿里巴巴誕生，大概用了5年；從有ICQ到騰訊有OICQ，大概用了兩年；從谷歌誕生到百度誕生，大概用了15個月。

從ChatGPT大火到比爾·蓋茨都沒我看得準(zhǔn)用了多久呢？一個季度。

大家樹新風(fēng)的樣子，像極了在大集上喝早酒的山東朋友。一開始，鏡頭前的本地大哥都是配著羊湯喝瓶啤酒或者二兩白酒。后來，出現(xiàn)了一碗羊湯配一斤散簍子的大媽和兩斤散簍子的大爺。到最后，有個大哥抱了一桶十斤裝的白酒告訴拍攝者：

這是我一天的量。

只有少數(shù)還沒上頭的。媒體問字節(jié)副總裁楊震原有沒有開發(fā)大模型，楊震原會說我們在學(xué)習(xí)。被問到大模型進(jìn)展怎么樣，他說很初級、不成熟。

騰訊也是一貫的務(wù)實(shí)風(fēng)格。馬化騰說對于工業(yè)革命來講，早一個月把電燈泡拿出來，在長的時間跨度上來看是不那么重要的。關(guān)鍵還是要把底層的算法、算力和數(shù)據(jù)扎扎實(shí)實(shí)做好，而且更關(guān)鍵的是場景落地，目前我們還在做一些思考。我感覺現(xiàn)在有很多公司太急了，感覺是為了提振股價。

你直接報周總身份證號得了。

今天和一位愛攤煎餅的朋友聊天，問他房地產(chǎn)行業(yè)的朋友會不會搞大語言模型。他說放在以前肯定會，那會兒大家連買煎餅都是要雙腸雙蛋，還得多刷甜面醬。

這估計代表了大部分加入大語言模型潮流企業(yè)的心態(tài)，一開始大家都想自己做，其中有很多原因，除了趕時髦外，比如模型方擔(dān)心私有化部署技術(shù)泄露，企業(yè)擔(dān)心自己多年積累的數(shù)據(jù)泄密。

網(wǎng)絡(luò)安全公司Cyberhaven做過調(diào)查，至少有 4%的員工將企業(yè)敏感數(shù)據(jù)輸入 ChatGPT，敏感數(shù)據(jù)占輸入內(nèi)容的比例高達(dá) 11%。2023 年初，三星公司在使用 ChatGPT不到20天時，就發(fā)現(xiàn)其半導(dǎo)體設(shè)備相關(guān)機(jī)密數(shù)據(jù)被泄露，并連續(xù)發(fā)生3起類似事故。

那怎么辦，難道各行各業(yè)都自己做大模型？倒也不是不行。

火山引擎的朋友給蠔腩科普了一下，5年前，一家企業(yè)要搞機(jī)器學(xué)習(xí)產(chǎn)品，是個很復(fù)雜的系統(tǒng)工程?，F(xiàn)在你從北大招個應(yīng)屆生，給他兩天時間，他就可以完整地把一些圖像識別、 pipeline能整體搭建出來，不需要給他搞低代碼。而且有些行業(yè)的客戶比如自動駕駛，在很多深度領(lǐng)域比很多大模型開發(fā)商做得更好。

但什么都自己做會面臨高額的硬件成本和訓(xùn)練成本。很多行業(yè)并不需要非常通用的、巨大的基座模型。比如銀行客服不需要模型會寫代碼，房產(chǎn)中介也不需要模型會做數(shù)學(xué)題。如果盲目買一堆GPU回來自己搞大模型，收益肯定是小于成本的。

所以在方舟的發(fā)布會上，火山引擎總裁譚待強(qiáng)調(diào)了大模型要用起來，不能光看參數(shù)大、效果強(qiáng)，使用成本一定要降下來。

翻譯成大白話就是，大家沒必要啥都自己從0到1，各自發(fā)揮長處就好。比如芯片制造業(yè)，從設(shè)計到生產(chǎn)全都自己做的英特爾和三星，現(xiàn)在被協(xié)同作戰(zhàn)的AMD、高通、NVIDIA、臺積電按著頭打。

這里面的道理，講得最清楚的還要說是胡建裔的黃仁勛。他反復(fù)勸說美國政商兩屆不要搞芯片禁令，不要逼中國搞出軟硬一體的獨(dú)立系統(tǒng)。

做生意嘛，大家要都有得賺才長久。

在ChatGPT去年底火起來之前，為什么只有字節(jié)在逆勢囤GPU，其實(shí)是有邏輯脈絡(luò)的，而且他們的思考比較超前。

2020年，抖音推薦廣告系統(tǒng)開始技術(shù)架構(gòu)的升級，基于Transformer實(shí)現(xiàn)大規(guī)模的模型訓(xùn)練。推薦廣告核心能力必須把模型做得很深，才可以對很多事物之間的關(guān)聯(lián)有好的理解。無論是技術(shù)上、還是算力上，火山引擎都做了比較充分的準(zhǔn)備。

別人開發(fā)布會說的都是我這個大模型比ChatGPT好在哪里，火山引擎的發(fā)布會上，一直強(qiáng)調(diào)的卻是性價比，講得是模型精調(diào)、算力調(diào)度，還有和NVIDIA一起共同合作的 GPU 推理庫 ByteTransformer 在 IEEE 國際并行和分布式處理大會（IPDPS 2023）上獲得最佳論文獎等等。

10年前，各大新聞平臺的銷售來蠔腩辦公室講的都是用戶量，瀏覽量和投放折扣。只有今日頭條的銷售不一樣，他們會耐心地給你講什么是算法，一個人在頭條為什么總能看到自己感興趣的內(nèi)容，這對你們公司有什么用。

10年過去了，除了A股，大概沒什么變化的也只有他們了。

三天前，鋰電池的發(fā)明者古迪納夫去世，享年100歲。3年前，他以97歲高齡成為了諾貝爾獎歷史上最年長的得主。

在看訃告時，蠔腩讀到了他的一句話——我們有些人就像是烏龜，走得慢，一路掙扎，到了而立之年還找不到出路。

但烏龜知道，他必須走下去。

華人特別喜歡歌頌速度。蘇姿豐30歲時憑借設(shè)計銅電路替代鋁電路成為了IBM CEO的技術(shù)助理；黃仁勛30歲時和兩位工程師一起創(chuàng)立了NVIDIA。

底層文化里，華人是不可能稱贊烏龜?shù)?，大家稱贊的都是高大全快。

相反，德日甚至瑞典的一些企業(yè)可能產(chǎn)品看起來一點(diǎn)不起眼，一個軸承，一顆螺絲甚至一個銼刀，一捆絕緣線能鉆研一輩子，但全世界工業(yè)企業(yè)都離不開他們。

當(dāng)經(jīng)濟(jì)高速發(fā)展時，他們把自己投入大生態(tài)順勢而為，當(dāng)經(jīng)濟(jì)進(jìn)入下行周期的時候，這些企業(yè)靠著專精能力，活得也很舒服。

這種跨越周期的能力，大概就是古迪納夫說的“烏龜”吧。

現(xiàn)在習(xí)慣了快的我們也慢下來了，蠔腩覺得大伙面對大模型這種時代巨浪還是要有些定力，如果搞不起軍備競賽，雇不起大量的北大應(yīng)屆生，那還是先冷靜冷靜，想想大模型對自己有啥用，算清楚ROI。如果用大模型比雇人干活還要貴，還不如多招些人，也是為就業(yè)做貢獻(xiàn)了。

這樣對很多企業(yè)來說是最劃算和安全的，風(fēng)浪越大魚越貴是沒錯，但首先要保證自己一直在船上。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報。

开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频