开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開APP
          userphoto
          未登錄

          開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

          開通VIP
          史上首個100%開源大模型重磅登場!破紀(jì)錄公開代碼/權(quán)重/數(shù)據(jù)集/訓(xùn)練全過程,AMD都能訓(xùn)


            新智元報道  

          編輯:潤 好困
          【新智元導(dǎo)讀】艾倫人工智能研究所等5機(jī)構(gòu)最近公布了史上最全的開源模型「OLMo」,公開了模型的模型權(quán)重、完整訓(xùn)練代碼、數(shù)據(jù)集和訓(xùn)練過程,為以后開源社區(qū)的工作設(shè)立了新的標(biāo)桿。

          多年來,語言模型一直是自然語言處理(NLP)技術(shù)的核心,考慮到模型背后的巨大商業(yè)價值,最大最先進(jìn)的模型的技術(shù)細(xì)節(jié)都是不公開的。

          現(xiàn)在,真·完全開源的大模型來了!

          來自艾倫人工智能研究所、華盛頓大學(xué)、耶魯大學(xué)、紐約大學(xué)和卡內(nèi)基梅隆大學(xué)的研究人員,聯(lián)合發(fā)表了一項(xiàng)足以載入AI開源社區(qū)史冊的工作——

          他們幾乎將從零開始訓(xùn)練一個大模型過程中的一切數(shù)據(jù)和資料都開源了!

          論文:https://allenai.org/olmo/olmo-paper.pdf
          權(quán)重:https://huggingface.co/allenai/OLMo-7B
          代碼:https://github.com/allenai/OLMo
          數(shù)據(jù):https://huggingface.co/datasets/allenai/dolma
          評估:https://github.com/allenai/OLMo-Eval

          適配:https://github.com/allenai/open-instruct

          具體來說,艾倫人工智能研究所推出的這個開放大語言模型(Open Language Model,OLMo)實(shí)驗(yàn)和訓(xùn)練平臺,則提供了一個完全開源的大模型,以及所有和訓(xùn)練開發(fā)這個模型有關(guān)的數(shù)據(jù)和技術(shù)細(xì)節(jié)——

          訓(xùn)練和建模:它包括完整的模型權(quán)重、訓(xùn)練代碼、訓(xùn)練日志、消融研究、訓(xùn)練指標(biāo)和推理代碼。

          預(yù)訓(xùn)練語料:一個包含了高達(dá)3T token的預(yù)訓(xùn)練開源語料庫,以及產(chǎn)生這些訓(xùn)練數(shù)據(jù)的代碼。

          模型參數(shù):OLMo框架提供了四個不同架構(gòu)、優(yōu)化器和訓(xùn)練硬件體系下的7B大小的模型,以及一個1B大小的模型,所有模型都在至少2T token上進(jìn)行了訓(xùn)練。

          同時,也提供了用于模型推理的代碼、訓(xùn)練過程的各項(xiàng)指標(biāo)以及訓(xùn)練日志。

          7B:OLMo 7B、OLMo 7B (not annealed)、OLMo 7B-2T、OLMo-7B-Twin-2T

          評估工具:公開了開發(fā)過程中的評估工具套件,包括每個模型訓(xùn)練過程中每1000 step中包含的超過500個的檢查點(diǎn)以及評估代碼。

          所有數(shù)據(jù)都在apache 2.0下授權(quán)使用(免費(fèi)商用)。

          如此徹底的開源,似乎是給開源社區(qū)打了個樣——以后不像我這樣開源的,就別說自己是開源模型了。

          性能評估

          從核心的評估結(jié)果來看,OLMo-7B與同類開源模型相比略勝一籌。

          在前9項(xiàng)評測中,OLMo-7B有8項(xiàng)排名前三,其中有2項(xiàng)超越了其他所有模型。

          在很多生成任務(wù)或閱讀理解任務(wù)(例如truthfulQA)上,OLMo-7B都超過了Llama 2,但在一些熱門的問答任務(wù)(如MMLU或Big-bench Hard)上表現(xiàn)則要差一些。

          前9個任務(wù)是研究人員對預(yù)訓(xùn)練模型的內(nèi)部評估標(biāo)準(zhǔn),而下面三個任務(wù)則是為了完善HuggingFace Open LLM排行榜而加入的

          下圖展示了9個核心任務(wù)準(zhǔn)確率的變化趨勢。

          除了OBQA外,隨著OLMo-7B接受更多數(shù)據(jù)的訓(xùn)練,幾乎所有任務(wù)的準(zhǔn)確率都呈現(xiàn)上升趨勢。

          與此同時,OLMo 1B與其同類模型的核心評估結(jié)果表明,OLMo與它們處于同一水平。

          通過使用艾倫AI研究所的Paloma(一個基準(zhǔn)測試)和可獲取的檢查點(diǎn),研究人員分析了模型預(yù)測語言能力與模型規(guī)模因素(例如訓(xùn)練的token數(shù)量)之間的關(guān)系。

          可以看到,OLMo-7B在性能上與主流模型持平。其中,每字節(jié)比特數(shù)(Bits per Byte)越低越好。

          通過這些分析,研究人員發(fā)現(xiàn)模型在處理不同數(shù)據(jù)源時的效率差異較大,這主要取決于模型訓(xùn)練數(shù)據(jù)與評估數(shù)據(jù)的相似度。

          特別地,OLMo-7B在主要基于Common Crawl的數(shù)據(jù)源上表現(xiàn)出色(比如C4)。

          不過,在與網(wǎng)絡(luò)抓取文本關(guān)系不大的數(shù)據(jù)源上,如WikiText-103、M2D2 S2ORC和M2D2 Wikipedia,OLMo-7B與其他模型相比效率較低。

          RedPajama的評估也體現(xiàn)了相似的趨勢,可能是因?yàn)樗?個領(lǐng)域中只有2個來源于Common Crawl,且Paloma對每個數(shù)據(jù)源中的各個領(lǐng)域給予了相同的權(quán)重。

          鑒于像Wikipedia和arXiv論文這樣的精選數(shù)據(jù)源提供的異質(zhì)數(shù)據(jù)遠(yuǎn)不如網(wǎng)絡(luò)抓取文本豐富,隨著預(yù)訓(xùn)練數(shù)據(jù)集的不斷擴(kuò)大,維持對這些語言分布的高效率會很更加困難。

          OLMo架構(gòu)

          在模型的架構(gòu)方面,團(tuán)隊(duì)基于的是decoder-only的Transformer架構(gòu),并采用了PaLM和Llama使用的SwiGLU激活函數(shù),引入了旋轉(zhuǎn)位置嵌入技術(shù)(RoPE),并改進(jìn)了GPT-NeoX-20B的基于字節(jié)對編碼(BPE)的分詞器,以減少模型輸出中的個人可識別信息。

          此外,為了保證模型的穩(wěn)定性,研究人員沒有使用偏置項(xiàng)(這一點(diǎn)與PaLM的處理方式相同)。

          如下表所示,研究人員已經(jīng)發(fā)布了1B和7B兩個版本,同時還計劃很快推出一個65B的版本。

          下表詳細(xì)比較了7B架構(gòu)與這些其他模型在相似規(guī)模下的性能。

          預(yù)訓(xùn)練數(shù)據(jù)集:Dolma

          雖然研究人員在獲取模型參數(shù)方面取得了一定的進(jìn)展,但開源社區(qū)目前預(yù)訓(xùn)練數(shù)據(jù)集的開放程度還遠(yuǎn)遠(yuǎn)不夠。

          之前的預(yù)訓(xùn)練數(shù)據(jù)往往不會隨著模型的開源而公開(閉源模型就更不用說了)。

          而且有關(guān)這些數(shù)據(jù)的說明文檔也常常缺乏足夠的細(xì)節(jié),但是這些細(xì)節(jié)對于想要復(fù)現(xiàn)研究或完全理解相關(guān)工作至關(guān)重要。

          這一情況加大了語言模型研究的難度——比如,了解訓(xùn)練數(shù)據(jù)如何影響模型能力和其局限性。

          為了推動語言模型預(yù)訓(xùn)練領(lǐng)域的開放研究,研究人員構(gòu)建并公開了預(yù)訓(xùn)練數(shù)據(jù)集Dolma。

          這是一個包含了從 7 種不同數(shù)據(jù)來源獲取的3萬億個token的多樣化、多源語料庫。

          這些數(shù)據(jù)源一方面在大規(guī)模語言模型預(yù)訓(xùn)練中常見,另一方面也能被普通大眾所接觸。

          下表給出了來自各個數(shù)據(jù)源的數(shù)據(jù)量的概覽。

          Dolma的構(gòu)建過程包括六個步驟:語言過濾、質(zhì)量過濾、內(nèi)容過濾、去重、多源混合和token化。

          在整理和最終發(fā)布Dolma過程中,研究人員確保各數(shù)據(jù)源的文檔保持獨(dú)立。

          他們還開源了一套高效的數(shù)據(jù)整理工具,這套工具能夠幫助進(jìn)一步研究Dolma、復(fù)制成果,并簡化預(yù)訓(xùn)練語料庫的整理工作。

          此外,研究人員也開源了WIMBD工具,以助于數(shù)據(jù)集分析。

          網(wǎng)絡(luò)數(shù)據(jù)處理流程

          代碼處理流程

          訓(xùn)練OLMo


          分布式訓(xùn)練框架

          研究人員利用PyTorch的FSDP框架和ZeRO優(yōu)化器策略來訓(xùn)練模型。這種方法通過將模型的權(quán)重和它們對應(yīng)的優(yōu)化器狀態(tài)在多個GPU中進(jìn)行分割,從而有效減少了內(nèi)存的使用量。

          在處理高達(dá)7B規(guī)模的模型時,這項(xiàng)技術(shù)使研究人員能夠在每個GPU上處理4096個token的微批大小,以實(shí)現(xiàn)更高效的訓(xùn)練。

          對于OLMo-1B和7B模型,研究人員固定使用大約4M token(2048個數(shù)據(jù)實(shí)例,每個實(shí)例包含2048個token的序列)的全局批大小。

          而對于目前正在訓(xùn)練中的OLMo-65B模型,研究人員采用了一個批大小預(yù)熱策略,起始于大約2M token(1024個數(shù)據(jù)實(shí)例),之后每增加100B token,批大小翻倍,直至最終達(dá)到大約16M token(8192個數(shù)據(jù)實(shí)例)的規(guī)模。

          為了加快模型訓(xùn)練的速度,研究人員采用了混合精度訓(xùn)練的技術(shù),這一技術(shù)是通過FSDP的內(nèi)部配置和PyTorch的amp模塊來實(shí)現(xiàn)的。

          這種方法特別設(shè)計,以確保一些關(guān)鍵的計算步驟(例如softmax函數(shù))始終以最高精度執(zhí)行,以保證訓(xùn)練過程的穩(wěn)定性。

          與此同時,其他大部分計算則使用一種稱為bfloat16的半精度格式,以減少內(nèi)存使用并提高計算效率。

          在特定配置中,每個GPU上的模型權(quán)重和優(yōu)化器狀態(tài)都以最高精度保存。

          只有在執(zhí)行模型的前向傳播和反向傳播,即計算模型的輸出和更新權(quán)重時,每個Transformer模塊內(nèi)的權(quán)重才會臨時轉(zhuǎn)換為bfloat16格式。

          此外,各個GPU間同步梯度更新時,也會以最高精度進(jìn)行,以確保訓(xùn)練質(zhì)量。

          優(yōu)化器

          研究人員采用了AdamW優(yōu)化器來調(diào)整模型參數(shù)。

          無論模型規(guī)模大小如何,研究人員都會在訓(xùn)練初期的5000步(大約處理21B個token)內(nèi)逐漸增加學(xué)習(xí)率,這一過程稱為學(xué)習(xí)率預(yù)熱。

          預(yù)熱結(jié)束后,學(xué)習(xí)率將按線性規(guī)律逐漸減少,直到降至最高學(xué)習(xí)率的十分之一。

          此外,研究人員還會對模型參數(shù)的梯度進(jìn)行裁剪,確保其總的 L1 范數(shù)不會超過 1.0。

          在下表中,研究人員將自己在7B模型規(guī)模下的優(yōu)化器配置與近期其他使用AdamW優(yōu)化器的大型語言模型進(jìn)行了對比。

          數(shù)據(jù)集

          研究人員利用開放數(shù)據(jù)集Dolma中的一個2T token的樣本,構(gòu)建了他們的訓(xùn)練數(shù)據(jù)集。

          研究人員將每篇文檔的token連接起來,每篇文檔的末尾都會加上一個特殊的 EOS token,接著將這些 token 分成每組 2048 個,形成訓(xùn)練樣本。

          這些訓(xùn)練樣本在每次訓(xùn)練時都會以同樣的方式進(jìn)行隨機(jī)打亂。研究人員還提供了一些工具,使得任何人都可以復(fù)原每個訓(xùn)練批次的具體數(shù)據(jù)順序和組成。

          研究人員已經(jīng)發(fā)布的所有模型至少都經(jīng)過了一輪(2T token)的訓(xùn)練。其中一些模型還進(jìn)行了額外的訓(xùn)練,即在數(shù)據(jù)上進(jìn)行第二輪訓(xùn)練,但采用了不同的隨機(jī)打亂順序。

          根據(jù)之前的研究,這樣重復(fù)使用少量數(shù)據(jù)的影響是微乎其微的。

          英偉達(dá)和AMD都要YES!

          為了確保代碼庫能夠同時在英偉達(dá)和AMD的GPU上都能高效運(yùn)行,研究人員選擇了兩個不同的集群進(jìn)行了模型訓(xùn)練測試:

          利用LUMI超級計算機(jī),研究人員部署了最多256個節(jié)點(diǎn),每個節(jié)點(diǎn)搭載了4張AMD MI250X GPU,每張GPU 擁有128GB內(nèi)存和800Gbps的數(shù)據(jù)傳輸速率。

          通過MosaicML (Databricks) 的支持,研究人員使用了27個節(jié)點(diǎn),每個節(jié)點(diǎn)配備了8張英偉達(dá)A100 GPU,每張GPU擁有40GB內(nèi)存和800Gbps的數(shù)據(jù)傳輸速率。

          雖然研究人員為了提高訓(xùn)練效率對批大小進(jìn)行了微調(diào),但在完成2T token的評估后,兩個集群的性能幾乎沒有差異。

          訓(xùn)練能耗

          總結(jié)


          與以往大多數(shù)僅僅提供模型權(quán)重和推理代碼的模型不同,研究人員開源了OLMo的全部內(nèi)容,包括訓(xùn)練數(shù)據(jù)、訓(xùn)練和評估代碼,以及訓(xùn)練日志、實(shí)驗(yàn)結(jié)果、重要發(fā)現(xiàn)以及Weights & Biases的記錄等等。

          此外,團(tuán)隊(duì)正在研究如何通過指令優(yōu)化和不同類型的強(qiáng)化學(xué)習(xí)(RLHF)來改進(jìn)OLMo。而這些微調(diào)代碼、數(shù)據(jù)和經(jīng)過微調(diào)后的模型也都會被開源。

          研究人員致力于持續(xù)支持和發(fā)展OLMo及其框架,推動開放語言模型(LM)的發(fā)展,助力開放研究社區(qū)的發(fā)展。為此,研究人員計劃引入更多不同規(guī)模的模型、多種模態(tài)、數(shù)據(jù)集、安全措施和評估方法,豐富OLMo家族。

          他們希望通過今后持續(xù)進(jìn)行的徹底開源工作,增強(qiáng)開源研究社區(qū)的力量,并引發(fā)新一輪的創(chuàng)新浪潮。

          團(tuán)隊(duì)介紹


          Yizhong Wang(王義中)

          Yizhong Wang是華盛頓大學(xué)Paul G. Allen計算機(jī)科學(xué)與工程學(xué)院的博士生,導(dǎo)師是Hannaneh Hajishirzi和Noah Smith。同時,也是艾倫人工智能研究所的兼職研究實(shí)習(xí)生。

          此前,他曾在Meta AI、微軟研究院和百度NLP進(jìn)行實(shí)習(xí)。此前,他在北京大學(xué)獲得了碩士學(xué)位,在上海交通大學(xué)獲得了學(xué)士學(xué)位。

          他的研究方向是自然語言處理(Natural Language Processing)、機(jī)器學(xué)習(xí)(Machine Learning),以及大語言模型(LLM)。

          - LLM的適應(yīng)性:如何更有效地構(gòu)建和評估能夠跟隨指令的模型?在微調(diào)這些模型時,我們應(yīng)該考慮哪些因素,它們又如何影響到模型的通用性?哪種類型的監(jiān)督方式既有效又能擴(kuò)展?

          - LLM的持續(xù)學(xué)習(xí):預(yù)訓(xùn)練和微調(diào)之間的界限在哪里?有哪些架構(gòu)和學(xué)習(xí)策略能夠讓LLM在預(yù)訓(xùn)練之后繼續(xù)進(jìn)化?模型內(nèi)部已有的知識如何與新學(xué)的知識相互作用?

          - 大規(guī)模合成數(shù)據(jù)的應(yīng)用:在生成模型迅速產(chǎn)生數(shù)據(jù)的今天,這些數(shù)據(jù)對我們的模型開發(fā)乃至整個互聯(lián)網(wǎng)和社會有何影響?我們?nèi)绾未_保能夠在大規(guī)模下生成多樣且高質(zhì)量的數(shù)據(jù)?我們能否區(qū)分這些數(shù)據(jù)與人類生成的數(shù)據(jù)?

          Yuling Gu

          Yuling Gu是艾倫人工智能研究所(AI2)Aristo團(tuán)隊(duì)的一位研究員。

          2020年,她在紐約大學(xué)(NYU)獲得學(xué)士學(xué)位。除了主修的計算機(jī)科學(xué)外,她還輔修了一個跨學(xué)科專業(yè)——語言與心智,這個專業(yè)結(jié)合了語言學(xué)、心理學(xué)和哲學(xué)。隨后,她在華盛頓大學(xué)(UW)獲得了碩士學(xué)位。

          她對機(jī)器學(xué)習(xí)的技術(shù)和認(rèn)知科學(xué)的理論的融合應(yīng)用充滿了熱情。

          參考資料:
          https://allenai.org/olmo/olmo-paper.pdf


          本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報。
          打開APP,閱讀全文并永久保存 查看更多類似文章
          猜你喜歡
          類似文章
          「教科書級」數(shù)據(jù)能有多大作用?微軟超強(qiáng)小模型引熱議
          Nature:AI模型越大越好嗎?
          大模型「幻覺」,看這一篇就夠了 | 哈工大華為出品
          距離
          重磅!OpenAI被“Open”!GPT-4可復(fù)制!
          中文最強(qiáng)開源大模型來了!130億參數(shù),0門檻商用,來自昆侖萬維
          更多類似文章 >>
          生活服務(wù)
          分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
          綁定賬號成功
          后續(xù)可登錄賬號暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點(diǎn)擊這里聯(lián)系客服!

          聯(lián)系客服