开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開APP
          userphoto
          未登錄

          開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

          開通VIP
          Prompting: 更好地將語言模型應(yīng)用到NLP任務(wù)

          作者簡介:高天宇,普林斯頓大學(xué)博士,導(dǎo)師陳丹琦。本科就讀于清華大學(xué)計(jì)算機(jī)系,本科期間即在AI頂會上發(fā)表四篇論文(兩篇AAAI、兩篇EMNLP),獲得2019年清華大學(xué)本科生特等獎學(xué)金。

          從BERTDevlin等人, 2019開始,在下游任務(wù)中微調(diào)預(yù)訓(xùn)練語言模型 LM已成為 NLP 領(lǐng)域的通用做法。然而,擁有 175B 參數(shù)的 GPT-3 模型(Brown等人, 2020)帶來了一種將 LM 用于下游任務(wù)的新方法:通過使用自然語言提示信息(prompt)和任務(wù)示例(demonstration)作為context,GPT-3只需幾個(gè)樣本即可處理很多任務(wù),而不需更新底層模型中的參數(shù)(正如文章標(biāo)題“Language Models are Few-Shot Learners”所示)。GPT-3 龐大的模型規(guī)模是其成功的重要因素,而prompt和demonstration的概念也讓我們對如何更好地使用語言模型有了新的認(rèn)識。

          那么什么是prompt?prompt是插入到輸入樣本中的一段文本,因此可以將原始任務(wù)轉(zhuǎn)換為(masked)language modeling問題。例如,假設(shè)我們要對影評“No reason to watch”進(jìn)行情感分類,我們可以在句子中附加一個(gè)promptIt was”,得到“No reason to watch. It was”。這樣就可以很自然地認(rèn)為,LM 會有更高的概率判斷為“terrible”而不是“great”。

          GPT-3 發(fā)布后,涌現(xiàn)了很多與prompt相關(guān)的論文,其中很多都討論了中等規(guī)模預(yù)訓(xùn)練模型的prompt-based learning,例如BERT(BERT-base 有 110M 參數(shù),比最大的 GPT-3 小 1000 倍)。在這篇博文中,我將概述最近的prompt-based方法以及我對prompting的看法。在文章最后,將介紹我們的 ACL'21 論文,“Making Pre-trained Language Models Better Few-shot Learners

          論文地址:https://arxiv.org/pdf/2012.15723.pdf

          代碼地址:https://github.com/princeton-nlp/lm-bff

          為什么我們需要Prompt

          預(yù)訓(xùn)練、標(biāo)準(zhǔn)微調(diào)和基于prompt的微調(diào),以情感分類任務(wù)為例 (Gao等人, 2021).

          在標(biāo)準(zhǔn)的“pre-training和fine-tuning”范式中,預(yù)訓(xùn)練階段和下游任務(wù)之間的gap可能很大:它們訓(xùn)練目標(biāo)不同。對于下游任務(wù),我們通常需要引入新的參數(shù)——例如,對于 BERT 大小的模型和二分類任務(wù),需要額外的一組 1,024 x 2 的參數(shù)。而prompting使得下游任務(wù)可以采用與預(yù)訓(xùn)練目標(biāo)相同的格式,并且不需要新的參數(shù),如上圖所示。對于分類任務(wù),我們只需要設(shè)計(jì)一個(gè)template(“It was”)以及預(yù)期的text response(我們稱之為label words,例如,圖中的正標(biāo)簽詞“great”和負(fù)標(biāo)簽詞“terrible”)。通過縮小兩個(gè)階段之間的差距,在特定任務(wù)上部署預(yù)訓(xùn)練模型就變得容易多了,尤其是對于小樣本(few-shot)的情況——當(dāng)你只有十幾個(gè)訓(xùn)練樣本來完成一項(xiàng)新任務(wù)時(shí),很難有效地fine-tune預(yù)訓(xùn)練模型和新的task-specific 的參數(shù),但prompting使得這個(gè)過程變得順暢很多。Scao 和 Rush 2021的研究表明一個(gè)prompt 可能值 100 個(gè)常規(guī)數(shù)據(jù)點(diǎn),說明prompts可以帶來樣本效率的巨大提升。

          prompt的研究有兩種不同的方向:受 PET 論文的啟發(fā)(Schick and Schütze,2021a,b),基于prompt的fine-tuning(關(guān)鍵點(diǎn)是仍然進(jìn)一步優(yōu)化參數(shù))被認(rèn)為是對小語言模型來說更好的few-shot learner途徑(“小”指的是擁有數(shù)百萬而不是數(shù)十億的參數(shù),如 BERT 或 RoBERTa);對于像 175B GPT-3 和 11B T5 這樣的超大型模型(Raffel等人, 2020),微調(diào)它們比較困難(只是猜測,沒試過)而且成本很高,因此我們希望固定它們的參數(shù),通過不同的prompt(離散的或soft的,將在后面討論)將它們應(yīng)用到不同任務(wù)上。

          Discrete Prompts

          在預(yù)訓(xùn)練模型中使用prompt的工作可以追溯到 GPT-1/2(Radford等人, 2018 , 2019),作者表明,通過設(shè)計(jì)適當(dāng)?shù)膒rompt,LM 可以在從情感分類到閱讀理解等零樣本任務(wù)上都取得不錯(cuò)的效果。后來,Petroni等人 (2019); Davison等人(2019); Jiang等人(2020); Talmor等人(2020)探索了利用prompt從 LM中挖掘事實(shí)或常識知識。而GPT-3固定了模型參數(shù)并應(yīng)用了prompt,之后基于prompt的方法被進(jìn)一步引入到較小的 LM中(Schick 和 Schütze, 2021a, b; 我們的工作LM-BFF, Gao等人, 2021)。它們與 GPT-3 的不同之處在于它們對完整模型進(jìn)行了微調(diào),并采用雙向掩碼 LM 而不是單向 LM。最近的幾篇論文延續(xù)了這條路線,通過調(diào)整目標(biāo)函數(shù)(Tam等人, 2021)或以統(tǒng)一任務(wù)形式來改進(jìn),例如在問答(Zhong等人, 2021)或文本蘊(yùn)涵(Wang等人, 2021)任務(wù)中。在所有這些模型中,prompt都是自然語言形式,由詞匯表中離散的token組成。大多數(shù)工作都需要人工設(shè)計(jì)的prompt——prompt engineering非常重要,因?yàn)樾〉臄_動就可能會顯著影響模型的性能,而設(shè)計(jì)完美的prompt需要對 LM 內(nèi)部機(jī)制的理解以及反復(fù)的試驗(yàn)。

          和人工設(shè)計(jì)的prompt相反,我們也可以生成或優(yōu)化prompt:Guo等人(2021)表明一種soft Q-learning方法對于promt generation效果很好;AutoPrompt(Shin等人, 2020)建議采用一種基于梯度的搜索(該想法來自Wallace等人, 2019,旨在搜索通用的對抗性觸發(fā)器,使模型生成一個(gè)特定的預(yù)測)來找出特定任務(wù)的最佳prompt。AutoPrompt的設(shè)置的不同之處在于它固定了模型:它假設(shè)所有內(nèi)容都在預(yù)訓(xùn)練模型中編碼好,我們需要的只是將它們“prompt”出來;另一個(gè)原因是 AutoPrompt 還被用于 LAMA(Petroni等人, 2019),這是一項(xiàng)knowledge probing任務(wù),要求不觸及模型參數(shù)。以下是一個(gè)用于情感分類的 AutoPrompt 示例。

          AutoPrompt 圖解(Shin等人, 2020)

          搜索到的模板顯著提高了 LAMA 的性能;它們還在使用完整數(shù)據(jù)集的情感分類和自然語言推理任務(wù)中取得了很高的準(zhǔn)確率(不過仍然低于微調(diào)的結(jié)果)。如果看一下搜索出來的離散(但不再是自然語言形式)prompt,可以找到對一些“trigger tokens”的解釋,但其他許多只是特例。目前尚不清楚自動prompt是否真的能幫助LM回憶內(nèi)部“知識”,還是只是另一種優(yōu)化方式,是從預(yù)訓(xùn)練模型中的“彩票”中挑選“中獎彩票”(對于彩票假設(shè),參見 Frankle和Carbin, 2019)。

          Soft Prompts:Prompt里真的需要離散的詞嗎

          既然 AutoPrompt 已經(jīng)對prompt進(jìn)行了基于梯度的搜索,為什么不從離散tokens轉(zhuǎn)向連續(xù)的“soft prompt”呢?例如,Zhong等人(2021)以及 Qin和Eisner(2021)提出將“soft prompt”用于knowledge probing任務(wù)(LAMA 等),相對于離散prompt取得了相當(dāng)大的提升。這個(gè)想法非常簡單——只需在輸入序列中放入一些隨機(jī)向量(與詞匯表中的特定word embedding無關(guān))并進(jìn)行調(diào)整,同時(shí)固定預(yù)訓(xùn)練模型的其他部分。

          除了probing任務(wù)之外,還有一些其他的使用soft prompt的工作:Li和Liang(2021)將這個(gè)想法擴(kuò)展到生成任務(wù),并表明它在僅調(diào)整 0.1% 的參數(shù)的情況下就能與微調(diào)性能相當(dāng)。Han等人(2021)將soft prompt與人工模板相結(jié)合,在關(guān)系抽取方面取得了極佳的性能。迄今為止,我所看到的關(guān)于soft prompt的最全面的研究來自Lester等人(2021):他們在 T5 上應(yīng)用了soft prompt,并表明只需調(diào)整prompt(僅占總參數(shù)的一小部分),T5 在 NLU 任務(wù)上就可以取得與對整個(gè)模型進(jìn)行微調(diào)相當(dāng)?shù)男阅?。我之所以喜歡這篇論文,還因?yàn)樗M(jìn)行了廣泛的消融實(shí)驗(yàn),并給出了得到好soft prompt的幾個(gè)關(guān)鍵經(jīng)驗(yàn)選擇,包括用word embedding初始化、足夠數(shù)量的soft prompt token和對齊的預(yù)訓(xùn)練目標(biāo)。除了參數(shù)效率,Lester 等人(2021)還證明soft prompt比完整模型微調(diào)具有更好的可遷移性。

          我們回顧一下soft prompt的idea:它效果非常好,并且在不能(probing任務(wù))或不準(zhǔn)備(模型太大或想要適用于所有任務(wù)的通用模型)接觸模型參數(shù)時(shí)特別有效。微調(diào)soft prompt與基于prompt的微調(diào)區(qū)別很大,它允許優(yōu)化整個(gè)模型,更重要的是,它比標(biāo)準(zhǔn)微調(diào)能更好地處理小樣本情況。與人工prompt不同,AutoPrompt 在小樣本情況下效果不佳,而且據(jù)我所知,沒有soft-prompt論文說它們實(shí)現(xiàn)了很好的小樣本性能(盡管Liu 等人(2021)獲得了較為滿意的小樣本結(jié)果,他們是從離散的人工prompt和微調(diào)整個(gè)模型開始做的)。此外,正如Lester等人2021證明的,除非使用超過100 億參數(shù)的預(yù)訓(xùn)練模型,soft prompt永遠(yuǎn)無法達(dá)到與完全微調(diào)SuperGLUE相同的性能!如何進(jìn)一步推動soft prompt在小樣本情況和較小的語言模型中更有效地工作,是我認(rèn)為值得研究的地方。

          GPT-3 (藍(lán)) vs 全模型微調(diào) (橙) vs soft-prompt微調(diào)(綠). 詳見Lester等人(2021).

          In-context learning: 一種新的meta-learning方式
          本文開頭將 GPT-3 的成功歸于兩個(gè)設(shè)計(jì):prompt和demonstration(或in-context learning),接下來講in-context learning。由于 GPT-3 的參數(shù)沒有針對下游任務(wù)進(jìn)行微調(diào),因此它必須以另一種方式“學(xué)習(xí)”新任務(wù)——通過上下文(context)。
          GPT-3 通過上下文中的demonstration“學(xué)習(xí)”新任務(wù)(Brown等人, 2020).
          如上圖所示,GPT-3 簡單地將訓(xùn)練集中的一些隨機(jī)樣本與實(shí)際查詢(query,在本示例中為“cheese ?”)連接起來,而且由于預(yù)訓(xùn)練模型已經(jīng)學(xué)會了從上下文中捕獲模式,并且Transformers 的 self-attention 使這些實(shí)例之間可以逐token進(jìn)行比較,in-context learning的效果出奇地好。GPT-3 論文將其歸為“元學(xué)習(xí)(meta-learning)”,認(rèn)為在閱讀大量無監(jiān)督文本后,語言模型可以“培養(yǎng)廣泛的技能和模式識別的能力”。作者認(rèn)為在預(yù)訓(xùn)練期間“有時(shí)會在單個(gè)序列中嵌入重復(fù)的子任務(wù)”,類似于in-context learning的范式。后續(xù)工作進(jìn)一步完善了使用demonstration的方式:Gao等人(2021)Liu 等人(2021)認(rèn)為不應(yīng)該隨機(jī)抽取一些樣本,采用和查詢近似的demonstration可以顯著提高性能;Lu等人(2021)表明,即使是demonstration的順序也很重要,并提出了一種確定“最佳”順序的方法。
          雖然in-context learning只有在不能微調(diào)模型時(shí)才是“必要”的,并且當(dāng)訓(xùn)練樣例數(shù)量增加時(shí)很難泛化(因?yàn)槟P偷妮斎腴L度有限),研究如何更好地使用demonstration(即如何進(jìn)一步壓縮 LM 學(xué)到的“元知識”)以及哪些預(yù)訓(xùn)練目標(biāo)和數(shù)據(jù)可以提高in-context 能力,可能會進(jìn)一步幫助我們了解預(yù)訓(xùn)練模型的內(nèi)部工作機(jī)制。

          校準(zhǔn)語言模型

          prompting很贊,但它也會從預(yù)訓(xùn)練語料庫帶來bias。例如,在零樣本情感分類設(shè)置中,給定“N/A”作為輸入,GPT-3 傾向于預(yù)測為“positive”而不是“negative”,而本應(yīng)該分配50/50的概率給這兩個(gè)相反的標(biāo)簽(趙等人,2021 )。另一個(gè)問題是同一對象的不同表示(例如,“computer”和“PC”)可能會競爭概率質(zhì)量,導(dǎo)致任務(wù)標(biāo)簽上的分布不理想(Holtzman 等,2021)。趙等人(2021)和Holtzman 等人(2021)給出的解決方案是校準(zhǔn)(calibration):對帶偏token進(jìn)行補(bǔ)償,把他們校準(zhǔn)為無偏狀態(tài)。

          什么是真正的few-shot setting?
          關(guān)于few-shot的設(shè)置本身有很多爭議:眾所周知,對小數(shù)據(jù)集的微調(diào)可能有很大的不穩(wěn)定性(Dodge 等人,2020 ;Zhang 等人,2021 ),并且數(shù)據(jù)不同的分割可能會急劇影響性能。以前的工作采用了不同的設(shè)置,但要考慮到小樣本巨大的variance,需要多次采樣進(jìn)行小樣本數(shù)據(jù)劃分,以及用不同種子進(jìn)行多次試驗(yàn),來提供一個(gè)嚴(yán)格可信的小樣本評估(這就是我們在工作中所做的)。另一個(gè)經(jīng)常被忽視的問題是,我們不能在few-shot的情況下假定有一個(gè)大的驗(yàn)證集。為了解決這個(gè)問題,Schick 和 Schütze(2021)不使用驗(yàn)證集并采用固定的超參數(shù)(類似于“shooting in the dark”,可能會產(chǎn)生一些不直觀的結(jié)果)。在我們的工作中,我們采樣了和訓(xùn)練集一樣大的數(shù)據(jù)作為few-shot驗(yàn)證集,這樣我們可以調(diào)超參,同時(shí)保證“few-shot”。
          在最近的一篇論文中,Perez等人(2021)認(rèn)為先前的工作通過或多或少地采用了許多保留樣本用于超參選擇、模型開發(fā)或prompt設(shè)計(jì),所以高估了 LM 的小樣本性能。因此,他們提倡“真正的小樣本學(xué)習(xí)”設(shè)置。這和我們的觀點(diǎn)一致,即只能假定有很少的驗(yàn)證集樣本。然而,在現(xiàn)實(shí)世界中,很難實(shí)現(xiàn)“真正的小樣本學(xué)習(xí)”,因?yàn)樾枰銐驍?shù)量的保留樣本來驗(yàn)證模型至少在一兩個(gè)任務(wù)上是有效的。因此只要模型的設(shè)計(jì)可以很好地泛化到其他的小樣本任務(wù)(真正的小樣本),它就是一個(gè)很好的小樣本模型。在我們的工作中,我們將 SST-2 和 SNLI 用于pilot experiment,實(shí)驗(yàn)表明我們的方法可以很好地推廣到其他 13 個(gè) NLU 任務(wù)。

          介紹 LM-BFF

          最后介紹一下我們ACL'21的論文,“ Making Pre-trained Language Models Better Few-shot Learners ”,縮寫為 LM-BFF(better few-shot fine-tuning of language models,或者是language models' best friends forever)。LM-BFF 是一套簡單的技術(shù)組合,用于僅在少量訓(xùn)練樣本上對預(yù)訓(xùn)練的 LM 進(jìn)行微調(diào),包括:

          • 基于prompt的微調(diào),以及自動生成prompt的新方法;

          • 一種動態(tài)地、有選擇地在上下文中引入demonstration 的方法。

          我們在嚴(yán)格的小樣本設(shè)置(如上文所述)中評估 LM-BFF,實(shí)驗(yàn)表明 LM-BFF 的效果顯著優(yōu)于標(biāo)準(zhǔn)微調(diào)(在 SNLI 上提升30%,平均提升 11%)。代碼見本文開頭處。

          基于Prompt的微調(diào)

          上文已經(jīng)討論過什么是基于prompt的微調(diào)——用模板(templates)將任務(wù)制定為一個(gè) (masked) language modeling 問題,并將每個(gè)類的預(yù)期輸出設(shè)置為標(biāo)簽詞( label words)。我們設(shè)計(jì)了以下模板和標(biāo)簽詞。

          實(shí)驗(yàn)中使用的人工prompt(模板 + 標(biāo)簽詞)。<S1> 和 <S2> 代表輸入的句子。

          然而,人工制作好的prompt可能比較tricky,需要領(lǐng)域知識,而且結(jié)果可能不直觀。在下表中,我們展示了小樣本模型對prompt中的小擾動的敏感度。

          不同模板和標(biāo)簽詞的影響。采用 RoBERTa-large ( Liu et al., 2019 ) ,每個(gè)類 16 個(gè)訓(xùn)練/驗(yàn)證樣本。

          我們觀察到,如果模板是固定的,標(biāo)簽詞與“semantic classes”匹配得越好,結(jié)果就越好。例如,對于 SST-2,great/terrible > good/bad > cat/dog > dot/cat > terrible/good(雖然不清楚為什么 RoBERTa 認(rèn)為?? 比??更積極)。從 SNLI 中,可以看到如果我們將 [MASK] 放在末尾,或交換兩個(gè)句子,可能會導(dǎo)致性能下降 10% 以上。這促使我們?nèi)ふ乙环N比人工prompt更好的方式——自動prompt搜索。

          自動Prompt搜索

          我們將自動prompt搜索分為兩部分——自動標(biāo)簽詞搜索和模板搜索

          對于自動標(biāo)簽詞搜索,我們的目標(biāo)是找到一組可以最大化驗(yàn)證集上性能的標(biāo)簽詞,給定一個(gè)人工模板,一種簡單的方法是暴力搜索所有單詞組合。但這樣不太可行,因?yàn)樗阉骺臻g是類數(shù)量的指數(shù)級別,并且該方法容易導(dǎo)致偽相關(guān)和過擬合。我們的做法是,首先為每個(gè)類  構(gòu)建一個(gè)候選詞集  :用   表示類  的所有訓(xùn)練樣本,給定模板和  ,我們找到能最大化的  [MASK] 處的 LM 概率的top-k個(gè)詞。然后我們枚舉  的所有單詞組合,并找到最大化訓(xùn)練集上的零樣本準(zhǔn)確率的 top-n 組合。最后,我們對所有 n 個(gè)組合進(jìn)行微調(diào),并根據(jù)驗(yàn)證集上的表現(xiàn)對它們重排序(rerank)。我們發(fā)現(xiàn)剪枝空間中的暴力搜索和微調(diào)重排序?qū)τ谔嵘罱K性能都很有幫助。

          我們的模板生成方法

          對于自動模板搜索,目標(biāo)是相似的:在給定人工標(biāo)簽詞的情況下,找到使驗(yàn)證集上準(zhǔn)確率最高的模板。我們使用 T5 ,開箱即用,生成了許多候選模板,然后通過驗(yàn)證集表現(xiàn)對它們進(jìn)行rerank。T5 是一個(gè) seq-to-seq 模型,使用完形填空的目標(biāo)進(jìn)行了預(yù)訓(xùn)練,非常適合用來生成模板。以情感分類(上圖)為例,我們將輸入樣本和對應(yīng)的標(biāo)簽詞連接起來,并在標(biāo)簽詞周圍插入<X>和<Y>(T5的mask tokens)。要注意,我們希望 T5 模型基于所有few-shot訓(xùn)練樣本做條件生成,因此在每個(gè)位置,我們?nèi)∷惺纠?span>log likelihood之和(具體細(xì)節(jié)參考我們的論文)。最后,我們使用大寬度(100)的beam search來獲取大量高質(zhì)量的模板。

          下表顯示了我們的自動prompt搜索得到的一些例子。可以看到,對于自動模板搜索,大多數(shù)模板都非常適應(yīng)上下文和手動標(biāo)簽詞,盡管存在一些潛在的bias(例如,SNLI 模板中的“no”)。盡管大部分看起來很直觀,標(biāo)簽詞的結(jié)果還是包含一些奇怪的異常(例如,SNLI 中entailment類里的“Hi”)。

          自動prompt搜索結(jié)果

          引入Demonstration

          前文已經(jīng)介紹了 GPT-3 如何在上下文中使用demonstration:從訓(xùn)練集中隨機(jī)抽樣并以任意順序連接它們,這樣其實(shí)在很多方面都會有問題:預(yù)訓(xùn)練的 LM 的輸入長度是有限的,尤其是對于較小的(通常是512)來說;如果樣本以隨機(jī)順序連接,則很難得到有意義的pattern;與輸入實(shí)例相差太大的demonstration可能會沒有幫助,甚至?xí)鸹煜R虼?,我們提出了一種動態(tài)地、有選擇地方式來引入demonstration:

          • 在訓(xùn)練和推理期間,我們從訓(xùn)練集中為每個(gè)類隨機(jī)抽取一個(gè)樣本并將它們連接起來(本文中圖一給出了一個(gè)示例)。對于推理,我們對抽取多組demonstration,并在最后對結(jié)果進(jìn)行集成。

          • 我們只采樣與輸入密切相關(guān)的demonstration。例如,如果輸入是電影評論,就對電影評論進(jìn)行采樣,而不是餐廳評論。我們采用 SBERT ( Reimers and Gurevych, 2019 ) 對句子進(jìn)行編碼,計(jì)算輸入與訓(xùn)練集中所有樣本之間的余弦相似度,然后僅從前 50% 的樣本中進(jìn)行采樣。

          實(shí)驗(yàn)結(jié)果

          我們的主要結(jié)果(RoBERTa-large;每類有 16 個(gè)訓(xùn)練樣本;結(jié)果(標(biāo)準(zhǔn)差)是在五個(gè)split的平均)。“GPT-3”in-context learning:使用GPT-3demonstration,但仍采用固定的 RoBERTa-large 模型。FT: fine-tuning; man: manual; auto: automatic templates

          上表顯示了我們的主要實(shí)驗(yàn)結(jié)果。主要結(jié)論如下:

          • 即使在零樣本情況下,使用prompt的效果也很好。而GPT-3 模式的學(xué)習(xí)并沒有持續(xù)改進(jìn)零樣本模型的結(jié)果,這表明微調(diào)還是必要的。

          • 無論人工還是自動,基于prompt的微調(diào)比標(biāo)準(zhǔn)微調(diào)要好得多。在許多任務(wù)上,自動模板可以比手動模板獲得更好的結(jié)果。

          • 引入demonstration進(jìn)一步帶來了顯著的提升,這表明即使進(jìn)行了微調(diào),在上下文中添加demonstration也可以幫助few-shot任務(wù)。

          我們的論文中還有很多有趣的實(shí)驗(yàn),展示了自動prompt生成如何與模型集成相結(jié)合,以及不同的demonstration和自動prompt策略如何影響性能。最后,我們展示了隨著訓(xùn)練樣本增加, 標(biāo)準(zhǔn)微調(diào)和 LM-BFF 之間的對比和變化趨勢。如圖所示,LM-BFF 在 SST-2 等簡單任務(wù)上只用 32 個(gè)訓(xùn)練樣例性能就幾乎飽和,而在 SNLI 等更難的任務(wù)上,它相比持續(xù)微調(diào)有明顯的優(yōu)勢,直到接近 1千個(gè)訓(xùn)練樣本時(shí)兩者的表現(xiàn)才相近。

          標(biāo)準(zhǔn)微調(diào) vs LM-BFF隨著K增加的表現(xiàn) (# training examples per class).

          當(dāng)然,我們的方法也有局限性。準(zhǔn)確率還有很大的提升空間,就像標(biāo)準(zhǔn)的微調(diào)一樣,LM-BFF 受到小樣本訓(xùn)練中variance的影響比較大。雖然自動prompt的性能與人工prompt比相當(dāng)甚至更好,但它仍然需要一些人工設(shè)計(jì)(自動模板設(shè)計(jì)始于人工標(biāo)簽詞,自動標(biāo)簽詞設(shè)計(jì)始于人工模板)。最后,基于prompt的微調(diào)本身偏好某些任務(wù):(1) 可以作為“填空”的問題,(2) 輸入相對較短,以及 (3) 不包含很多輸出類。這些都是未來工作中可以考慮的問題。

          這篇論文于 2020 年底發(fā)布,從那時(shí)起,關(guān)于few-shotprompting領(lǐng)域出現(xiàn)了許多激動人心的進(jìn)展。盡管如此,LM-BFF 在自動prompt生成方面和在微調(diào)中引入demonstration的研究unique的。與最近的soft-prompt方法相比,LM-BFF(以及其他基于自然語言prompt的方法)在較小的語言模型和few-shot場景中具有巨大的優(yōu)勢。希望我們的工作能夠激發(fā)在這個(gè)方向上的進(jìn)一步探索。

          總體來說,這篇文章討論了很多關(guān)于自然語言promptsoft-promptin-context learning的最新進(jìn)展,并介紹了我們的 LM-BFF 論文。我相信prompting會是未來幾年比較有希望的研究方向。在更大的場景下,基于prompt的方法是關(guān)于如何更好地從自監(jiān)督學(xué)習(xí)(預(yù)訓(xùn)練)中挖掘知識(關(guān)于事實(shí)、推理、理解情感等)的,在這個(gè)方向上的研究可以更好地挖掘語言模型的潛力,讓他們成為越來越強(qiáng)大的learner

          References

          1. Devlin et al. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
          2. Brown et al. 2020. Language Models are Few-Shot Learners.
          3. Gao et al. 2020. Making Pre-trained Language Models Better Few-shot Learners.
          4. Scao and Rush. How Many Data Points is a Prompt Worth?
          5. Schick and Schütze. 2021. Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference.
          6. Schick and Schütze. 2021. It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners.
          7. Raffel et al. 2020. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.
          8. Radford et al. Improving Language Understanding by Generative Pre-Training.
          9. Radford et al. Language Models are Unsupervised Multitask Learners.
          10. Petroni et al. 2019. Language Models as Knowledge Bases?
          11. Davison et al. 2019. Commonsense Knowledge Mining from Pretrained Models.
          12. Jiang et al. 2020. How Can We Know What Language Models Know?
          13. Talmor et al. 2020. oLMpics -- On what Language Model Pre-training Captures.
          14. Tam et al. 2021. Improving and Simplifying Pattern Exploiting Training.
          15. Zhong et al. Meta-tuning Language Models to Answer Prompts Better.
          16. Wang et al. 2021. Entailment as Few-Shot Learner.
          17. Shin et al. 2020. AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts.
          18. Wallace et al. 2019. Universal Adversarial Triggers for Attacking and Analyzing NLP.
          19. Frankle and Carbin. 2019. The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks.
          20. Zhong et al. 2021. Factual Probing Is [MASK]: Learning vs. Learning to Recall.
          21. Qin and Eisner. 2021. Learning How to Ask: Querying LMs with Mixtures of Soft Prompts.
          22. Li and Liang. 2021. Prefix-Tuning: Optimizing Continuous Prompts for Generation.
          23. Han et al. 2021. PTR: Prompt Tuning with Rules for Text Classification.
          24. Lester et al. 2021. The Power of Scale for Parameter-Efficient Prompt Tuning.
          25. Liu et al. 2021. GPT Understands, Too.
          26. Liu et al. 2021. What Makes Good In-Context Examples for GPT-3?
          27. Lu et al. 2021. Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity.
          28. Zhao et al. 2021. Calibrate Before Use: Improving Few-Shot Performance of Language Models.
          29. Holtzman et al. Surface Form Competition: Why the Highest Probability Answer Isn’t Always Right.
          30. Dodge et al. 2020. Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping.
          31. Zhang et al. 2020. Revisiting Few-sample BERT Fine-tuning.
          32. Perez et al. 2021. True Few-Shot Learning with Language Models.
          33. Liu et al. 2019. RoBERTa: A Robustly Optimized BERT Pretraining Approach.
          34. Reimers et al. 2019. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks.

          Acknowledgments

          Thanks Danqi Chen and Adam Fisch for proofreading the article and their helpful comments!


          本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
          打開APP,閱讀全文并永久保存 查看更多類似文章
          猜你喜歡
          類似文章
          54百億參數(shù)大模型進(jìn)化樹重磅更新!85頁盤點(diǎn)LLM發(fā)展史,附最詳細(xì)prompt技巧
          Prompt Tuning 相比于 Fine Tuning 在哪些場景下表現(xiàn)更好?
          大模型如何端邊部署?華盛頓大學(xué)Google提出《逐步蒸餾》法
          神奇的提示詞生成器,讓你擁有和OpenAI工程師一樣強(qiáng)大的提示詞寫作能力!
          《提問的藝術(shù) for CHATGPT》—— 關(guān)于 prompt 技巧的全面指導(dǎo),建議收藏學(xué)習(xí)!
          超越所有微調(diào)方法,參數(shù)量大幅減少,康奈爾大學(xué)等提出視覺prompt新方法
          更多類似文章 >>
          生活服務(wù)
          分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
          綁定賬號成功
          后續(xù)可登錄賬號暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點(diǎn)擊這里聯(lián)系客服!

          聯(lián)系客服