Prompting: 更好地將語言模型應(yīng)用到NLP任務(wù)

作者簡介：高天宇，普林斯頓大學(xué)博士，導(dǎo)師陳丹琦。本科就讀于清華大學(xué)計(jì)算機(jī)系，本科期間即在AI頂會上發(fā)表四篇論文（兩篇AAAI、兩篇EMNLP），獲得2019年清華大學(xué)本科生特等獎學(xué)金。

從BERT（Devlin等人, 2019）開始，在下游任務(wù)中微調(diào)預(yù)訓(xùn)練語言模型（LM）已成為 NLP 領(lǐng)域的通用做法。然而，擁有 175B 參數(shù)的 GPT-3 模型（Brown等人, 2020）帶來了一種將 LM 用于下游任務(wù)的新方法：通過使用自然語言提示信息（prompt）和任務(wù)示例（demonstration）作為context，GPT-3只需幾個(gè)樣本即可處理很多任務(wù)，而不需更新底層模型中的參數(shù)（正如文章標(biāo)題“Language Models are Few-Shot Learners”所示）。GPT-3 龐大的模型規(guī)模是其成功的重要因素，而prompt和demonstration的概念也讓我們對如何更好地使用語言模型有了新的認(rèn)識。

那么什么是prompt？prompt是插入到輸入樣本中的一段文本，因此可以將原始任務(wù)轉(zhuǎn)換為（masked）language modeling問題。例如，假設(shè)我們要對影評“No reason to watch”進(jìn)行情感分類，我們可以在句子中附加一個(gè)prompt“It was”，得到“No reason to watch. It was”。這樣就可以很自然地認(rèn)為，LM 會有更高的概率判斷為“terrible”而不是“great”。

GPT-3 發(fā)布后，涌現(xiàn)了很多與prompt相關(guān)的論文，其中很多都討論了中等規(guī)模預(yù)訓(xùn)練模型的prompt-based learning，例如BERT（BERT-base 有 110M 參數(shù)，比最大的 GPT-3 小 1000 倍）。在這篇博文中，我將概述最近的prompt-based方法以及我對prompting的看法。在文章最后，將介紹我們的 ACL'21 論文，“Making Pre-trained Language Models Better Few-shot Learners”。

論文地址：https://arxiv.org/pdf/2012.15723.pdf
代碼地址：https://github.com/princeton-nlp/lm-bff

為什么我們需要Prompt

預(yù)訓(xùn)練、標(biāo)準(zhǔn)微調(diào)和基于prompt的微調(diào)，以情感分類任務(wù)為例 (Gao等人, 2021).

在標(biāo)準(zhǔn)的“pre-training和fine-tuning”范式中，預(yù)訓(xùn)練階段和下游任務(wù)之間的gap可能很大：它們訓(xùn)練目標(biāo)不同。對于下游任務(wù)，我們通常需要引入新的參數(shù)——例如，對于 BERT 大小的模型和二分類任務(wù)，需要額外的一組 1,024 x 2 的參數(shù)。而prompting使得下游任務(wù)可以采用與預(yù)訓(xùn)練目標(biāo)相同的格式，并且不需要新的參數(shù)，如上圖所示。對于分類任務(wù)，我們只需要設(shè)計(jì)一個(gè)template（“It was”）以及預(yù)期的text response（我們稱之為label words，例如，圖中的正標(biāo)簽詞“great”和負(fù)標(biāo)簽詞“terrible”）。通過縮小兩個(gè)階段之間的差距，在特定任務(wù)上部署預(yù)訓(xùn)練模型就變得容易多了，尤其是對于小樣本（few-shot）的情況——當(dāng)你只有十幾個(gè)訓(xùn)練樣本來完成一項(xiàng)新任務(wù)時(shí)，很難有效地fine-tune預(yù)訓(xùn)練模型和新的task-specific 的參數(shù)，但prompting使得這個(gè)過程變得順暢很多。Scao 和 Rush （2021）的研究表明一個(gè)prompt 可能值 100 個(gè)常規(guī)數(shù)據(jù)點(diǎn)，說明prompts可以帶來樣本效率的巨大提升。

對prompt的研究有兩種不同的方向：受 PET 論文的啟發(fā)（Schick and Schütze,2021a,b），基于prompt的fine-tuning（關(guān)鍵點(diǎn)是仍然進(jìn)一步優(yōu)化參數(shù)）被認(rèn)為是對小語言模型來說更好的few-shot learner途徑（“小”指的是擁有數(shù)百萬而不是數(shù)十億的參數(shù)，如 BERT 或 RoBERTa）；對于像 175B GPT-3 和 11B T5 這樣的超大型模型（Raffel等人, 2020），微調(diào)它們比較困難（只是猜測，沒試過）而且成本很高，因此我們希望固定它們的參數(shù)，通過不同的prompt（離散的或soft的，將在后面討論）將它們應(yīng)用到不同任務(wù)上。

Discrete Prompts

在預(yù)訓(xùn)練模型中使用prompt的工作可以追溯到 GPT-1/2（Radford等人, 2018 , 2019），作者表明，通過設(shè)計(jì)適當(dāng)?shù)膒rompt，LM 可以在從情感分類到閱讀理解等零樣本任務(wù)上都取得不錯(cuò)的效果。后來，Petroni等人（2019）; Davison等人（2019）; Jiang等人（2020）; Talmor等人（2020）探索了利用prompt從 LM中挖掘事實(shí)或常識知識。而GPT-3固定了模型參數(shù)并應(yīng)用了prompt，之后基于prompt的方法被進(jìn)一步引入到較小的 LM中（Schick 和 Schütze, 2021a, b; 我們的工作LM-BFF, Gao等人, 2021）。它們與 GPT-3 的不同之處在于它們對完整模型進(jìn)行了微調(diào)，并采用雙向掩碼 LM 而不是單向 LM。最近的幾篇論文延續(xù)了這條路線，通過調(diào)整目標(biāo)函數(shù)（Tam等人, 2021）或以統(tǒng)一任務(wù)形式來改進(jìn)，例如在問答（Zhong等人, 2021）或文本蘊(yùn)涵（Wang等人, 2021）任務(wù)中。在所有這些模型中，prompt都是自然語言形式，由詞匯表中離散的token組成。大多數(shù)工作都需要人工設(shè)計(jì)的prompt——prompt engineering非常重要，因?yàn)樾〉臄_動就可能會顯著影響模型的性能，而設(shè)計(jì)完美的prompt需要對 LM 內(nèi)部機(jī)制的理解以及反復(fù)的試驗(yàn)。

和人工設(shè)計(jì)的prompt相反，我們也可以生成或優(yōu)化prompt：Guo等人（2021）表明一種soft Q-learning方法對于promt generation效果很好；AutoPrompt（Shin等人, 2020）建議采用一種基于梯度的搜索（該想法來自Wallace等人, 2019，旨在搜索通用的對抗性觸發(fā)器，使模型生成一個(gè)特定的預(yù)測）來找出特定任務(wù)的最佳prompt。AutoPrompt的設(shè)置的不同之處在于它固定了模型：它假設(shè)所有內(nèi)容都在預(yù)訓(xùn)練模型中編碼好，我們需要的只是將它們“prompt”出來；另一個(gè)原因是 AutoPrompt 還被用于 LAMA（Petroni等人, 2019），這是一項(xiàng)knowledge probing任務(wù)，要求不觸及模型參數(shù)。以下是一個(gè)用于情感分類的 AutoPrompt 示例。

AutoPrompt 圖解（Shin等人, 2020）

搜索到的模板顯著提高了 LAMA 的性能；它們還在使用完整數(shù)據(jù)集的情感分類和自然語言推理任務(wù)中取得了很高的準(zhǔn)確率（不過仍然低于微調(diào)的結(jié)果）。如果看一下搜索出來的離散（但不再是自然語言形式）prompt，可以找到對一些“trigger tokens”的解釋，但其他許多只是特例。目前尚不清楚自動prompt是否真的能幫助LM回憶內(nèi)部“知識”，還是只是另一種優(yōu)化方式，是從預(yù)訓(xùn)練模型中的“彩票”中挑選“中獎彩票”（對于彩票假設(shè)，參見 Frankle和Carbin, 2019）。

Soft Prompts：Prompt里真的需要離散的詞嗎

既然 AutoPrompt 已經(jīng)對prompt進(jìn)行了基于梯度的搜索，為什么不從離散tokens轉(zhuǎn)向連續(xù)的“soft prompt”呢？例如，Zhong等人（2021）以及 Qin和Eisner（2021）提出將“soft prompt”用于knowledge probing任務(wù)（LAMA 等），相對于離散prompt取得了相當(dāng)大的提升。這個(gè)想法非常簡單——只需在輸入序列中放入一些隨機(jī)向量（與詞匯表中的特定word embedding無關(guān)）并進(jìn)行調(diào)整，同時(shí)固定預(yù)訓(xùn)練模型的其他部分。

除了probing任務(wù)之外，還有一些其他的使用soft prompt的工作：Li和Liang（2021）將這個(gè)想法擴(kuò)展到生成任務(wù)，并表明它在僅調(diào)整 0.1% 的參數(shù)的情況下就能與微調(diào)性能相當(dāng)。Han等人（2021）將soft prompt與人工模板相結(jié)合，在關(guān)系抽取方面取得了極佳的性能。迄今為止，我所看到的關(guān)于soft prompt的最全面的研究來自Lester等人（2021）：他們在 T5 上應(yīng)用了soft prompt，并表明只需調(diào)整prompt（僅占總參數(shù)的一小部分），T5 在 NLU 任務(wù)上就可以取得與對整個(gè)模型進(jìn)行微調(diào)相當(dāng)?shù)男阅?。我之所以喜歡這篇論文，還因?yàn)樗M(jìn)行了廣泛的消融實(shí)驗(yàn)，并給出了得到好soft prompt的幾個(gè)關(guān)鍵經(jīng)驗(yàn)選擇，包括用word embedding初始化、足夠數(shù)量的soft prompt token和對齊的預(yù)訓(xùn)練目標(biāo)。除了參數(shù)效率，Lester 等人（2021）還證明soft prompt比完整模型微調(diào)具有更好的可遷移性。

我們回顧一下soft prompt的idea：它效果非常好，并且在不能（probing任務(wù)）或不準(zhǔn)備（模型太大或想要適用于所有任務(wù)的通用模型）接觸模型參數(shù)時(shí)特別有效。微調(diào)soft prompt與基于prompt的微調(diào)區(qū)別很大，它允許優(yōu)化整個(gè)模型，更重要的是，它比標(biāo)準(zhǔn)微調(diào)能更好地處理小樣本情況。與人工prompt不同，AutoPrompt 在小樣本情況下效果不佳，而且據(jù)我所知，沒有soft-prompt論文說它們實(shí)現(xiàn)了很好的小樣本性能（盡管Liu 等人（2021）獲得了較為滿意的小樣本結(jié)果，他們是從離散的人工prompt和微調(diào)整個(gè)模型開始做的）。此外，正如Lester等人（2021）所證明的，除非使用超過100 億參數(shù)的預(yù)訓(xùn)練模型，soft prompt永遠(yuǎn)無法達(dá)到與完全微調(diào)SuperGLUE相同的性能！如何進(jìn)一步推動soft prompt在小樣本情況和較小的語言模型中更有效地工作，是我認(rèn)為值得研究的地方。

GPT-3 (藍(lán)) vs 全模型微調(diào) (橙) vs soft-prompt微調(diào)(綠). 詳見Lester等人(2021).

In-context learning: 一種新的meta-learning方式

本文開頭將 GPT-3 的成功歸于兩個(gè)設(shè)計(jì)：prompt和demonstration（或in-context learning），接下來講in-context learning。由于 GPT-3 的參數(shù)沒有針對下游任務(wù)進(jìn)行微調(diào)，因此它必須以另一種方式“學(xué)習(xí)”新任務(wù)——通過上下文（context）。
GPT-3 通過上下文中的demonstration“學(xué)習(xí)”新任務(wù)(Brown等人, 2020).

如上圖所示，GPT-3 簡單地將訓(xùn)練集中的一些隨機(jī)樣本與實(shí)際查詢（query，在本示例中為“cheese ?”）連接起來，而且由于預(yù)訓(xùn)練模型已經(jīng)學(xué)會了從上下文中捕獲模式，并且Transformers 的 self-attention 使這些實(shí)例之間可以逐token進(jìn)行比較，in-context learning的效果出奇地好。GPT-3 論文將其歸為“元學(xué)習(xí)（meta-learning）”，認(rèn)為在閱讀大量無監(jiān)督文本后，語言模型可以“培養(yǎng)廣泛的技能和模式識別的能力”。作者認(rèn)為在預(yù)訓(xùn)練期間“有時(shí)會在單個(gè)序列中嵌入重復(fù)的子任務(wù)”，類似于in-context learning的范式。后續(xù)工作進(jìn)一步完善了使用demonstration的方式：Gao等人（2021）Liu 等人（2021）認(rèn)為不應(yīng)該隨機(jī)抽取一些樣本，采用和查詢近似的demonstration可以顯著提高性能；Lu等人（2021）表明，即使是demonstration的順序也很重要，并提出了一種確定“最佳”順序的方法。

雖然in-context learning只有在不能微調(diào)模型時(shí)才是“必要”的，并且當(dāng)訓(xùn)練樣例數(shù)量增加時(shí)很難泛化（因?yàn)槟Ｐ偷妮斎腴L度有限），研究如何更好地使用demonstration（即如何進(jìn)一步壓縮 LM 學(xué)到的“元知識”）以及哪些預(yù)訓(xùn)練目標(biāo)和數(shù)據(jù)可以提高in-context 能力，可能會進(jìn)一步幫助我們了解預(yù)訓(xùn)練模型的內(nèi)部工作機(jī)制。

校準(zhǔn)語言模型

prompting很贊，但它也會從預(yù)訓(xùn)練語料庫帶來bias。例如，在零樣本情感分類設(shè)置中，給定“N/A”作為輸入，GPT-3 傾向于預(yù)測為“positive”而不是“negative”，而本應(yīng)該分配50/50的概率給這兩個(gè)相反的標(biāo)簽（趙等人，2021 ）。另一個(gè)問題是同一對象的不同表示（例如，“computer”和“PC”）可能會競爭概率質(zhì)量，導(dǎo)致任務(wù)標(biāo)簽上的分布不理想（Holtzman 等，2021）。趙等人（2021）和Holtzman 等人（2021）給出的解決方案是校準(zhǔn)（calibration）：對帶偏token進(jìn)行補(bǔ)償，把他們校準(zhǔn)為無偏狀態(tài)。

什么是真正的few-shot setting?

關(guān)于few-shot的設(shè)置本身有很多爭議：眾所周知，對小數(shù)據(jù)集的微調(diào)可能有很大的不穩(wěn)定性（Dodge 等人，2020 ；Zhang 等人，2021 ），并且數(shù)據(jù)不同的分割可能會急劇影響性能。以前的工作采用了不同的設(shè)置，但要考慮到小樣本巨大的variance，需要多次采樣進(jìn)行小樣本數(shù)據(jù)劃分，以及用不同種子進(jìn)行多次試驗(yàn)，來提供一個(gè)嚴(yán)格可信的小樣本評估（這就是我們在工作中所做的）。另一個(gè)經(jīng)常被忽視的問題是，我們不能在few-shot的情況下假定有一個(gè)大的驗(yàn)證集。為了解決這個(gè)問題，Schick 和 Schütze（2021）不使用驗(yàn)證集并采用固定的超參數(shù)（類似于“shooting in the dark”，可能會產(chǎn)生一些不直觀的結(jié)果）。在我們的工作中，我們采樣了和訓(xùn)練集一樣大的數(shù)據(jù)作為few-shot驗(yàn)證集，這樣我們可以調(diào)超參，同時(shí)保證“few-shot”。

在最近的一篇論文中，Perez等人（2021）認(rèn)為先前的工作通過或多或少地采用了許多保留樣本用于超參選擇、模型開發(fā)或prompt設(shè)計(jì)，所以高估了 LM 的小樣本性能。因此，他們提倡“真正的小樣本學(xué)習(xí)”設(shè)置。這和我們的觀點(diǎn)一致，即只能假定有很少的驗(yàn)證集樣本。然而，在現(xiàn)實(shí)世界中，很難實(shí)現(xiàn)“真正的小樣本學(xué)習(xí)”，因?yàn)樾枰銐驍?shù)量的保留樣本來驗(yàn)證模型至少在一兩個(gè)任務(wù)上是有效的。因此只要模型的設(shè)計(jì)可以很好地泛化到其他的小樣本任務(wù)（真正的小樣本），它就是一個(gè)很好的小樣本模型。在我們的工作中，我們將 SST-2 和 SNLI 用于pilot experiment，實(shí)驗(yàn)表明我們的方法可以很好地推廣到其他 13 個(gè) NLU 任務(wù)。

介紹 LM-BFF

最后介紹一下我們ACL'21的論文，“ Making Pre-trained Language Models Better Few-shot Learners ”，縮寫為 LM-BFF（better few-shot fine-tuning of language models，或者是language models' best friends forever）。LM-BFF 是一套簡單的技術(shù)組合，用于僅在少量訓(xùn)練樣本上對預(yù)訓(xùn)練的 LM 進(jìn)行微調(diào)，包括：

基于prompt的微調(diào)，以及自動生成prompt的新方法；
一種動態(tài)地、有選擇地在上下文中引入demonstration 的方法。

我們在嚴(yán)格的小樣本設(shè)置（如上文所述）中評估 LM-BFF，實(shí)驗(yàn)表明 LM-BFF 的效果顯著優(yōu)于標(biāo)準(zhǔn)微調(diào)（在 SNLI 上提升30%，平均提升 11%）。代碼見本文開頭處。

基于Prompt的微調(diào)

上文已經(jīng)討論過什么是基于prompt的微調(diào)——用模板（templates）將任務(wù)制定為一個(gè) (masked) language modeling 問題，并將每個(gè)類的預(yù)期輸出設(shè)置為標(biāo)簽詞（ label words）。我們設(shè)計(jì)了以下模板和標(biāo)簽詞。

實(shí)驗(yàn)中使用的人工prompt（模板 + 標(biāo)簽詞）。<S1> 和 <S2> 代表輸入的句子。

當(dāng)然，我們的方法也有局限性。準(zhǔn)確率還有很大的提升空間，就像標(biāo)準(zhǔn)的微調(diào)一樣，LM-BFF 受到小樣本訓(xùn)練中variance的影響比較大。雖然自動prompt的性能與人工prompt比相當(dāng)甚至更好，但它仍然需要一些人工設(shè)計(jì)（自動模板設(shè)計(jì)始于人工標(biāo)簽詞，自動標(biāo)簽詞設(shè)計(jì)始于人工模板）。最后，基于prompt的微調(diào)本身偏好某些任務(wù)：(1) 可以作為“填空”的問題，(2) 輸入相對較短，以及 (3) 不包含很多輸出類。這些都是未來工作中可以考慮的問題。

這篇論文于 2020 年底發(fā)布，從那時(shí)起，關(guān)于few-shot或prompting領(lǐng)域出現(xiàn)了許多激動人心的進(jìn)展。盡管如此，LM-BFF 在自動prompt生成方面和在微調(diào)中引入demonstration的研究是unique的。與最近的soft-prompt方法相比，LM-BFF（以及其他基于自然語言prompt的方法）在較小的語言模型和few-shot場景中具有巨大的優(yōu)勢。希望我們的工作能夠激發(fā)在這個(gè)方向上的進(jìn)一步探索。

總體來說，這篇文章討論了很多關(guān)于自然語言prompt、soft-prompt和in-context learning的最新進(jìn)展，并介紹了我們的 LM-BFF 論文。我相信prompting會是未來幾年比較有希望的研究方向。在更大的場景下，基于prompt的方法是關(guān)于如何更好地從自監(jiān)督學(xué)習(xí)（預(yù)訓(xùn)練）中挖掘知識（關(guān)于事實(shí)、推理、理解情感等）的，在這個(gè)方向上的研究可以更好地挖掘語言模型的潛力，讓他們成為越來越強(qiáng)大的learner。

References

1. Devlin et al. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
2. Brown et al. 2020. Language Models are Few-Shot Learners.
3. Gao et al. 2020. Making Pre-trained Language Models Better Few-shot Learners.
4. Scao and Rush. How Many Data Points is a Prompt Worth?
5. Schick and Schütze. 2021. Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference.
6. Schick and Schütze. 2021. It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners.
7. Raffel et al. 2020. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.
8. Radford et al. Improving Language Understanding by Generative Pre-Training.
9. Radford et al. Language Models are Unsupervised Multitask Learners.
10. Petroni et al. 2019. Language Models as Knowledge Bases?
11. Davison et al. 2019. Commonsense Knowledge Mining from Pretrained Models.
12. Jiang et al. 2020. How Can We Know What Language Models Know?
13. Talmor et al. 2020. oLMpics -- On what Language Model Pre-training Captures.
14. Tam et al. 2021. Improving and Simplifying Pattern Exploiting Training.
15. Zhong et al. Meta-tuning Language Models to Answer Prompts Better.
16. Wang et al. 2021. Entailment as Few-Shot Learner.
17. Shin et al. 2020. AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts.
18. Wallace et al. 2019. Universal Adversarial Triggers for Attacking and Analyzing NLP.
19. Frankle and Carbin. 2019. The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks.
20. Zhong et al. 2021. Factual Probing Is [MASK]: Learning vs. Learning to Recall.
21. Qin and Eisner. 2021. Learning How to Ask: Querying LMs with Mixtures of Soft Prompts.
22. Li and Liang. 2021. Prefix-Tuning: Optimizing Continuous Prompts for Generation.
23. Han et al. 2021. PTR: Prompt Tuning with Rules for Text Classification.
24. Lester et al. 2021. The Power of Scale for Parameter-Efficient Prompt Tuning.
25. Liu et al. 2021. GPT Understands, Too.
26. Liu et al. 2021. What Makes Good In-Context Examples for GPT-3?
27. Lu et al. 2021. Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity.
28. Zhao et al. 2021. Calibrate Before Use: Improving Few-Shot Performance of Language Models.
29. Holtzman et al. Surface Form Competition: Why the Highest Probability Answer Isn’t Always Right.
30. Dodge et al. 2020. Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping.
31. Zhang et al. 2020. Revisiting Few-sample BERT Fine-tuning.
32. Perez et al. 2021. True Few-Shot Learning with Language Models.
33. Liu et al. 2019. RoBERTa: A Robustly Optimized BERT Pretraining Approach.
34. Reimers et al. 2019. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks.

Acknowledgments

Thanks Danqi Chen and Adam Fisch for proofreading the article and their helpful comments!

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

為什么我們需要Prompt

Soft Prompts：Prompt里真的需要離散的詞嗎

介紹 LM-BFF

基于Prompt的微調(diào)

自動Prompt搜索

引入Demonstration

實(shí)驗(yàn)結(jié)果

References

Acknowledgments