讓機器像人類一樣學習? 伯克利 AI 研究院提出新的元強化學習算法！

“

可實現(xiàn)異步策略元強化學習！

”

AI 科技評論按：如果要讓機器人擁有人的學習能力，應該怎么做？伯克利 AI 研究院給出了一個很好的答案——元強化學習（meta-RL）。但這一次伯克利 AI 研究院不只是使用了元強化學習，還考慮POMDP、異步策略梯度等等知識體系，最終得到了一個高樣本效率、高探索效率的新算法「PEARL」。這一成果不僅為解決 AI 的實際問題提供新的思考角度；同時也是實現(xiàn)在現(xiàn)實系統(tǒng)中規(guī)?；瘧迷獜娀瘜W習的的第一步。伯克利 AI 研究院發(fā)布博文介紹了這一成果，AI 科技評論編譯如下。

背景

一個智能體如果要在不斷變化的復雜環(huán)境中正常運行，那么它獲得新技能的速度必須足夠快。就像人類在這一方面表現(xiàn)出的非凡能力一樣，比如：人類可以從某個示例中學習怎樣辨別出一個全新的物體；在幾分鐘內適應不同汽車的不同駕駛方式；以及聽過某個俚語后，就能在自己的詞典中加上這個詞，等等。

因此，假設要使智能體來完成諸如人類這樣的學習能力，元學習則是一種可以參考的方法。使用這一范式，智能體可以通過充分利用在執(zhí)行相關任務中積累的豐富經驗，以這些有限的數(shù)據(jù)為基礎去適應新的任務。針對這類既需要采取行動又需要積累過往經驗的智能體來說，元強化學習可以幫助其快速適應新的場景。但美中不足的是，雖然訓練后的策略可以幫助智能體快速適應新的任務，但元訓練過程需要用到來自一系列訓練任務的大量數(shù)據(jù)，這就加劇了困惱強化學習算法的樣本效率低下問題。因此，現(xiàn)有的元強化學習算法在很大程度上只能在模擬環(huán)境中正常運行。在本文中，我們簡要介紹了元強化學習的研究現(xiàn)狀，然后提出了一種新算法—— PEARL，該算法使得樣本效率得到數(shù)量級的大幅度提升。

前期回顧：元強化學習的研究進展

兩年前，伯克利博客發(fā)布了一篇叫做《Learning to Learn》（文章查閱地址：https://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/）的文章。這篇文章除了提出新的算法外，還對當時人們對元學習的興趣激增做了調查統(tǒng)計，結果表明無論是當時還是現(xiàn)在，元學習的關鍵思路就是把復雜的問題簡化成我們已經知道如何解決的問題。在傳統(tǒng)的機器學習中，研究者會給定一組數(shù)據(jù)點用來匹配模型；而在元學習中，則用一組數(shù)據(jù)集來替換這些數(shù)據(jù)點，其中每個數(shù)據(jù)集都對應一個學習問題。只要學習這些問題的過程（所謂的「適應」）是可區(qū)分的，就可以像往常一樣，在具有梯度下降的外循環(huán)（元訓練）中對其進行優(yōu)化。一旦經過訓練，適應程序就可以迅速從少量數(shù)據(jù)中解決新的相關任務。

最近的元強化學習進展（從左到右依次為：通過元學習對觀察到人類行為實現(xiàn)單樣本模仿 https://arxiv.org/abs/1802.01557、以元強化學習模型為基礎的斷腿適應https://arxiv.org/abs/1803.11347、用演變的策略梯度來推斷超越訓練任務分布的情況https://arxiv.org/abs/1802.04821）

當時，大多數(shù)元學習工作都集中在小樣本圖像分類上。在此后的幾年里，元學習應用到了更廣泛的問題上，如視覺導航、機器翻譯和語音識別等等。所以，將強化學習運用到元學習方法內是一個具有挑戰(zhàn)性但又振奮人心的任務，因為這樣的結合將有望使智能體能夠更快速地學習新的任務，這個能力對于部署在復雜和不斷變化的世界中的智能體來說是至關重要的。

因為元學習本身的樣本復雜性問題和深度強化學習緊密相關，因此元學習可以通過與深度強化學習相結合來解決這個問題。兩年前一些關于元學習的論文（RL2 https://arxiv.org/abs/1611.02779, Wang et al. https://arxiv.org/abs/1611.05763, 和 MAML https://arxiv.org/abs/1703.03400），介紹了在策略梯度（policygradient）和密集獎勵（denserewards）的有限環(huán)境中將元學習應用于強化學習的初步結果。此后，很多學者對這個方法產生了濃厚的興趣，也有更多論文展示了將元學習理念應用到更廣泛的環(huán)境中，比如：從人類演示中學習（https://arxiv.org/abs/1802.01557）、模仿學習（https://arxiv.org/abs/1810.03237）以及基于模型的強化學習（https://arxiv.org/abs/1803.11347）。除了元學習模型參數(shù)外，我們還考慮了超參數(shù)和損失函數(shù)。為了解決稀疏獎勵設置問題，于是有了一種利用元學習來探索策略的方法。

盡管取得了這些進展，樣本效率仍然是一項挑戰(zhàn)。當考慮將 meta-RL 應用于實際中更復雜的任務時，快速適應這些任務則需要更有效的探索策略，因此在實際學習任務中，需要考慮如何解決元訓練樣本效率低下的問題。因此，伯克利 AI 研究院基于這些問題進行了深入研究，并開發(fā)了一種旨在解決這兩個問題的算法。

異步策略元強化學習的優(yōu)勢

盡管策略梯度強化學習算法可以在復雜的高維控制任務（如控制擬人機器人的運行）上實現(xiàn)高性能，但它們的樣本效率仍然很低。比如，最先進的策略梯度法（PPO https://arxiv.org/abs/1707.06347）需要一億個樣本來學習一個良好的類人策略，如果我們在一個真實的機器人上運行這個算法，并用一個 20 赫茲控制器使其連續(xù)運行，在不計算重置時間的情況下，需要耗費近兩個月的時間來學習。其效率低下的主要原因是形成策略梯度更新的數(shù)據(jù)必須從現(xiàn)行策略中取樣，而不是在訓練期間重復使用以前收集的數(shù)據(jù)。最近的異步策略（off-policy ）算法（TD3 https://arxiv.org/abs/1802.09477，SAC https://arxiv.org/abs/1801.01290 ）與策略梯度算法的性能不相上下，然而需要的樣本數(shù)量卻減少了 100 倍。如果研究者能夠利用這種算法進行元強化學習，數(shù)周的數(shù)據(jù)收集時間可減少至半天，這就使元學習更高效。異步策略學習在從零開始進行訓練時，除了大大提高了樣本效率外，還有進一步的功能優(yōu)化——它不光可以利用以前收集的靜態(tài)數(shù)據(jù)集，還可以利用其他機器人在其他場景中的數(shù)據(jù)。

非策略強化學習（SAC）比策略梯度（PPO）更有效

探索問題

在監(jiān)督元學習中，用于適應新任務的數(shù)據(jù)是給定的。例如，在小樣本圖像分類中，我們會為元學習智能體提供針對我們希望標注的新的類的圖像和標注。在強化學習中，智能體負責探索和收集自身的數(shù)據(jù)，因此適應程序必須包括有效的探索策略?！昂诤凶印痹獙W習智能體（RL2，and SNAIL https://arxiv.org/abs/1707.03141）可以學習這些探索策略，因為在遞歸優(yōu)化中，整個適應過程被視為一個長序列。類似地，基于梯度的元強化學習方法可以通過將信用分配給更新前策略收集到的軌跡和更新后策略獲得的回報來學習探索策略。雖然理論上是可行的，但實際上這些方法并沒有學習臨時延伸的探索策略。

為了解決這個問題，MAESN （https://arxiv.org/abs/1802.07245）以決定策略和通過梯度下降來適應新任務的概率性潛在變量的方式，增加了結構化的隨機性。該模型經過訓練，使先前的樣本對探索軌跡進行編碼，而來自適應變量的樣本則得到最優(yōu)的適應軌跡?？偟膩碇v，所有這些方案都適用于同步策略（on-policy）強化學習算法，因為它們依賴于從同一現(xiàn)行策略中取樣的探索和適應軌跡，因此需要同步策略采樣。為了構建同步策略元強化學習算法，我們將采用不同的方法來探索。

通過元學習后驗采樣法探索

在全新的場景中進行探索，一個非常簡單的方法是假裝它是你已經見過的東西。例如，如果你第一次看到火龍果并想去吃它，你會將它類比成芒果而按照吃芒果的方式用刀來切開它。這是一種很好的探索策略，它能夠讓你吃到里面美味的果肉。而當你發(fā)現(xiàn)火龍果的果肉更像獼猴桃后，你可能又會切換到吃獼猴桃的策略，使用勺子挖出果肉吃。

在強化學習的相關文獻中，這樣的探索方法叫做后驗采樣（或 Thompson sampling）。智能體在 MDPs 上有個數(shù)據(jù)集分布，然后從該分布中迭代采樣新的 MDP，并根據(jù)它來決定最佳的操作方式，同時使用收集到的數(shù)據(jù)來完成分布的更新。隨著收集的數(shù)據(jù)越來越多，后驗分布縮小，使探索和迭代之間實現(xiàn)穩(wěn)定的過渡。這一策略看似有限，因為它去掉了采取無目的探索性行為的可能性；然而此前的一項工作“(More) Efficient Reinforcement Learning via Posterior Sampling”表明，通過后驗采樣確保最壞情況下累積的遺憾值（regret）接近于當前最佳的探索策略。

通過后驗采樣法吃一個奇怪的新水果

在實際問題中，我們如何在 Mdps 上表示這種分布？一種可能是保持過渡和獎勵功能的分布。為了根據(jù)采樣模型進行操作，我們可以使用任何基于模型的強化學習算法。Bootstrapped DQN 將這一想法應用于無模型的深度強化學習中，并在 Q 函數(shù)上維持近似后驗。我們認為可以通過學習不同任務在Q 函數(shù)上的分布來將這一想法擴展到多任務環(huán)境中，并且這種分布對于新的相關任務中的探索非常有效。

為了在元強化學習中引入后驗采樣法，我們先在 Mdps 上對基于 Q 函數(shù)的分布進行建模，通過實例化潛在變量 z，并根據(jù)經驗（或語境）來推斷出模型會將 Q 函數(shù)作為輸入來調整其預測。在元訓練過程中，學習 z 此前所有的變量來表示元訓練任務的分布。面對測試時的新任務，智能體從之前的假設中取樣，然后根據(jù)選出的這一假設決定在環(huán)境中采取什么樣的行動，之后再通過新的證明來對后驗分布進行更新。當智能體收集軌跡時，后驗分布縮小，同時該智能體也會生成對當前任務更好的預測。

將元強化學習視為 POMDP

運用在元強化學習上的貝葉斯后驗觀點，揭示了元強化學習與partially observed MDPs(部分可觀察的馬爾可夫決策過程)（POMDPs）之間的關系。當建模環(huán)境中當前觀察到的事情無法告知你當前環(huán)境中的所有事情時（即只能部分觀察當前狀態(tài)），POMDPs 對于這種建模環(huán)境來說非常有用。就好比說，當你在一棟樓附近行走，燈光突然全部熄滅，此時你無法從黑暗中立即觀察到你在什么位置，但你仍然會對自己的位置有一個預估，因為你可以憑借記憶在燈光熄滅前所看到的場景來預估。而求解 POMDPs 就是相似的原理，它涉及到對觀測歷史信息的集成，從而達到準確地估計當前狀態(tài)的目標。

POMDP 的圖像模型

元強化學習則可以被看作是具有特殊結構的 POMDP，它的任務就是當前狀態(tài)中唯一未觀察到的部分。在我們的示例中，任務可能就是找到一個你從未去過的辦公室。在標準的 POMDP 中，智能體每進行下一步時都必須對狀態(tài)進行重新估計，這樣就能夠不斷地更新對建筑物中位置的估計。而在元強化學習示例中，任務在各個探索軌跡上不會一直變化，即在現(xiàn)實世界中，辦公室的位置不會在尋找過程中改變。這也表示該方法可以保持對辦公室位置的估計，而無需擔心潛在的系統(tǒng)動態(tài)在每個步驟中改變它的實際位置。將元強化學習算法轉換為 POMDPs 的說法，即智能體要維持任務的信念狀態(tài)（belief state ）——當在多個探索軌上收集信息時，任務會進行更新。

貝殼中的 PEARL

如何把任務上的信念狀態(tài)與現(xiàn)有的異步策略強化學習算法結合起來呢？首先，我們可以通過使用以上下文（經驗）為輸入的編碼器網絡 q?(z|c) 推斷出后驗信念的變分近似。為了保持可操作性，我們將后驗部分表示為一個高斯函數(shù) （Gaussian）。對于強化學習算法的智能體，我們選擇在 Soft Actor-Critic（SAC）的基礎上建模，因為它具有當前最佳的性能和樣本效率。信念狀態(tài)中的樣本傳遞給 actor、critic，以便他們能夠根據(jù)樣本任務進行預測。然后元訓練過程包括學習推導給定上下文的后驗 q?(z|c)，并根據(jù)給定的 z 優(yōu)化訓練 actor 和 critic。編碼器則是使用 critic 的梯度漸變優(yōu)化（因此 q?(z|c) 表示 Q 函數(shù)上的分布），以及信息瓶頸也是如此。出現(xiàn)這種瓶頸是派生出變分下界的結果，但這也可以直觀地將其解釋為上下文和 z 之間信息的最小化，這樣 z 就包含了預測狀態(tài)-動作值所需的最小化的信息。

關于這個方案需要注意的一點是，為訓練 actor 和 critic 而取樣的一批數(shù)據(jù)與上下文的一批數(shù)據(jù)會分離。直觀而言，這是有用的：通過明確表示任務的信念狀態(tài)，智能體將任務推斷與控制分離，并且可以使用完全不同的數(shù)據(jù)源來學習每個任務。這與 MAML 和 RL2 等方法形成了鮮明對比，它們將任務推理和控制結合在一起，因此必須同時使用一批數(shù)據(jù)。

而事實也證明這種分離對于異步策略元訓練很重要。究其原因，我們可以想到，目前的元學習預測基于的假設是：訓練和測試階段應保持一致。例如，在測試時進行新動物物種分類任務的元學習智能體，應該接受在包括動物在內的類分布上進行訓練。而強化學習中與此類似的是，如果在測試時智能體通過收集同步策略數(shù)據(jù)來進行調整，那么它也應該使用策略上的數(shù)據(jù)進行訓練。因此，在訓練期間使用異步策略數(shù)據(jù)則會給分布帶來變化，從而破壞了這一基本假設。在 PEARL 中，我們可以通過對同步策略數(shù)據(jù)進行上下文采樣，同時將異步策略數(shù)據(jù)用于 actor-critic 的訓練，來減小這一分布的變化，并大規(guī)模使用異步策略數(shù)據(jù)。

彼時，該算法的一部分仍然是抽象的編碼器體系結構?；仡櫹?，這個編碼器的工作是在上下文中（由狀態(tài)、動作、獎勵和下一個狀態(tài)組成的一組轉換）進行，并在潛在的上下文變量上生成高斯后驗參數(shù)。雖然遞歸神經網絡在這里看似是一個明智的選擇，但我們注意到，Markov 的屬性意味著可以在不考慮它們在軌跡中順序的情況下對這些轉換進行編碼。基于這一觀察，我們采用了一個具有排列不變性、可以獨立地預測每個轉換的高斯因子的編碼器，并讓這些因子相乘構成后驗采樣。與 RNN 相比，該體系結構在優(yōu)化方面更快、更穩(wěn)定，并且可以適應更大規(guī)模的上下文。

準備充分后，PEARL 怎么工作？

我們使用 MuJoCo 模擬器在六個基準連續(xù)控制域上對 PEARL 進行了測試，該模擬器在不同任務之間有不同的獎勵或動態(tài)功能。例如，對于 Ant 智能體，不同的任務對應著在 2D 平面上為不同目標位置導航；而對于 Walker 智能體來說，任務對應于其關節(jié)的不同參數(shù)和其他物理參數(shù)。

我們將 PEARL 與三種最先進的元強化學習算法進行了比較，即 ProMP、MAML 和 RL2。結果如下圖所示，其中藍色曲線代表 PEARL 的結果。需要注意的是，x 軸的單位（呈對數(shù)比例）。該方法通過在元訓練過程中利用異步策略數(shù)據(jù)，將樣本效率全面提高了 20-100 倍，并且它的最終表現(xiàn)往往也優(yōu)于基線。

在稀疏的獎勵域，有效的探索尤其重要。試想一個點機器人，它必須對半圓上的不同目標位置導航，并且只有定位到目標位置的小半徑范圍內（可在藍色區(qū)域觀察到）才會獲得獎勵。通過對目標位置的不同假設進行采樣并隨后更新其信念狀態(tài)，智能體可以進行有效地探索，直到找到目標位置。我們通過對 PEARL 與 MAESN 進行比較，MAESN 就是我們前面討論到的通過潛在變量生成的元學習探索策略，最終發(fā)現(xiàn) PEARL 不僅在元訓練中具有更高的采樣效率，還能更有效地進行探索。

點機器人利用后驗采樣來探索和找到稀疏獎勵設置中的目標

未來發(fā)展方向

雖然元學習為智能體如何快速適應新的場景提供了一個可能的解決方案，但它同時也產生了更多的問題！例如，元訓練任務從何而來？它們必須手動設計，還是可以自動生成的？雖然元學習從本質上來說是偶然的，但現(xiàn)實世界是一個持續(xù)不斷的、永無止境的變化流程——智能體如何處理一直隨時間變化的任務？設計獎勵函數(shù)非常困難——相反地，我們能否在元強化學習算法中同時利用二進制反饋、偏好和演示？我們認為 PEARL 中貝葉斯推理方面的研究能夠為解決其中一些問題帶來一個新的視角；同時我們也相信，PEARL 在學習異步策略上的能力是實現(xiàn)在現(xiàn)實系統(tǒng)中規(guī)?；瘧迷獜娀瘜W習的的第一步。

via：https://bair.berkeley.edu/blog/2019/06/10/pearl/

End

2019 全球人工智能與機器人峰會

2019 年 7 月 12 日至 14 日，由中國計算機學會（CCF）主辦、雷鋒網和香港中文大學（深圳）聯(lián)合承辦，深圳市人工智能與機器人研究院協(xié)辦的 2019 全球人工智能與機器人峰會（簡稱 CCF-GAIR 2019）將于深圳正式啟幕。

屆時，諾貝爾獎得主JamesJ. Heckman、中外院士、世界頂會主席、知名Fellow，多位重磅嘉賓將親自坐陣，一起探討人工智能和機器人領域學、產、投等復雜的生存態(tài)勢。

本站僅提供存儲服務，所有內容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權內容，請點擊舉報。

开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

背景