【導(dǎo)讀】深度強(qiáng)化學(xué)習(xí)是強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的結(jié)合。這一領(lǐng)域的研究已經(jīng)能夠解決廣泛的復(fù)雜的決策任務(wù),這是以前無(wú)法達(dá)到的。因此,DeepRL在各個(gè)頂級(jí)會(huì)議上都有很多相關(guān)工作,在醫(yī)療保健、機(jī)器人技術(shù)、智能電網(wǎng)、金融等領(lǐng)域開(kāi)辟了許多新的應(yīng)用。近期莫斯科國(guó)立大學(xué)強(qiáng)化學(xué)習(xí)專家Sergey Ivanov博士等人近期發(fā)布了《Modern Deep Reinforcement Learning Algorithms》,這篇綜述論文對(duì)當(dāng)前深度強(qiáng)化學(xué)習(xí)相關(guān)方法進(jìn)行了廣泛的回顧,對(duì)最新的DRL算法進(jìn)行了綜述,重點(diǎn)介紹了它們的理論依據(jù)、實(shí)際局限性和觀察到的經(jīng)驗(yàn)特性。
題目:Modern Deep Reinforcement Learning Algorithms
作者:
Written by: Sergey Ivanov;
Scienti1c advisor: Alexander D' yakonov.
【摘要】近年來(lái),基于將經(jīng)典理論成果與深度學(xué)習(xí)范式相結(jié)合的強(qiáng)化學(xué)習(xí)研究取得了新的進(jìn)展,在許多人工智能任務(wù)中都取得了突破,并催生了深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning ,DRL)作為研究的一個(gè)領(lǐng)域。本文對(duì)最新的DRL算法進(jìn)行了綜述,重點(diǎn)介紹了它們的理論依據(jù)、實(shí)際局限性和觀察到的經(jīng)驗(yàn)特性。
參考鏈接:
https://arxiv.org/abs/1906.10025
請(qǐng)關(guān)注專知公眾號(hào)(點(diǎn)擊上方藍(lán)色專知關(guān)注)
后臺(tái)回復(fù)“深度強(qiáng)化學(xué)習(xí)綜述2019” 就可以獲取最新論文的下載鏈接~
引言
在過(guò)去的幾年里,深度強(qiáng)化學(xué)習(xí)被證明是一種有效的方法來(lái)解決許多不同領(lǐng)域的人工智能任務(wù)。突破性的成就包括在Go[20]、multiplayer Dota[14]和即時(shí)戰(zhàn)略星際爭(zhēng)霸II[24]等復(fù)雜游戲中達(dá)到人類水平的表現(xiàn)。DRL框架的通用性使得它可以應(yīng)用于離散和連續(xù)領(lǐng)域,以解決機(jī)器人和模擬環(huán)境中的任務(wù)[12]。
經(jīng)典的強(qiáng)化學(xué)習(xí)研究在上個(gè)世紀(jì)的最后三分之一世紀(jì)為現(xiàn)代算法的發(fā)展奠定了廣泛的理論基礎(chǔ)。自那時(shí)起,已有幾種算法,當(dāng)環(huán)境狀態(tài)可以枚舉(并存儲(chǔ)在內(nèi)存中)或最優(yōu)策略可以在狀態(tài)表示特征的線性或二次函數(shù)空間中搜索時(shí),這些算法能夠解決小規(guī)模問(wèn)題。雖然這些限制極為有限,但經(jīng)典RL理論的基礎(chǔ)是現(xiàn)代方法的基礎(chǔ)。這些理論基礎(chǔ)將在3.1和5.1-5.2節(jié)中討論。
將該框架與深度學(xué)習(xí)[5]相結(jié)合,通過(guò)在[13]中引入的深度Q-Learning算法推廣,該算法可以在不調(diào)整網(wǎng)絡(luò)架構(gòu)或算法超參數(shù)的情況下來(lái)玩Atari的57款游戲機(jī)中的任何一款。這種新方法在隨后的幾年里得到了廣泛的研究和顯著的改進(jìn)。第3節(jié)給出了深度強(qiáng)化學(xué)習(xí)中基于價(jià)值的指導(dǎo)原則。
在最近的基于價(jià)值的DRL研究中,一個(gè)關(guān)鍵的思想是在[1]中提出的分布式方法。它進(jìn)一步擴(kuò)展了經(jīng)典的理論基礎(chǔ),并引入了實(shí)用的DRL算法,催生了分布式強(qiáng)化學(xué)習(xí)范式,目前正積極研究這種范式的潛力。第4節(jié)描述了它的主要思想。
DRL研究的第二個(gè)主要方向是policy gradient方法,它試圖直接優(yōu)化目標(biāo)函數(shù),明確地體現(xiàn)在問(wèn)題設(shè)置中。它們?cè)谏窠?jīng)網(wǎng)絡(luò)中的應(yīng)用涉及一系列特殊的障礙,需要專門(mén)的優(yōu)化技術(shù)。由于其巨大的并行化潛力和持續(xù)的領(lǐng)域適用性,它們?cè)谏疃葟?qiáng)化學(xué)習(xí)中代表了一種具有競(jìng)爭(zhēng)力和可擴(kuò)展性的方法。第5節(jié)討論了policy gradient方法。
盡管取得了廣泛的成功,但目前最先進(jìn)的DRL方法仍然面臨著許多嚴(yán)重的缺陷。由于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量的數(shù)據(jù),DRL在數(shù)據(jù)生成昂貴的環(huán)境中顯示出不盡如人意的結(jié)果。即使在交互幾乎是free的情況下(例如在模擬環(huán)境中),DRL算法往往需要過(guò)多的迭代,這就增加了它們的計(jì)算和時(shí)間成本。此外,DRL具有隨機(jī)初始化和超參數(shù)敏感性,其優(yōu)化過(guò)程是不穩(wěn)定的[9]。尤其令人尷尬的是,這些DRL特征的結(jié)果被證明是低復(fù)現(xiàn)性,它們來(lái)自不同研究小組的經(jīng)驗(yàn)觀察[6]。在第6節(jié)中,我們嘗試在幾個(gè)標(biāo)準(zhǔn)的測(cè)試環(huán)境中啟動(dòng)最先進(jìn)的DRL算法,并討論其應(yīng)用的實(shí)際細(xì)微差別。
目錄
聯(lián)系客服