莫斯科國(guó)立大學(xué)56頁(yè)《深度強(qiáng)化學(xué)習(xí)綜述》最新論文，帶你全面了解DRL最新方法

【導(dǎo)讀】深度強(qiáng)化學(xué)習(xí)是強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的結(jié)合。這一領(lǐng)域的研究已經(jīng)能夠解決廣泛的復(fù)雜的決策任務(wù)，這是以前無(wú)法達(dá)到的。因此，DeepRL在各個(gè)頂級(jí)會(huì)議上都有很多相關(guān)工作，在醫(yī)療保健、機(jī)器人技術(shù)、智能電網(wǎng)、金融等領(lǐng)域開(kāi)辟了許多新的應(yīng)用。近期莫斯科國(guó)立大學(xué)強(qiáng)化學(xué)習(xí)專家Sergey Ivanov博士等人近期發(fā)布了《Modern Deep Reinforcement Learning Algorithms》，這篇綜述論文對(duì)當(dāng)前深度強(qiáng)化學(xué)習(xí)相關(guān)方法進(jìn)行了廣泛的回顧，對(duì)最新的DRL算法進(jìn)行了綜述，重點(diǎn)介紹了它們的理論依據(jù)、實(shí)際局限性和觀察到的經(jīng)驗(yàn)特性。

題目：Modern Deep Reinforcement Learning Algorithms

作者：

Written by: Sergey Ivanov;

Scienti1c advisor: Alexander D' yakonov.

【摘要】近年來(lái)，基于將經(jīng)典理論成果與深度學(xué)習(xí)范式相結(jié)合的強(qiáng)化學(xué)習(xí)研究取得了新的進(jìn)展，在許多人工智能任務(wù)中都取得了突破，并催生了深度強(qiáng)化學(xué)習(xí)（Deep Reinforcement Learning ，DRL）作為研究的一個(gè)領(lǐng)域。本文對(duì)最新的DRL算法進(jìn)行了綜述，重點(diǎn)介紹了它們的理論依據(jù)、實(shí)際局限性和觀察到的經(jīng)驗(yàn)特性。

參考鏈接：

https://arxiv.org/abs/1906.10025

請(qǐng)關(guān)注專知公眾號(hào)（點(diǎn)擊上方藍(lán)色專知關(guān)注）
后臺(tái)回復(fù)“深度強(qiáng)化學(xué)習(xí)綜述2019” 就可以獲取最新論文的下載鏈接~

引言

在過(guò)去的幾年里，深度強(qiáng)化學(xué)習(xí)被證明是一種有效的方法來(lái)解決許多不同領(lǐng)域的人工智能任務(wù)。突破性的成就包括在Go[20]、multiplayer Dota[14]和即時(shí)戰(zhàn)略星際爭(zhēng)霸II[24]等復(fù)雜游戲中達(dá)到人類水平的表現(xiàn)。DRL框架的通用性使得它可以應(yīng)用于離散和連續(xù)領(lǐng)域，以解決機(jī)器人和模擬環(huán)境中的任務(wù)[12]。

經(jīng)典的強(qiáng)化學(xué)習(xí)研究在上個(gè)世紀(jì)的最后三分之一世紀(jì)為現(xiàn)代算法的發(fā)展奠定了廣泛的理論基礎(chǔ)。自那時(shí)起，已有幾種算法，當(dāng)環(huán)境狀態(tài)可以枚舉(并存儲(chǔ)在內(nèi)存中)或最優(yōu)策略可以在狀態(tài)表示特征的線性或二次函數(shù)空間中搜索時(shí)，這些算法能夠解決小規(guī)模問(wèn)題。雖然這些限制極為有限，但經(jīng)典RL理論的基礎(chǔ)是現(xiàn)代方法的基礎(chǔ)。這些理論基礎(chǔ)將在3.1和5.1-5.2節(jié)中討論。

將該框架與深度學(xué)習(xí)[5]相結(jié)合，通過(guò)在[13]中引入的深度Q-Learning算法推廣，該算法可以在不調(diào)整網(wǎng)絡(luò)架構(gòu)或算法超參數(shù)的情況下來(lái)玩Atari的57款游戲機(jī)中的任何一款。這種新方法在隨后的幾年里得到了廣泛的研究和顯著的改進(jìn)。第3節(jié)給出了深度強(qiáng)化學(xué)習(xí)中基于價(jià)值的指導(dǎo)原則。

在最近的基于價(jià)值的DRL研究中，一個(gè)關(guān)鍵的思想是在[1]中提出的分布式方法。它進(jìn)一步擴(kuò)展了經(jīng)典的理論基礎(chǔ)，并引入了實(shí)用的DRL算法，催生了分布式強(qiáng)化學(xué)習(xí)范式，目前正積極研究這種范式的潛力。第4節(jié)描述了它的主要思想。

DRL研究的第二個(gè)主要方向是policy gradient方法，它試圖直接優(yōu)化目標(biāo)函數(shù)，明確地體現(xiàn)在問(wèn)題設(shè)置中。它們?cè)谏窠?jīng)網(wǎng)絡(luò)中的應(yīng)用涉及一系列特殊的障礙，需要專門(mén)的優(yōu)化技術(shù)。由于其巨大的并行化潛力和持續(xù)的領(lǐng)域適用性，它們?cè)谏疃葟?qiáng)化學(xué)習(xí)中代表了一種具有競(jìng)爭(zhēng)力和可擴(kuò)展性的方法。第5節(jié)討論了policy gradient方法。

盡管取得了廣泛的成功，但目前最先進(jìn)的DRL方法仍然面臨著許多嚴(yán)重的缺陷。由于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量的數(shù)據(jù)，DRL在數(shù)據(jù)生成昂貴的環(huán)境中顯示出不盡如人意的結(jié)果。即使在交互幾乎是free的情況下(例如在模擬環(huán)境中)，DRL算法往往需要過(guò)多的迭代，這就增加了它們的計(jì)算和時(shí)間成本。此外，DRL具有隨機(jī)初始化和超參數(shù)敏感性，其優(yōu)化過(guò)程是不穩(wěn)定的[9]。尤其令人尷尬的是，這些DRL特征的結(jié)果被證明是低復(fù)現(xiàn)性，它們來(lái)自不同研究小組的經(jīng)驗(yàn)觀察[6]。在第6節(jié)中，我們嘗試在幾個(gè)標(biāo)準(zhǔn)的測(cè)試環(huán)境中啟動(dòng)最先進(jìn)的DRL算法，并討論其應(yīng)用的實(shí)際細(xì)微差別。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频