开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開(kāi)APP
          userphoto
          未登錄

          開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

          開(kāi)通VIP
          莫斯科國(guó)立大學(xué)56頁(yè)《深度強(qiáng)化學(xué)習(xí)綜述》最新論文,帶你全面了解DRL最新方法

          【導(dǎo)讀】深度強(qiáng)化學(xué)習(xí)是強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的結(jié)合。這一領(lǐng)域的研究已經(jīng)能夠解決廣泛的復(fù)雜的決策任務(wù),這是以前無(wú)法達(dá)到的。因此,DeepRL在各個(gè)頂級(jí)會(huì)議上都有很多相關(guān)工作,在醫(yī)療保健、機(jī)器人技術(shù)、智能電網(wǎng)、金融等領(lǐng)域開(kāi)辟了許多新的應(yīng)用。近期莫斯科國(guó)立大學(xué)強(qiáng)化學(xué)習(xí)專家Sergey Ivanov博士等人近期發(fā)布了《Modern Deep Reinforcement Learning Algorithms》,這篇綜述論文對(duì)當(dāng)前深度強(qiáng)化學(xué)習(xí)相關(guān)方法進(jìn)行了廣泛的回顧,對(duì)最新的DRL算法進(jìn)行了綜述,重點(diǎn)介紹了它們的理論依據(jù)、實(shí)際局限性和觀察到的經(jīng)驗(yàn)特性。

          題目:Modern Deep Reinforcement Learning Algorithms

          作者:

          Written by: Sergey Ivanov

          Scienti1c advisor: Alexander D' yakonov.

          【摘要】近年來(lái),基于將經(jīng)典理論成果與深度學(xué)習(xí)范式相結(jié)合的強(qiáng)化學(xué)習(xí)研究取得了新的進(jìn)展,在許多人工智能任務(wù)中都取得了突破,并催生了深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning ,DRL)作為研究的一個(gè)領(lǐng)域。本文對(duì)最新的DRL算法進(jìn)行了綜述,重點(diǎn)介紹了它們的理論依據(jù)、實(shí)際局限性和觀察到的經(jīng)驗(yàn)特性。

          參考鏈接:

          https://arxiv.org/abs/1906.10025

           請(qǐng)關(guān)注專知公眾號(hào)(點(diǎn)擊上方藍(lán)色專知關(guān)注

          • 后臺(tái)回復(fù)“深度強(qiáng)化學(xué)習(xí)綜述2019” 就可以獲取最新論文的下載鏈接~ 

          引言

          在過(guò)去的幾年里,深度強(qiáng)化學(xué)習(xí)被證明是一種有效的方法來(lái)解決許多不同領(lǐng)域的人工智能任務(wù)。突破性的成就包括在Go[20]、multiplayer Dota[14]和即時(shí)戰(zhàn)略星際爭(zhēng)霸II[24]等復(fù)雜游戲中達(dá)到人類水平的表現(xiàn)。DRL框架的通用性使得它可以應(yīng)用于離散和連續(xù)領(lǐng)域,以解決機(jī)器人和模擬環(huán)境中的任務(wù)[12]。

          經(jīng)典的強(qiáng)化學(xué)習(xí)研究在上個(gè)世紀(jì)的最后三分之一世紀(jì)為現(xiàn)代算法的發(fā)展奠定了廣泛的理論基礎(chǔ)。自那時(shí)起,已有幾種算法,當(dāng)環(huán)境狀態(tài)可以枚舉(并存儲(chǔ)在內(nèi)存中)或最優(yōu)策略可以在狀態(tài)表示特征的線性或二次函數(shù)空間中搜索時(shí),這些算法能夠解決小規(guī)模問(wèn)題。雖然這些限制極為有限,但經(jīng)典RL理論的基礎(chǔ)是現(xiàn)代方法的基礎(chǔ)。這些理論基礎(chǔ)將在3.1和5.1-5.2節(jié)中討論。

          將該框架與深度學(xué)習(xí)[5]相結(jié)合,通過(guò)在[13]中引入的深度Q-Learning算法推廣,該算法可以在不調(diào)整網(wǎng)絡(luò)架構(gòu)或算法超參數(shù)的情況下來(lái)玩Atari的57款游戲機(jī)中的任何一款。這種新方法在隨后的幾年里得到了廣泛的研究和顯著的改進(jìn)。第3節(jié)給出了深度強(qiáng)化學(xué)習(xí)中基于價(jià)值的指導(dǎo)原則。

          在最近的基于價(jià)值的DRL研究中,一個(gè)關(guān)鍵的思想是在[1]中提出的分布式方法。它進(jìn)一步擴(kuò)展了經(jīng)典的理論基礎(chǔ),并引入了實(shí)用的DRL算法,催生了分布式強(qiáng)化學(xué)習(xí)范式,目前正積極研究這種范式的潛力。第4節(jié)描述了它的主要思想。

          DRL研究的第二個(gè)主要方向是policy gradient方法,它試圖直接優(yōu)化目標(biāo)函數(shù),明確地體現(xiàn)在問(wèn)題設(shè)置中。它們?cè)谏窠?jīng)網(wǎng)絡(luò)中的應(yīng)用涉及一系列特殊的障礙,需要專門(mén)的優(yōu)化技術(shù)。由于其巨大的并行化潛力和持續(xù)的領(lǐng)域適用性,它們?cè)谏疃葟?qiáng)化學(xué)習(xí)中代表了一種具有競(jìng)爭(zhēng)力和可擴(kuò)展性的方法。第5節(jié)討論了policy gradient方法。

          盡管取得了廣泛的成功,但目前最先進(jìn)的DRL方法仍然面臨著許多嚴(yán)重的缺陷。由于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量的數(shù)據(jù),DRL在數(shù)據(jù)生成昂貴的環(huán)境中顯示出不盡如人意的結(jié)果。即使在交互幾乎是free的情況下(例如在模擬環(huán)境中),DRL算法往往需要過(guò)多的迭代,這就增加了它們的計(jì)算和時(shí)間成本。此外,DRL具有隨機(jī)初始化和超參數(shù)敏感性,其優(yōu)化過(guò)程是不穩(wěn)定的[9]。尤其令人尷尬的是,這些DRL特征的結(jié)果被證明是低復(fù)現(xiàn)性,它們來(lái)自不同研究小組的經(jīng)驗(yàn)觀察[6]。在第6節(jié)中,我們嘗試在幾個(gè)標(biāo)準(zhǔn)的測(cè)試環(huán)境中啟動(dòng)最先進(jìn)的DRL算法,并討論其應(yīng)用的實(shí)際細(xì)微差別。

          目錄

          本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
          打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
          猜你喜歡
          類似文章
          MSU最新《深度強(qiáng)化學(xué)習(xí)中的遷移學(xué)習(xí)》2020綜述論文,22頁(yè)pdf
          2019年深度強(qiáng)化學(xué)習(xí)十大必讀論文!DeepMind、OpenAI等上榜
          對(duì)深度強(qiáng)化學(xué)習(xí)解釋性的惡意攻擊?道翰天瓊認(rèn)知智能機(jī)器人平臺(tái)API接口大腦為您揭秘。
          最新綜述|深度學(xué)習(xí)的單目人體姿態(tài)估計(jì)
          干貨分享|深度學(xué)習(xí)零基礎(chǔ)進(jìn)階第二彈? | 數(shù)盟社區(qū)
          通過(guò)深度強(qiáng)化學(xué)習(xí)進(jìn)行精確的原子操作
          更多類似文章 >>
          生活服務(wù)
          分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
          綁定賬號(hào)成功
          后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點(diǎn)擊這里聯(lián)系客服!

          聯(lián)系客服