开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開(kāi)APP
          userphoto
          未登錄

          開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

          開(kāi)通VIP
          一文帶你看遍深度學(xué)習(xí)發(fā)展的成就歷程(一)

          在這篇文章中,作者將描述17年在機(jī)器學(xué)習(xí)領(lǐng)域中發(fā)生了什么有趣的重大發(fā)展,主要是深度學(xué)習(xí)領(lǐng)域。在17年中發(fā)生了很多事情,在作者停下來(lái)進(jìn)行回顧的時(shí)候,他發(fā)現(xiàn)了這些發(fā)展的成就是非常壯觀的,下面讓我們來(lái)在作者的帶領(lǐng)下認(rèn)識(shí)一下17年在深度學(xué)習(xí)中發(fā)展的領(lǐng)域的狀況,這篇文章很可能會(huì)影響我們?cè)跀?shù)據(jù)科學(xué)領(lǐng)域未來(lái)的發(fā)展。

          1.文字

          1.1 谷歌神經(jīng)機(jī)器翻譯

          2016年左右,谷歌宣布推出谷歌翻譯新模式。谷歌公司詳細(xì)描述翻譯的網(wǎng)絡(luò)架構(gòu) - 回歸神經(jīng)網(wǎng)絡(luò)(RNN)。

          而最后的主要結(jié)果是:縮小了機(jī)器與人類在翻譯準(zhǔn)確性方面上的差距,達(dá)到了55-85%(人們按照六分制進(jìn)行評(píng)分)。如果Google沒(méi)有擁有的龐大數(shù)據(jù)集,那么很難重新呈現(xiàn)這個(gè)模型的高效果性。

          1.2 人機(jī)交流是否會(huì)有市場(chǎng)?

          你可能在過(guò)去聽(tīng)到了一個(gè)古怪的新聞,新聞的內(nèi)容是Facebook關(guān)閉了它的聊天機(jī)器人,原因是這個(gè)聊天機(jī)器人已經(jīng)失去了控制并創(chuàng)造了自己的語(yǔ)言。這個(gè)聊天機(jī)器人是由FB公司創(chuàng)建的。它的主要目的是與另一個(gè)代理人進(jìn)行文本交流并達(dá)成共識(shí):如何將一個(gè)物品(書(shū)籍,帽子等)分成兩部分。每個(gè)代理人在交流中都有自己的目標(biāo),而對(duì)方則不知道對(duì)方的目標(biāo)。在沒(méi)有達(dá)成協(xié)議的情況下不可能離開(kāi)這場(chǎng)交流。

          在訓(xùn)練這方面,他們收集了人類交流談話的數(shù)據(jù)集,并培訓(xùn)了一個(gè)受監(jiān)督的神經(jīng)網(wǎng)絡(luò)。然后,他們使用了一個(gè)強(qiáng)化學(xué)習(xí)訓(xùn)練的代理人并訓(xùn)練它與自己交談,并設(shè)定了一個(gè)限制:使用的語(yǔ)言必須跟人類的語(yǔ)言相似。

          機(jī)器人已經(jīng)學(xué)會(huì)了一種真正的交流策略,比如在交易的某些方面表現(xiàn)出虛假的興趣,但是后來(lái)放棄了這部分興趣,然后從真正 的目標(biāo)中獲益。這是第一次嘗試創(chuàng)建出這樣一個(gè)交互式的機(jī)器人,而且是非常成功的。

          當(dāng)然,有關(guān)于說(shuō)機(jī)器人從零開(kāi)始發(fā)明了一種語(yǔ)言的消息無(wú)疑是有夸大的成分在里面的。當(dāng)機(jī)器人訓(xùn)練時(shí)(與同一個(gè)代理人進(jìn)行談判時(shí)),他們?nèi)∠肆宋谋颈仨毢腿祟愓Z(yǔ)言有相似性的限制,算法修改了交互語(yǔ)言。沒(méi)什么不尋常的。

          在過(guò)去的一年中,神經(jīng)網(wǎng)絡(luò)已經(jīng)正在被積極的應(yīng)用并得到了發(fā)展,不斷的被開(kāi)發(fā)并用于許多任務(wù)和應(yīng)用程序中。但RNN的體系結(jié)構(gòu)變得更加復(fù)雜,但在某些領(lǐng)域,通過(guò)簡(jiǎn)單的前饋網(wǎng)絡(luò)(DSSM)也取得了類似的結(jié)果 。例如,Google的郵件功能Smart Reply與之前的LSTM達(dá)到了相同的質(zhì)量。此外,Yandex還推出了基于此類網(wǎng)絡(luò)的新搜索引擎。

          2.聲音

          2.1 WaveNet:原始音頻的生成模型

          DeepMind的員工在他們的文章中報(bào)道了如何生成音頻。簡(jiǎn)而言之,研究人員基于以前的圖像生成方法(PixelRNN和PixelCNN)制作了一個(gè)自回歸全卷積波網(wǎng)模型。

          網(wǎng)絡(luò)經(jīng)過(guò)端到端的訓(xùn)練:輸入文本,輸出音頻。研究得到了很好的結(jié)果,與人類相比,研究的結(jié)果差異減少了50%,取得了較好的效果。

          網(wǎng)絡(luò)的主要缺點(diǎn)是生產(chǎn)率低,因?yàn)樽詣?dòng)回歸是按順序產(chǎn)生聲音的,創(chuàng)建一秒鐘的音頻需要大約1-2分鐘的時(shí)間。

          看看......抱歉,聽(tīng)聽(tīng)下面這個(gè)例子。

          如果你刪除網(wǎng)絡(luò)模型對(duì)輸入文本的依賴性并且只依賴于對(duì)先前生成并保留下來(lái)的音素,那么網(wǎng)絡(luò)將生成一段毫無(wú)意義的類似于人類語(yǔ)言的音素。

          聽(tīng)聽(tīng)下面這段生成聲音的音頻。

          同樣的模式不僅僅可以應(yīng)用于語(yǔ)言,還可以應(yīng)用于例如創(chuàng)建音樂(lè)。想象一下由模型生成的音樂(lè),這是使用鋼琴游戲的數(shù)據(jù)集所進(jìn)行訓(xùn)練的(同樣不依賴于輸入數(shù)據(jù))。

          2.2 讀唇術(shù)

          讀唇是另一項(xiàng)深度學(xué)習(xí)的成就和對(duì)人類挑戰(zhàn)的勝利。

          谷歌Deepmind與牛津大學(xué)合作,在文章《 Lip Reading Sentences in the Wild 》報(bào)告了他們的模型是如何獲取數(shù)據(jù)進(jìn)行訓(xùn)練并超越BBC頻道中的專業(yè)的唇語(yǔ)讀者的。

          數(shù)據(jù)集中有100,000個(gè)帶有音頻和視頻的句子。型號(hào):音頻LSTM,視頻CNN + LSTM。這兩個(gè)狀態(tài)向量被輸入到最終的LSTM,并最終有LSTM生成結(jié)果(字符)。

          在訓(xùn)練期間使用了不同類型的輸入數(shù)據(jù):音頻,視頻和音頻+視頻。換句話說(shuō),它是一個(gè)“全方位”的模型。

          2.3 合成奧巴馬的演講視頻:視頻、音頻、唇語(yǔ)的同步

          華盛頓大學(xué)在創(chuàng)造美國(guó)前總統(tǒng)奧巴馬的嘴唇運(yùn)動(dòng)方面做了大量工作。因?yàn)樗脑诰€演講視頻數(shù)量巨大(17小時(shí)的高清視頻),所以華盛頓大學(xué)的人選的選擇就落在他身上。

          由于他們有太多的工作,所以他們不可能每天都去跟神將網(wǎng)絡(luò)相處。因此,他們制作了一些拐杖(或者說(shuō)技巧,如果你喜歡這個(gè)詞語(yǔ)的話)來(lái)改進(jìn)紋理和時(shí)間。

          你可以看到結(jié)果非常令人驚訝。我相信很快的,你就不會(huì)相信在網(wǎng)上看到的有關(guān)總統(tǒng)的視頻了。

          3.計(jì)算機(jī)視覺(jué)

          3.1 OCR:谷歌地圖和街景

          在他們的帖子和文章中,谷歌Brain團(tuán)隊(duì)報(bào)告了他們?nèi)绾卧谄涞貓D中引入一種新的OCR(光學(xué)字符識(shí)別)引擎,通過(guò)該引擎可以識(shí)別街道標(biāo)志和商店標(biāo)志。

          在技術(shù)開(kāi)發(fā)過(guò)程中,公司編制了一個(gè)新的FSNS(法語(yǔ)街道名稱標(biāo)識(shí)),其中包含許多復(fù)雜的案例。

          為了識(shí)別每個(gè)標(biāo)志,該網(wǎng)絡(luò)使用了每個(gè)標(biāo)志多達(dá)四張照片。使用CNN提取特征,在空間注意力的幫助下進(jìn)行縮放(考慮像素坐標(biāo)),并將結(jié)果饋送到LSTM。

          同樣的方法適用于在招牌上識(shí)別商店名稱的任務(wù)(可能存在大量“噪音”數(shù)據(jù),并且網(wǎng)絡(luò)本身必須“聚焦”在正確的位置)。該算法應(yīng)用于800億張照片。

          3.2 視覺(jué)推理

          有一種稱為視覺(jué)推理的任務(wù),要求神經(jīng)網(wǎng)絡(luò)使用一張照片來(lái)回答一個(gè)問(wèn)題。例如:“圖中是否有與黃色金屬圓筒相同尺寸的橡膠?”這個(gè)問(wèn)題真的很重要,直到最近,這個(gè)問(wèn)題才得以解決,但是這個(gè)問(wèn)題的準(zhǔn)確率只有68.5%。

          但是,Deepmind團(tuán)隊(duì)在這個(gè)問(wèn)題上實(shí)現(xiàn)了突破:在CLEVR數(shù)據(jù)集上,他們達(dá)到了95.5%的超人精度。

          網(wǎng)絡(luò)架構(gòu)非常有趣:

          1. 利用預(yù)先訓(xùn)練的LSTM對(duì)文本問(wèn)題進(jìn)行嵌入。

          2. 將CNN(僅四層)的圖片,得到特征圖(特征描述圖片)。

          3. 接下來(lái),我們?cè)谔卣鲌D上形成坐標(biāo)切片的成對(duì)組合(下圖中的黃色,藍(lán)色,紅色),為每個(gè)切片添加坐標(biāo)并將文本嵌入其中。

          4. 我們通過(guò)另一個(gè)網(wǎng)絡(luò)驅(qū)動(dòng)所有這些三元組并總結(jié)。

          5. 生成的演示文稿通過(guò)另一個(gè)前饋網(wǎng)絡(luò)運(yùn)行,該網(wǎng)絡(luò)提供softmax的答案。

          3.3 Pix2Code

          Uizard公司創(chuàng)建了一個(gè)有趣的神經(jīng)網(wǎng)絡(luò)應(yīng)用程序:根據(jù)界面設(shè)計(jì)師的屏幕截圖生成代碼。

          這是一個(gè)非常有用的神經(jīng)網(wǎng)絡(luò)應(yīng)用程序,它可以使開(kāi)發(fā)軟件時(shí)的生活變得很輕松。作者聲稱它們的準(zhǔn)確率達(dá)到了77%。然而,這個(gè)程序仍然在研究中,還沒(méi)有關(guān)于實(shí)際使用的討論。

          目前還沒(méi)有開(kāi)源的代碼或數(shù)據(jù)集,但是他們承諾未來(lái)將進(jìn)行開(kāi)源。

          3.4 草圖循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN):教一臺(tái)機(jī)器畫(huà)畫(huà)

          也許你已經(jīng)看過(guò)Quick,Draw!這個(gè)程序來(lái)自Google,其目標(biāo)是在20秒內(nèi)繪制各種對(duì)象的草圖讓程序進(jìn)行識(shí)別。該公司收集了用戶繪畫(huà)的數(shù)據(jù)集,以教導(dǎo)神經(jīng)網(wǎng)絡(luò)繪制圖片。

          收集的數(shù)據(jù)集由7萬(wàn)張草圖組成,最終可以公開(kāi)使用。草圖不是圖片,而是圖片的詳細(xì)矢量表示(此時(shí)用戶按下“鉛筆”,在線條被繪制的地方釋放,等等)。

          研究人員使用RNN作為編碼/解碼機(jī)制,訓(xùn)練了序列到序列變分自動(dòng)編碼器(VAE)。

          最終,與自動(dòng)編碼器相匹配的是,模型接收到一個(gè)潛在的向量,該向量表示原始圖像的特征。

          雖然解碼器可以從一個(gè)向量中提取繪圖,但是你可以更改它并獲得一份新的草圖。

          甚至可以執(zhí)行向量運(yùn)算創(chuàng)建出一直豬貓(那不就是橘貓咯):

          3.5 GANs

          深度學(xué)習(xí)中最熱門(mén)的話題之一就是生成對(duì)抗網(wǎng)絡(luò)(GAN)。生成對(duì)抗網(wǎng)絡(luò)(GAN)是一類用于無(wú)監(jiān)督機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。它們有助于解決諸如描述圖像生成,從低分辨率圖像獲取高分辨率圖像,預(yù)測(cè)哪種藥物可以治療某種疾病,檢索包含給定模式的圖像等任務(wù)。大多數(shù)情況下,這個(gè)概念用于處理圖像。

          這個(gè)想法是在兩個(gè)網(wǎng)絡(luò)的競(jìng)爭(zhēng)中產(chǎn)生的 - 發(fā)生器和鑒別器。第一個(gè)網(wǎng)絡(luò)創(chuàng)建一個(gè)圖片,第二個(gè)網(wǎng)絡(luò)試圖了解圖片是真實(shí)的還是生成的。

          原理圖看起來(lái)是這樣的:

          在訓(xùn)練過(guò)程中,來(lái)自隨機(jī)矢量(噪聲)的發(fā)生器生成圖像并將其傳送到鑒別器的輸入中,該鑒別器判斷它是否是假的。鑒別器還會(huì)從數(shù)據(jù)集中獲得真實(shí)圖像進(jìn)行判斷。

          由于難以找到兩個(gè)網(wǎng)絡(luò)的平衡點(diǎn),因此難以對(duì)這種結(jié)構(gòu)進(jìn)行訓(xùn)練。大多數(shù)情況下,鑒別者獲勝訓(xùn)練停滯不前。然而,該系統(tǒng)的優(yōu)點(diǎn)是我們可以解決我們很難設(shè)置損失函數(shù)的問(wèn)題(例如,提高照片的質(zhì)量),我們將其提供給鑒別器進(jìn)行設(shè)置 。

          GAN訓(xùn)練結(jié)果的典型例子是臥室或人的照片

          在這之前,也曾考慮了自動(dòng)編碼(Sketch-RNN),它將原始數(shù)據(jù)編碼為潛在的表示形式。生成器也是如此。

          使用向量生成圖像的思想在下面這個(gè)項(xiàng)目中的人臉中得到了清晰的展示。你可以更改向量并查看面部的變化方式。

          同樣的算法也適用于潛在的空間:“一個(gè)戴眼鏡的男人”減去“一個(gè)男人”加上“一個(gè)女人”等于“一個(gè)戴眼鏡的女人”。

          3.6 用GAN改變面部年齡

          如果在訓(xùn)練期間像潛在向量傳輸一個(gè)受控的參數(shù),那么當(dāng)生成它時(shí),你就可以更改它,從而管理圖片中的必要圖像。這種方法稱為條件GAN。

          “使用條件生成性對(duì)抗網(wǎng)絡(luò)進(jìn)行面部老化”這篇文章的作者也是如此。研究人員在IMDB數(shù)據(jù)集上堆引擎進(jìn)行了已知演員年齡的訓(xùn)練,然后給了研究人員改變?nèi)四樐挲g的機(jī)會(huì)。

          3.7 專業(yè)的照片

          Google還發(fā)現(xiàn)了GAN的另一個(gè)有趣的應(yīng)用 - 照片的選擇和改進(jìn)。GAN是在一個(gè)專業(yè)的照片數(shù)據(jù)集上進(jìn)行訓(xùn)練的:生成器正在嘗試改善糟糕的照片(變成專業(yè)的拍攝照片并在特殊過(guò)濾器的幫助下進(jìn)行降級(jí))而鑒別器用來(lái) - 區(qū)分“改進(jìn)的”照片和真正的專業(yè)照片。

          經(jīng)過(guò)訓(xùn)練的算法通過(guò)Google街景全景圖搜索最佳構(gòu)圖,并收到一些專業(yè)和半專業(yè)質(zhì)量的照片(根據(jù)攝影師的評(píng)分)。

          3.8 從文本描述中合成圖像

          GAN的一個(gè)令人印象深刻的示例是使用文本生成圖像。

          這項(xiàng)研究的作者建議將文本嵌入到一個(gè)生成器(條件GAN)和一個(gè)識(shí)別器的輸入中,以便驗(yàn)證文本與圖片的對(duì)應(yīng)關(guān)系。為了確保鑒別器學(xué)會(huì)執(zhí)行它的功能,除了訓(xùn)練之外,他們還為真實(shí)的圖片添加了帶有錯(cuò)誤文本的配對(duì)。

          3.9 Pix2pix

          2016年最引人注目的文章之一是伯克利人工智能研究院(BAIR)的“有條件對(duì)抗網(wǎng)絡(luò)的圖像對(duì)圖像翻譯”(“Image-to-Image Translation with Conditional Adversarial Networks“)。研究人員解決了圖像到圖像的生成問(wèn)題,例如,需要使用衛(wèi)星圖像創(chuàng)建地圖,或者使用草圖創(chuàng)建對(duì)象的真實(shí)紋理。

          這是條件GAN成功執(zhí)行的另一個(gè)例子。在這種情況下,條件是涉及到全局的。在圖像分割中很受歡迎的是UNet被用作生成器的體系結(jié)構(gòu),并且使用新的PatchGAN分類器作為用于對(duì)抗模糊圖像的鑒別器(圖片被切割成N個(gè)Patch,并且分別對(duì)每個(gè)Patch進(jìn)行真\偽預(yù)測(cè))。

          克里斯托弗·黑塞(Christopher Hesse)做了夢(mèng)魘貓的演示,引起了用戶的極大興趣。

          本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
          打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
          猜你喜歡
          類似文章
          十大深度學(xué)習(xí)算法的原理解析
          如何用 Python 和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)做中文文本分類?
          【論文筆記】命名實(shí)體識(shí)別論文
          RNN和LSTM弱!爆!了!注意力模型才是王道
          T2F:所述即所見(jiàn),使用深度學(xué)習(xí),文本一鍵生成人臉
          深度學(xué)習(xí)在2016年都有哪些主要研究進(jìn)展?(附開(kāi)源平臺(tái)地址)| 盤(pán)點(diǎn)
          更多類似文章 >>
          生活服務(wù)
          分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
          綁定賬號(hào)成功
          后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點(diǎn)擊這里聯(lián)系客服!

          聯(lián)系客服