开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開(kāi)APP
          userphoto
          未登錄

          開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

          開(kāi)通VIP
          機(jī)器學(xué)習(xí)、深度學(xué)習(xí) 知識(shí)點(diǎn)總結(jié)及面試題

          1、反向傳播思想:

          計(jì)算出輸出與標(biāo)簽間的損失函數(shù)值,然后計(jì)算其相對(duì)于每個(gè)神經(jīng)元的梯度,根據(jù)梯度方向更新權(quán)值。

          (1)將訓(xùn)練集數(shù)據(jù)輸入到ANN的輸入層,經(jīng)過(guò)隱藏層,最后達(dá)到輸出層并輸出結(jié)果,這是ANN的前向傳播過(guò)程;

          (2)由于ANN的輸出結(jié)果與實(shí)際結(jié)果有誤差,則計(jì)算估計(jì)值與實(shí)際值之間的誤差,并將該誤差從輸出層向隱藏層反向傳播,直至傳播到輸入層;

          (3)在反向傳播的過(guò)程中,根據(jù)誤差調(diào)整各種參數(shù)的值;不斷迭代上述過(guò)程,直至收斂。

          2、無(wú)監(jiān)督逐層訓(xùn)練:預(yù)訓(xùn)練:每次訓(xùn)練一層隱結(jié)點(diǎn)。訓(xùn)練時(shí)將上一層隱結(jié)點(diǎn)的輸出作為輸入,而本層隱結(jié)點(diǎn)的輸出作為 下一層隱結(jié)點(diǎn)的輸入。在預(yù)訓(xùn)練結(jié)束后,再對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào)訓(xùn)練。

          3、DNN:指深度神經(jīng)網(wǎng)絡(luò),與RNN循環(huán)神經(jīng)網(wǎng)絡(luò)、CNN卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別就是,DNN特指全連接的神經(jīng)元結(jié)構(gòu),并不包含卷積單元 或時(shí)間上的關(guān)聯(lián)。

          一、DBN:(預(yù)訓(xùn)練 微調(diào))

          思想:整個(gè)網(wǎng)絡(luò)看成是多個(gè)RBM的堆疊,在使用無(wú)監(jiān)督逐層訓(xùn)練時(shí),首先訓(xùn)練第一層,然后將第一層預(yù)訓(xùn)練好的隱結(jié)點(diǎn)視為第二層的輸入節(jié)點(diǎn),對(duì)第二層進(jìn)行預(yù)訓(xùn)練,各層預(yù)訓(xùn)練完成后,再用BP算法對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

          整體解釋:預(yù)訓(xùn)練 微調(diào) 的做法可視為將大量參數(shù)分組,對(duì)每組先找到局部看起來(lái)比較好的位置,然后再基于這些局部較優(yōu)的結(jié)果聯(lián)合起來(lái)進(jìn)行全局尋優(yōu)。好處:利用了模型大量參數(shù)所提供的自由度,有效的節(jié)省了訓(xùn)練開(kāi)銷(xiāo)。

          (補(bǔ)充:是一個(gè)概率生成模型,與傳統(tǒng)的判別神經(jīng)網(wǎng)絡(luò)不同的是,生成模型建立了觀察數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布,而判別模型只評(píng)估了條件概率。

          DBN遇到的問(wèn)題:需要為訓(xùn)練提供一個(gè)有標(biāo)簽的樣本集;學(xué)習(xí)過(guò)程較慢;不適當(dāng)?shù)膮?shù)選擇導(dǎo)致學(xué)習(xí)收斂于局部最優(yōu)解。

          二、CNN:(局部感知 權(quán)共享機(jī)制:讓一組神經(jīng)元使用相同的連接權(quán))

          提出:全連接的結(jié)構(gòu)下會(huì)引起參數(shù)數(shù)量的膨脹,容易過(guò)擬合且局部最優(yōu)。圖像中有固有的局部模式可以利用,所以,提出了CNN,并不是所有上下層神經(jīng)元都能直接相連,而是通過(guò)“卷積核”作為中介。同一個(gè)卷積核在所有圖像內(nèi)都是共享的,圖像通過(guò)卷積操作后仍然保留原來(lái)的位置關(guān)系。

          復(fù)合多個(gè)“卷積層”和“采樣層”對(duì)輸入信號(hào)進(jìn)行加工,然后再連接層實(shí)現(xiàn)與輸出目標(biāo)之間的映射。多層的目的:一層卷積學(xué)到的特征往往是局部的,層數(shù)越高,學(xué)到的特征就越全局化。

          CNN兩大神器:

          1、局部感知:一般認(rèn)為圖像的空間聯(lián)系是局部的像素聯(lián)系比較密切,而距離較遠(yuǎn)的像素相關(guān)性較弱,因此,每個(gè)神經(jīng)元沒(méi)必要對(duì)全局圖像進(jìn)行感知,只要對(duì)局部進(jìn)行感知,然后在更高層將局部的信息綜合起來(lái)得到全局信息。利用卷積層實(shí)現(xiàn):(特征映射,每個(gè)特征映射是一個(gè)神經(jīng)元陣列):從上一層通過(guò)局部卷積濾波器提取局部特征。卷積層緊跟著一個(gè)用來(lái)求局部平均與二次提取的計(jì)算層,這種二次特征提取結(jié)構(gòu)減少了特征分辨率。

          2、參數(shù)共享:在局部連接中,每個(gè)神經(jīng)元的參數(shù)都是一樣的,即:同一個(gè)卷積核在圖像中都是共享的。(理解:卷積操作實(shí)際是在提取一個(gè)個(gè)局部信息,而局部信息的一些統(tǒng)計(jì)特性和其他部分是一樣的,也就意味著這部分學(xué)到的特征也可以用到另一部分上。所以對(duì)圖像上的所有位置,都能使用同樣的學(xué)習(xí)特征。)卷積核共享有個(gè)問(wèn)題:提取特征不充分,可以通過(guò)增加多個(gè)卷積核來(lái)彌補(bǔ),可以學(xué)習(xí)多種特征。

          3、采樣(池化)層:在通過(guò)卷積得到特征后,希望利用這些特征進(jìn)行分類?;诰植肯嚓P(guān)性原理進(jìn)行亞采樣,在減少數(shù)據(jù)量的同時(shí)保留有用信息。(壓縮數(shù)據(jù)和參數(shù)的量,減少過(guò)擬合)(max-polling 和average-polling)

          可用BP算法訓(xùn)練,訓(xùn)練中,無(wú)論是卷積層還是采樣層,每一組神經(jīng)元都是用相同的連接權(quán)。

          優(yōu)點(diǎn):限制了參數(shù)的個(gè)數(shù)并挖掘了局部結(jié)構(gòu)的這個(gè)特點(diǎn),減少了復(fù)雜度。

          (CNN主要用來(lái)識(shí)別位移、縮放及其他形式扭曲不變性的二維圖形。由于CNN的特征檢測(cè)層通過(guò)訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),所以在使用CNN時(shí),避免了顯示的特征抽取,而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí);再者由于同一特征映射面上的神經(jīng)元權(quán)值相同,所以網(wǎng)絡(luò)可以并行學(xué)習(xí),這也是卷積網(wǎng)絡(luò)相對(duì)于神經(jīng)元彼此相連網(wǎng)絡(luò)的一大優(yōu)勢(shì)。卷積神經(jīng)網(wǎng)絡(luò)以其局部權(quán)值共享的特殊結(jié)構(gòu)在語(yǔ)音識(shí)別和圖像處理方面有著獨(dú)特的優(yōu)越性,其布局更接近于實(shí)際的生物神經(jīng)網(wǎng)絡(luò),權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點(diǎn)避免了特征提取和分類過(guò)程中數(shù)據(jù)重建的復(fù)雜度)

          三、DBN與CNN兩者異同:

          異:DBN:全連接,有pre-train過(guò)程;CNN:局部連接,沒(méi)有預(yù)訓(xùn)練過(guò)程,但加了卷積。

          同:無(wú)論是DBN還是CNN,這種多隱層堆疊,每層對(duì)上一層的輸出進(jìn)行處理的機(jī)制,可看作是在對(duì)輸入信號(hào)進(jìn)行逐層加工,從而把初始的、與輸出目標(biāo)之間聯(lián)系不大的輸入表示,轉(zhuǎn)化成與輸出目標(biāo)聯(lián)系密切的表示。即:通過(guò)多層處理,逐漸將初始的低層特征表示轉(zhuǎn)化成高層的特征表示后,用“簡(jiǎn)單模型”就可以完成復(fù)雜的分類等學(xué)習(xí)任務(wù)。

          四、RNN:

          提出:DNN存在一個(gè)缺陷:無(wú)法對(duì)時(shí)間序列上的變化進(jìn)行建模,然而,樣本出現(xiàn)的時(shí)間順序?qū)τ谧匀徽Z(yǔ)言處理、語(yǔ)音識(shí)別等應(yīng)用很重要;RNN解決了樣本的處理在各個(gè)時(shí)刻獨(dú)立的問(wèn)題,可以對(duì)時(shí)間序列上的變化進(jìn)行建模,深度是時(shí)間上的長(zhǎng)度。神經(jīng)元的輸出可以在下一個(gè)時(shí)間戳直接作用到自身。即,某一層某一時(shí)刻神經(jīng)元的輸入,除了上一層神經(jīng)元在該時(shí)刻的輸出外,還有本身在上一時(shí)刻的輸出。

          缺點(diǎn):時(shí)間軸上的“梯度消失”,為解決這個(gè)問(wèn)題——>長(zhǎng)短時(shí)記憶單元LSTM:通過(guò)門(mén)的開(kāi)關(guān)實(shí)現(xiàn)時(shí)間上記憶功能,防止梯度消失。

          五、LSTM:

          核心:模仿一種細(xì)胞狀態(tài),類似傳送帶思想,直接在整個(gè)鏈上運(yùn)行,只有一些少量的線性交互,信息在上面保持不變。利用一種“門(mén)”的結(jié)構(gòu)來(lái)去除或增加信息到細(xì)胞狀態(tài)的能力,有三個(gè)門(mén)。門(mén):讓信息選擇通過(guò)的方法,包括sigmoid神經(jīng)網(wǎng)絡(luò)層和一個(gè)點(diǎn)乘操作。

          第一步:忘記門(mén)層:決定從細(xì)胞狀態(tài)中丟棄什么信息。讀取本層的輸入和上一層的輸出,輸出一個(gè)0到1之間的數(shù)值給每個(gè)細(xì)胞狀態(tài)。

          第二步:確定什么樣的信息被存放在細(xì)胞狀態(tài)中,包含兩個(gè)部分:1)sigmoid“輸入門(mén)層”,決定什么值將要更新。2)tanh層,創(chuàng)建一個(gè)新的候選值向量。會(huì)被加到狀態(tài)中。

          第三步:更新細(xì)胞狀態(tài)?;诩?xì)胞狀態(tài)確定輸出什么值

          面試篇:

          深度學(xué)習(xí)整體解釋:

          1)自下而上的非監(jiān)督學(xué)習(xí)

          2)自頂向下的監(jiān)督學(xué)習(xí)

          理解它們各自的參數(shù)代表什么,比較好的初始參數(shù),BP的計(jì)算,以及常見(jiàn)超參數(shù)的調(diào)整策略。

          如何優(yōu)化模型 : 加速收斂, 避免overfit, 提升精度 ..

          – batch size effect;- learning rate effect;- weight initialization effect;- batch normalization

          – drop-out;- model average;- fine-tuning;- data augmentation

          CNN最成功的應(yīng)用是在CV,那為什么NLP和Speech的很多問(wèn)題也可以用CNN解出來(lái)?為什么AlphaGo里也用了CNN?這幾個(gè)不相關(guān)的問(wèn)題的相似性在哪里?CNN通過(guò)什么手段抓住了這個(gè)共性?

          幾個(gè)不相關(guān)的問(wèn)題的相關(guān)性在于,都存在局部與整體的關(guān)系,由低層次的特征經(jīng)過(guò)組合,組成高層次的特征,并且得到不同特征之間的空間相關(guān)性。

          CNN通過(guò):局部感知、權(quán)值共享、池化操作、多層次結(jié)構(gòu)抓住了這個(gè)共性。局部感知使網(wǎng)絡(luò)可以提取數(shù)據(jù)的局部特征;權(quán)值共享大大降低了網(wǎng)絡(luò)的訓(xùn)練難度;池化操作和多層次結(jié)構(gòu)一起,實(shí)現(xiàn)了數(shù)據(jù)的降維,將低層次的特征組合成高層次的特征。

          什么時(shí)候用local-conv?什么時(shí)候用全卷積(每一個(gè)點(diǎn)用同一個(gè)filter)?

          當(dāng)數(shù)據(jù)集具有全局的局部特征分布時(shí),也就是說(shuō)局部特征之間有較強(qiáng)的相關(guān)性,適合用全卷積。在不同的區(qū)域有不同的特征分布時(shí),適合用local-Conv。

          什么樣的資料不適合用深度學(xué)習(xí)?

          1)數(shù)據(jù)集太小,因?yàn)樯窠?jīng)網(wǎng)絡(luò)有效的關(guān)鍵就是大量的數(shù)據(jù),有大量的參數(shù)需要訓(xùn)練,少量的數(shù)據(jù)不能充分訓(xùn)練參數(shù)。2)數(shù)據(jù)集沒(méi)有局部相關(guān)性。目前深度學(xué)習(xí)應(yīng)用的領(lǐng)域主要是圖像、語(yǔ)音、自然語(yǔ)言處理,這些領(lǐng)域的共性就是局部相關(guān)性。例如:圖像中的像素組成物體,語(yǔ)音中的音位組成單詞,文本數(shù)據(jù)中的單詞組成句子,而深度學(xué)習(xí)的本質(zhì)就是學(xué)習(xí)局部低層次的特征,然后組合低層次的特征成高層次的特征,得到不同特征之間的空間相關(guān)性。

          何為共線性, 跟過(guò)擬合有啥關(guān)聯(lián)?

          共線性:多變量線性回歸中,變量之間由于存在高度相關(guān)關(guān)系而使回歸估計(jì)不準(zhǔn)確。

          共線性會(huì)造成冗余,導(dǎo)致過(guò)擬合。

          解決方法:排除變量的相關(guān)性/加入權(quán)重正則。

          為什么引入非線性激勵(lì)函數(shù)?

          因?yàn)槿绻挥梅蔷€性激勵(lì)函數(shù),每一層都是上一層的線性函數(shù),無(wú)論神經(jīng)網(wǎng)絡(luò)多少層,輸出都是輸入的線性組合,與只有一個(gè)隱藏層效果一樣。相當(dāng)于多層感知機(jī)了。所以引入非線性激勵(lì)函數(shù),深層網(wǎng)絡(luò)就變得有意義了,可以逼近任意函數(shù)。

          什么造成梯度消失?推導(dǎo)?

          許多激活函數(shù)將輸出值擠壓在很小的區(qū)間內(nèi),在激活函數(shù)兩端較大范圍的定義域內(nèi)梯度為0,導(dǎo)致權(quán)重更新的緩慢訓(xùn)練難度增加,造成學(xué)習(xí)停止。(前面層上的梯度是來(lái)自后面的層上項(xiàng)的乘積,當(dāng)層數(shù)過(guò)多時(shí),隨著乘積的累積,將越來(lái)越小。)

          CNN常見(jiàn)的問(wèn)題

          1、梯度消失問(wèn)題:過(guò)多的層數(shù)會(huì)導(dǎo)致梯度消失,解決手段:減少層數(shù);增大學(xué)習(xí)率;用Relu代替sigmoid。

          2、權(quán)重衰減:CNN的權(quán)重共享相當(dāng)于自帶某種正則項(xiàng),所以代價(jià)函數(shù)里可不加正則

          3、隨機(jī)梯度下降的參數(shù)選擇:

          參考:

          http://blog.csdn.net/fuwenyan/article/details/53914371

          1)batch的選擇決定了下降的方向:

          如果數(shù)據(jù)集比較小,可以采用全數(shù)據(jù)集的形式,好處:全數(shù)據(jù)集確定的方向能夠更好的代表樣本總體;不同權(quán)重的梯度值差別巨大,因此選一個(gè)全局的學(xué)習(xí)率很困難,使用全數(shù)據(jù)集可以只基于梯度符號(hào)并且針對(duì)性單獨(dú)更新各權(quán)值。

          如果數(shù)據(jù)集比較大,全數(shù)據(jù)集不可行,內(nèi)存限制;由于各個(gè)batch采樣的差異性,各次梯度修正值相互抵消,無(wú)法修正。另一個(gè)極端每次只訓(xùn)練一個(gè)樣本,batch=1,每次修正方向以各自樣本的梯度方向修正,難以達(dá)到收斂。

          選擇適中的batch? 批梯度下降法,

          常用的激勵(lì)函數(shù):

          http://blog.csdn.net/u013146742/article/details/51986575

          1)sigmoid:將輸出實(shí)值壓縮到0-1之間。 缺點(diǎn):(輸入非常大或非常小的時(shí)候)容易梯度消失;sigmoid函數(shù)是非0均值的,下一層的神經(jīng)元將從上一層神經(jīng)元得到的非0 均值的信號(hào)作為輸入,再結(jié)合w計(jì)算梯度,始終都是正的。(可根據(jù)batch調(diào)節(jié))

          2)Tanh:是0均值的。

          3)Relu(修正線性單元):好處:收斂快,求梯度簡(jiǎn)單。具有稀疏特性。

          (相比于sigmoid:sigmoid反向傳播求誤差梯度時(shí),求導(dǎo)計(jì)算量很大,而relu求導(dǎo)簡(jiǎn)單;對(duì)于深層網(wǎng)絡(luò),sigmoid反向傳播時(shí),在sigmoid接近飽和區(qū)時(shí),變換太緩慢,導(dǎo)數(shù)趨0,從而無(wú)法完成深層網(wǎng)絡(luò)的訓(xùn)練;Relu會(huì)使一部分神經(jīng)元的輸出為0,造成了網(wǎng)絡(luò)的稀疏性,并且減少了參數(shù)的相互依存關(guān)系,緩解了過(guò)擬合問(wèn)題。)

          缺點(diǎn):訓(xùn)練的時(shí)候很脆弱,一個(gè)非常大的梯度流過(guò)一個(gè)Relu神經(jīng)元后,不會(huì)對(duì)其他數(shù)據(jù)有激活現(xiàn)象了,設(shè)置較小的學(xué)習(xí)率,這種情況會(huì)不那么頻繁。

          卷積計(jì)算層:

          參數(shù)共享機(jī)制、一組固定的權(quán)重和不同窗口內(nèi)數(shù)據(jù)做內(nèi)積:卷積

          CNN優(yōu)缺點(diǎn):

          優(yōu)點(diǎn):共享卷積核、減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù),對(duì)高維數(shù)據(jù)處理無(wú)壓力;無(wú)需手動(dòng)選取特征,訓(xùn)練好權(quán)重,即得特征。降低神經(jīng)網(wǎng)絡(luò)的復(fù)雜性。這種網(wǎng)絡(luò)結(jié)構(gòu)在有監(jiān)督的方式下學(xué)習(xí)到了一些良好的性能:對(duì)平移、比例縮放、傾斜或其他形式的變形具有高度不變性。

          缺點(diǎn):需要調(diào)參,需要大量樣本;

          神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì):

          可以利用神經(jīng)網(wǎng)絡(luò)中某一層的輸出當(dāng)做是數(shù)據(jù)的另一種表達(dá),從而可以將其認(rèn)為是經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征,基于這一特征,可以進(jìn)行進(jìn)一步的相似度比較等操作。

          有效的關(guān)鍵是大規(guī)模的數(shù)據(jù),每個(gè)DL都有眾多的參數(shù),少量數(shù)據(jù)無(wú)法將參數(shù)訓(xùn)練充分。

          發(fā)展缺陷:

          隨著網(wǎng)絡(luò)層數(shù)的加深,優(yōu)化函數(shù)越來(lái)越容易陷入局部最優(yōu)解,并且這個(gè)“陷阱”越來(lái)越偏離真正的全局最優(yōu),利用有限數(shù)據(jù)訓(xùn)練的深層網(wǎng)絡(luò),性能還不如淺層網(wǎng)絡(luò)。

          隨著網(wǎng)絡(luò)層數(shù)增加,梯度消失現(xiàn)象越來(lái)越嚴(yán)重,(一般指sigmoid函數(shù),反向傳播時(shí),每傳遞一層,梯度衰減為原來(lái)的1/4。層數(shù)一多,梯度指數(shù)衰減后,底層基本接收不到有效的訓(xùn)練信號(hào)。

          來(lái)自:公眾號(hào): datadw


          下一篇:權(quán)威解讀!2018年的人工智能趨勢(shì)(必看)


          機(jī)器人小妹自媒體平臺(tái),專注人工智能、機(jī)器人、無(wú)人車(chē)、物聯(lián)網(wǎng)等領(lǐng)域,傳播行業(yè)資訊、技術(shù)等知識(shí),為產(chǎn)業(yè)生態(tài)發(fā)展而努力,歡迎找資源對(duì)接(投資、渠道、推廣)的朋友進(jìn)入本平臺(tái)社群;

          可加微信:qingxiangjs

          本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
          打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
          猜你喜歡
          類似文章
          【神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)】卷積神經(jīng)網(wǎng)絡(luò)(CNN)
          CNN、RNN、DNN區(qū)別
          機(jī)器學(xué)習(xí)算法篇—卷積神經(jīng)網(wǎng)絡(luò)入門(mén)
          利好:人工智能選股之全連接神經(jīng)網(wǎng)絡(luò)——華泰人工智能系列之八!
          生活服務(wù)
          分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
          綁定賬號(hào)成功
          后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點(diǎn)擊這里聯(lián)系客服!

          聯(lián)系客服