开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開APP
          userphoto
          未登錄

          開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

          開通VIP
          Deepfake再升級(jí)!一張照片 音頻“復(fù)活”愛因斯坦
          AI 前線導(dǎo)讀:Deepfake 自誕生以來,就與造假、偽造等詞語緊緊捆綁在一起,只要出現(xiàn)在人們的視野中,就一定與新的造假方法有關(guān)。雖然遭到了公眾的聯(lián)合抵制,但是這并不能削減研究人員對(duì)相關(guān)技術(shù)探索的熱情,就在今天,一種新的“Deepfake”技術(shù)又出現(xiàn)了。據(jù)國(guó)外科技媒體 The Verge 報(bào)道,近日三星人工智能研究中心和倫敦帝國(guó)理工學(xué)院的研究人員提出一種新型端到端系統(tǒng),只需要一張照片,加上一段音頻,就能讓愛因斯坦張嘴演講,讓百年以前就去世的人大唱歌手碧昂斯的歌曲,甚至還可以為合成視頻里的人物配上對(duì)應(yīng)的表情。

          一張照片 + 一段音頻 = 合成視頻

          先來看看通過照片 + 音頻合成的視頻到底效果如何?

          通過著名科學(xué)家愛因斯坦的一張照片,再配合上他本人之前的演講,就能合成出這樣一段視頻:?

          被稱為“俄國(guó)妖僧”的拉斯普京早在百年以前就去世了,但是通過這項(xiàng)技術(shù),他竟然能在視頻里大唱著名歌手碧昂斯的熱單《Halo》:???

          雖然聲音仍然是碧昂斯的,但是通過視頻能夠看到,照片中人物的口型幾乎和歌詞是一模一樣的。

          如果說之前的兩個(gè)案例還算是正常發(fā)揮,那么下面這段視頻就有些“放大招”的意思了:?

          不僅合成了與輸入音頻匹配的視頻,而且還可以通過調(diào)整表情以傳達(dá)特定情感。請(qǐng)記住,創(chuàng)建這些視頻所需的只是一張圖片和一個(gè)音頻文件,算法完成了其余所有工作。

          這幾個(gè)案例雖然看上去有些唬人,而且合成的視頻并非是 100% 完美無缺的,但它是這項(xiàng)技術(shù)發(fā)展速度之快的最新例證,其背后的原理值得探索。

          技術(shù)原理

          據(jù)介紹,這是一套端到端系統(tǒng),生成的視頻擁有與音頻同步的唇部運(yùn)動(dòng)和自然的面部表情,例如眨眼和皺眉。這項(xiàng)研究的相關(guān)論文也入選了 CVPR 2019。

          論文地址:https://arxiv.org/pdf/1906.06337.pdf

          圖 1:論文提出的端到端人臉合成模型,能夠使用一個(gè)靜止圖像和一個(gè)包含語音的音軌生成逼真的人臉序列。

          這篇論文所提出的語音驅(qū)動(dòng)人臉合成體系結(jié)構(gòu)如圖 2 所示。該系統(tǒng)由時(shí)序生成器和多個(gè)鑒別器組成,每一個(gè)鑒別器都從不同的角度對(duì)生成的序列進(jìn)行評(píng)估。生成器捕獲自然序列的各個(gè)方面的能力與每個(gè)識(shí)別器根據(jù)它們辨別視頻的能力成正比。

          圖 2:語音驅(qū)動(dòng)面部合成的深層模型

          時(shí)序生成器網(wǎng)絡(luò)具有編解碼器結(jié)構(gòu),可以從概念上劃分為子網(wǎng)絡(luò),如圖 3 所示。假設(shè)一個(gè)潛在的表征是由三個(gè)部分組成的,這三個(gè)部分包括說話人的身份、音頻內(nèi)容和自然的面部表情。這些組件由不同的模塊生成,結(jié)合在一起形成一個(gè)嵌入,就可以通過解碼網(wǎng)絡(luò)轉(zhuǎn)換成幀。

          圖 3:生成器網(wǎng)絡(luò)結(jié)構(gòu)

          每個(gè)幀的潛在表征是通過連接標(biāo)識(shí)、內(nèi)容和噪聲組件來構(gòu)造的。幀解碼器是一種 CNN,它使用步長(zhǎng)轉(zhuǎn)置卷積從潛在的表征生成視頻幀。使用 U-Net 架構(gòu),在標(biāo)識(shí)編碼器和幀解碼器之間進(jìn)行殘差連接,以保存主體的標(biāo)識(shí),如圖 4 所示。

          圖 4:向生成器網(wǎng)絡(luò)添加殘差連接的影響。

          而同步鑒別器給出原始視頻和音頻的固定長(zhǎng)度片段 (誤差 0.2s),并確定它們是否同步。鑒別器使用兩種流架構(gòu)來計(jì)算音頻和視頻的嵌入,通過計(jì)算兩個(gè)嵌入點(diǎn)之間的歐幾里德距離,并將其輸入單層感知器進(jìn)行分類。鑒別器的結(jié)構(gòu)如圖 5 所示。

          圖 5:同步鑒別器決定視聽對(duì)是否同步。 它使用 2 個(gè)編碼器來獲取音頻和視頻的嵌入,并根據(jù)它們的歐幾里德距離決定它們是否同步。

          論文團(tuán)隊(duì)最后通過 PyTorch+GTX 1080 Ti 進(jìn)行了實(shí)驗(yàn),而實(shí)驗(yàn)的最終成果就像前文里視頻中展示的那樣,雖然不甚完美,但是已經(jīng)相當(dāng)成功了。

          與 Speech2Vid 模型相比,這一方法在最終呈現(xiàn)效果上提升了不少:

          從上圖可以看出:Speech2Vid 模型雖然也做到了讓人物開口講話,但是除了嘴部動(dòng)作幾乎沒有表情,而新方法的效果讓人物的表情、動(dòng)作更加自然,雖然會(huì)顯得有些夸張,但是比起直勾勾瞪著人的表情已經(jīng)進(jìn)步了不少。

          Speech2Vid 模型是另一種僅使用音頻語音段和目標(biāo)身份的面部圖像來生成說話人臉的視頻的方法,可通過該篇論文了解:https://link.springer.com/content/pdf/10.1007%2Fs11263-019-01150-y.pdf

          Deepfake 技術(shù)會(huì)走向何方?

          制作類似 Deepfake 的技術(shù)正在變得越來越容易,盡管像這樣的研究還沒有大規(guī)模商業(yè)化,但最初的 Deepfake 制造者很快就把他們的技術(shù)捆綁到易于使用的軟件中,同樣的情況也會(huì)發(fā)生在后來出現(xiàn)的這些新方法上。

          注:Deepfake 技術(shù)已經(jīng)被一些公司進(jìn)行了小范圍的商業(yè)化,AI 前線也曾經(jīng)進(jìn)行過報(bào)道,感興趣的讀者可以 點(diǎn)此回顧

          類似的研究層出不窮,讓人們擔(dān)心它們可能被用于誤導(dǎo)和宣傳,這個(gè)問題甚至已經(jīng)困擾到了一些國(guó)家的立法者。盡管有無數(shù)種方法整明技術(shù)是無害的,但它確實(shí)已經(jīng)造成了真正的傷害,尤其是對(duì)女性而言。

          而合成技術(shù)產(chǎn)生的“合成數(shù)據(jù)”也有著不小的 商業(yè)價(jià)值。合成數(shù)據(jù)可以減少對(duì)生成和捕獲數(shù)據(jù)的依賴,可以做到比手工標(biāo)記數(shù)據(jù)更便宜、更快速,還可以最大限度減少公司對(duì)第三方數(shù)據(jù)源的需求等等。

          “技術(shù)是一把雙刃劍”,這句話已經(jīng)被無數(shù)次的提起。目前尚不知道本文提到的合成技術(shù)研究團(tuán)隊(duì)未來會(huì)將這項(xiàng)技術(shù)用在哪里,這項(xiàng)技術(shù)暫時(shí)也還沒有開源,不論今后它的命運(yùn)如何,只希望不再有更多無辜的人受到影響,相信各個(gè)國(guó)家也會(huì)加快對(duì)這類層出不窮的新技術(shù)的立法管理,技術(shù)無罪,但是掌握技術(shù)的人應(yīng)該守好底線。

          參考鏈接:

          https://www.theverge.com/2019/6/10/18659432/Deepfake-ai-fakes-tech-edit-video-by-typing-new-words

          今日薦文

          點(diǎn)擊下方圖片即可閱讀

          谷歌股東大會(huì)變抗議大會(huì),創(chuàng)始人缺席被罵“可恥”


          福利推薦

          2011 年至今,大數(shù)據(jù)概念火了八年,勢(shì)頭依然強(qiáng)盛。但即便如此,當(dāng)拋出“工業(yè)大數(shù)據(jù)”的概念時(shí),為何人們還是唏噓不止,直道落地艱難?小編說:不基于真實(shí)工業(yè)場(chǎng)景的數(shù)據(jù)資源、沒有系統(tǒng)的競(jìng)賽培訓(xùn)和專業(yè)的算法工具,開發(fā)者當(dāng)然只能面對(duì)行業(yè)難題,望而卻步。

          本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
          打開APP,閱讀全文并永久保存 查看更多類似文章
          猜你喜歡
          類似文章
          陳根:深度合成陷入“貓鼠游戲”,下一步是什么?
          AI 技術(shù)或?qū)⒋娣b模特,到底是喜是憂?
          布魯金斯學(xué)會(huì)報(bào)告:深度偽造與國(guó)際沖突
          生成式AI來了,我們還能相信自己的眼睛嗎?
          AI換臉技術(shù)能為所欲為?Deepfake到底有多可怕?
          這個(gè) AI 換臉技術(shù)也許是流量明星的春天
          更多類似文章 >>
          生活服務(wù)
          分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
          綁定賬號(hào)成功
          后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點(diǎn)擊這里聯(lián)系客服!

          聯(lián)系客服