MixDAO
聲音克隆是熱門的AI應(yīng)用領(lǐng)域。當(dāng)AI能精準(zhǔn)克隆人類的聲音,并能按照人物原型的思想與你對話時(shí),你會(huì)想要體驗(yàn)?zāi)男┊a(chǎn)品功能?
在 podcast.ai 推出的第一集播客節(jié)目里,嘉賓是已故的喬布斯,在長達(dá)20分鐘的對話,討論了關(guān)于喬布斯的大學(xué)、對計(jì)算機(jī)的看法、工作狀態(tài)以及信仰等等。根據(jù) podcast.ai 的說法,喬布斯的聲音是由人工智能語言模型使用蘋果創(chuàng)始人的錄音生成的。
MixDAO
AI Voice Clone 應(yīng)用于電影、游戲等配音也是最熱門的領(lǐng)域之一。目前也有較為成熟的產(chǎn)品。
技術(shù)到達(dá)了什么階段?
近些年,聲音合成學(xué)習(xí)相關(guān)前沿論文層出不窮,如 Tacotron,Tacotron2,MelGAN,Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis 等。
模型名 | 模型全稱 | |
1806.04558 | SV2TTS | Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis |
1802.08435 | WaveRNN (vocoder) | Efficient Neural Audio Synthesis |
1703.10135 | Tacotron (synthesizer) | Tacotron: Towards End-to-End Speech Synthesis |
1710.10467 | GE2E (encoder) | Generalized End-To-End Loss for Speaker Verification |
一些知名的開源項(xiàng)目如:
Mocking-Bird
gitee.com/mirrors/Mocking-Bird
特性
Real-Time Voice Cloning
github.com/CorentinJ/Real-Time-Voice-Cloning
Resemble AI
resemble.ai
想不想動(dòng)手實(shí)現(xiàn)這么一款A(yù)I產(chǎn)品?教會(huì)機(jī)器模仿你或者TA的聲音一樣說話。
聯(lián)系客服