MixDAO

聲音克隆是熱門的AI應(yīng)用領(lǐng)域。當(dāng)AI能精準(zhǔn)克隆人類的聲音，并能按照人物原型的思想與你對話時(shí)，你會(huì)想要體驗(yàn)?zāi)男┊a(chǎn)品功能？

# 案例

在 podcast.ai 推出的第一集播客節(jié)目里，嘉賓是已故的喬布斯，在長達(dá)20分鐘的對話，討論了關(guān)于喬布斯的大學(xué)、對計(jì)算機(jī)的看法、工作狀態(tài)以及信仰等等。根據(jù) podcast.ai 的說法，喬布斯的聲音是由人工智能語言模型使用蘋果創(chuàng)始人的錄音生成的。

MixDAO

AI Voice Clone 應(yīng)用于電影、游戲等配音也是最熱門的領(lǐng)域之一。目前也有較為成熟的產(chǎn)品。

replicastudios.com

# 現(xiàn)狀

技術(shù)到達(dá)了什么階段？

- 理論界

近些年，聲音合成學(xué)習(xí)相關(guān)前沿論文層出不窮，如 Tacotron，Tacotron2，MelGAN，Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis 等。

論文	模型名	模型全稱
1806.04558	SV2TTS	Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
1802.08435	WaveRNN (vocoder)	Efficient Neural Audio Synthesis
1703.10135	Tacotron (synthesizer)	Tacotron: Towards End-to-End Speech Synthesis
1710.10467	GE2E (encoder)	Generalized End-To-End Loss for Speaker Verification

- 應(yīng)用層

一些知名的開源項(xiàng)目如：

Mocking-Bird
gitee.com/mirrors/Mocking-Bird

特性

支持普通話并使用多種中文數(shù)據(jù)集進(jìn)行測試：aidatatang_200zh, magicdata, aishell3, biaobei, MozillaCommonVoice, data_aishell 等。

適用于 Pytorch，已在 1.9.0 版本（最新于 2021 年 8 月）中測試，GPU Tesla T4 和 GTX 2060

可在 Windows 操作系統(tǒng)和 linux 操作系統(tǒng)中運(yùn)行（蘋果系統(tǒng) M1 版也有社區(qū)成功運(yùn)行案例）。

僅需下載或新訓(xùn)練合成器（synthesizer）就有良好效果，復(fù)用預(yù)訓(xùn)練的編碼器 / 聲碼器，或?qū)崟r(shí)的 HiFi-GAN 作為 vocoder。

可將訓(xùn)練結(jié)果保存在服務(wù)器端，供遠(yuǎn)程調(diào)用。

Real-Time Voice Cloning
github.com/CorentinJ/Real-Time-Voice-Cloning

Resemble AI
resemble.ai

# 提案

想不想動(dòng)手實(shí)現(xiàn)這么一款A(yù)I產(chǎn)品？教會(huì)機(jī)器模仿你或者TA的聲音一樣說話。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

# 案例

# 現(xiàn)狀

- 理論界

- 應(yīng)用層

# 提案