https://m.toutiaocdn.com/i6865068530287510020/?app=news_article×tamp=1598577285&use_new_style=1&req_id=20200828091444010131074200121AEC1F&group_id=6865068530287510020
AI越來越強(qiáng)大,不僅能模仿別人的表情,還能模仿別人說話的聲音和語氣,以后電話聽到好友的聲音也有可能不是本人哦,今天小編來講講一個實時聲音克隆庫Real-Time-Voice-Cloning
github地址為:https://github.com/CorentinJ/Real-Time-Voice-Cloning
該庫是使用谷歌的開源聲音處理算法(SV2TTS)實現(xiàn)。
SV2TTS是一個三階段的深度學(xué)習(xí)框架,它允許從幾秒鐘的音頻中創(chuàng)建語音的數(shù)字表示,并使用它來調(diào)節(jié)經(jīng)過訓(xùn)練的文本到語音模型,以生成到新的語音。
如果您只想克隆您的聲音(而不是其他人的聲音):我建議在Resemble.AI上使用免費(fèi)計劃。
首先,因為您將獲得更好的語音質(zhì)量和更少的韻律錯誤,其次,因為它不需要像此回購協(xié)議那樣的復(fù)雜設(shè)置。
具體的步驟
一、安裝要求
需要Python 3.6或3.7才能運(yùn)行該工具箱。
安裝PyTorch(> = 1.0.1)。
安裝ffmpeg。
運(yùn)行pip install -r requirements.txt以安裝其余必需的軟件包。
二、下載預(yù)訓(xùn)練的模型
下載地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning/wiki/Pretrained-models
三、(可選)測試配置
在下載任何數(shù)據(jù)集之前,您可以使用以下方法測試配置:
python demo_cli.py
如果所有測試都通過,那您就很好了。
四、(可選)下載數(shù)據(jù)集
對于僅使用工具箱的情況,我只建議下載LibriSpeech/train-clean-100。下載地址:http://www.openslr.org/resources/12/train-clean-100.tar.gz,提取內(nèi)容<datasets_root>/LibriSpeech/train-clean-100這里<datasets_root>是你選擇的目錄。工具箱中支持其他數(shù)據(jù)集,請參見此處。您可以自由地不下載任何數(shù)據(jù)集,但是您將需要自己的數(shù)據(jù)作為音頻文件,或者必須在工具箱中記錄下來。
五、啟動工具箱
然后,您可以嘗試使用工具箱:
python demo_toolbox.py -d <datasets_root>
要么
python demo_toolbox.py
取決于您是否下載了任何數(shù)據(jù)集。如果您正在運(yùn)行X服務(wù)器或出現(xiàn)錯誤Aborted (core dumped)
這個就是操作界面了,先錄音然后輸入文字就可以模仿別人的聲音說話了
六、啟用GPU支持
注意:啟用GPU支持是很多工作。如果您要訓(xùn)練自己的模型,則需要進(jìn)行設(shè)置。有人花時間為如何安裝所有內(nèi)容提供了更好的指南。我建議使用它。
此命令將安裝其他GPU依賴項和推薦的軟件包: pip install -r requirements_gpu.txt
此外,您需要確保正確安裝了GPU驅(qū)動程序,并且您的CUDA版本與PyTorch和Tensorflow安裝相匹配。