AI 技術(shù)在飛速發(fā)展,比如美顏換臉、
文字識(shí)別、
語(yǔ)音識(shí)別、
移除圖片背景、自動(dòng)駕駛等等都在
生活的各個(gè)方面起到了應(yīng)用。而「語(yǔ)音合成 TTS」方面,如今實(shí)用性也已非常驚人了。
像
騰訊云、
阿里云、百度云等都推出文字轉(zhuǎn)語(yǔ)音在線服務(wù) API,但合成的人聲大多時(shí)候都很容易聽(tīng)出“機(jī)器人味”。而
微軟的 Azure TTS 文本轉(zhuǎn)語(yǔ)音服務(wù)效果就比較讓人驚嘆了!它擁有多種
聲音和情感風(fēng)格,能像真人一樣朗讀出抑揚(yáng)頓挫,使得合成的人聲非常逼真自然,不妨來(lái)看看……
微軟自然語(yǔ)音轉(zhuǎn)換 - 像真人般將文本朗讀出來(lái)并保存成音頻
「微軟文本轉(zhuǎn)語(yǔ)音」Azure Text to Speech 是一個(gè)能將文字轉(zhuǎn)換成真人般自然朗讀的云服務(wù),相比同類(lèi) TTS 強(qiáng)大之處在于,它借助
AI 神經(jīng)網(wǎng)絡(luò)技術(shù),讓合成的語(yǔ)音擁有媲美真人的表現(xiàn)力,實(shí)現(xiàn)人聲語(yǔ)調(diào)與情感匹配,朗讀時(shí)能表現(xiàn)出高興、悲傷、新聞廣播、客服、恐懼、耳語(yǔ)等情感。
加上語(yǔ)速、語(yǔ)調(diào)、發(fā)音、停頓都可以由用戶調(diào)節(jié),實(shí)際生成的語(yǔ)音非常自然逼真!完全不再像機(jī)器人了!因此微軟文本轉(zhuǎn)語(yǔ)音
技術(shù)幾乎能應(yīng)用在任何場(chǎng)景。
新版的 Edge 瀏覽器的朗讀功能就是基于此
技術(shù)而來(lái)??上Т朔?wù)是付費(fèi)的,你還懂
編程才能用上它,這似乎離普通用戶很遠(yuǎn)?
別急!其實(shí),
微軟提供了一個(gè)免費(fèi)的
在線 DEMO 演示,可以讓用戶隨便輸入文字實(shí)現(xiàn)在線試聽(tīng) (但字?jǐn)?shù)有限制,且試聽(tīng)無(wú)法保存)。于是,高手們紛紛各顯神通,給我們帶來(lái)了幾款如微軟語(yǔ)音合成助手、Edge-TTS-record、微軟 TTS 下載按鈕腳本插件等免費(fèi)工具,可以幫助你將一大段文字轉(zhuǎn)換成音頻導(dǎo)出 mp3 或錄制成 wav 保存下來(lái),用于其他地方。
微軟 TTS 朗讀效果預(yù)覽:
我們先來(lái)聽(tīng)?zhēng)锥挝④浳谋巨D(zhuǎn)語(yǔ)音的效果吧,相信你一定能聽(tīng)出來(lái),它真的比目前大多數(shù) TTS 同行要優(yōu)秀很多,情感表現(xiàn)力簡(jiǎn)直滿分!開(kāi)心、嚴(yán)肅不同場(chǎng)景可以用不同的調(diào)調(diào),就連講個(gè)鬼故事也都能講出害怕的感覺(jué)。
點(diǎn)擊開(kāi)始播放視頻
其實(shí)如今在
嗶哩嗶哩、抖音、快手里好多
視頻的配音,都有使用了這個(gè)微軟語(yǔ)音庫(kù)來(lái)生成,人的聲音聽(tīng)起來(lái)很自然,不特意地去留意,基本都分辨不出來(lái)是用機(jī)器合成的。
微軟語(yǔ)音合成助手免費(fèi)版 (Windows)
「微軟語(yǔ)音合成助手」是一款完全免費(fèi)的文字轉(zhuǎn)語(yǔ)音的 Windows 電腦版軟件,它綠色免安裝,而且體積小巧,打開(kāi)就能使用 (需聯(lián)網(wǎng)),軟件界面非常簡(jiǎn)潔,上手即會(huì)使用。
它完全借助了微軟的 Azure TTS 服務(wù)來(lái)將文字合成并生成語(yǔ)音,支持在線試聽(tīng),也可以保存成 mp3 音頻文件,效果非常接近真人朗讀!不僅真實(shí)自然,而且也能設(shè)置它的情感風(fēng)格、語(yǔ)速、停頓、音量等等。
微軟語(yǔ)音合成助手可以支持導(dǎo)入 TXT、SRT 字幕、
PDF 多種格式的文檔文件,甚至還能支持 JPG、PNG 截圖里的
文字識(shí)別并導(dǎo)入成文本內(nèi)容。并且重點(diǎn)是,此軟件使用了分段下載合并的方式解決了一次只能轉(zhuǎn)換 2500 個(gè)字?jǐn)?shù)限制的問(wèn)題。
軟件支持保存導(dǎo)出編輯內(nèi)容,支持
翻譯,自動(dòng)排版,自動(dòng)標(biāo)點(diǎn),文本替換,敏感詞提醒,敏感詞替換,SSML 多人語(yǔ)音混編等多種功能,還可以實(shí)現(xiàn)
批量轉(zhuǎn)換。
瀏覽器插件:微軟 TTS 下載音頻按鈕(油猴腳本)
前面說(shuō)到,
微軟 TTS 本身提供了文字轉(zhuǎn)語(yǔ)音的
在線演示的網(wǎng)頁(yè)版,可以讓用戶在
瀏覽器上輸入或粘貼文本,轉(zhuǎn)換成語(yǔ)音進(jìn)行試聽(tīng),但官網(wǎng)上并不提供下載功能。因此,有開(kāi)發(fā)者制作了這么一個(gè)「微軟 TTS 下載音頻按鈕」插件,可以讓你將試聽(tīng)的語(yǔ)音
下載保存成 MP3 音頻。
這款瀏覽器
插件是完全免費(fèi)的,它是以 UserScript (油猴腳本) 的形式提供的,比如
Chrome、
Edge 等瀏覽器安裝了
Tempermonkey 插件后就能安裝此類(lèi)腳本。安裝成功并啟用的話,微軟 TTS 的網(wǎng)頁(yè)上除了試聽(tīng)按鈕以外,還會(huì)如上圖一樣,增加一個(gè)「下載音頻」的按鈕。
所以,如果你使用
Mac、
Linux 或者不希望下載第三方軟件,那么使用此腳本也可以在瀏覽器里搞定文本轉(zhuǎn)音頻。
Edge-TTS-record 開(kāi)源錄制工具
這款
開(kāi)源免費(fèi)的「edge-TTS-record」工具,是一款可以錄制
Microsoft Edge 瀏覽器的語(yǔ)音合成(TTS)語(yǔ)音并輸出為 .wav 音頻的 Windows 版工具。另外,網(wǎng)上也有一款名為「Read Aloud by asup」的工具與此程序幾乎一樣,暫不知道是否同一作者。
由于
Edge 瀏覽器也是使用了微軟 Azure TTS 的技術(shù),因此它擁有了同樣的逼真自然的聲音引擎,包括了曉曉、云楊等人物聲音。不過(guò)相比前兩者,此工具的實(shí)現(xiàn)方法是需要將試聽(tīng)的聲音進(jìn)行“錄音”而來(lái)的,因此錄制時(shí)間較長(zhǎng),同時(shí)過(guò)程中也可能受到系統(tǒng)其他軟件聲音的影響。
aspeak - 命令行文字轉(zhuǎn)語(yǔ)音工具:
對(duì)于有特殊需求的朋友,還有一款
命令行版的微軟 TTS 語(yǔ)音合成工具 aspeak,這是用
Python 編寫(xiě)的基于 Azure 語(yǔ)音合成的命令行程序,安裝簡(jiǎn)單,還可以跨平臺(tái)使用。
#安裝 aspeakpip install --upgrade aspeak# 最簡(jiǎn)單的例子:aspeak -t "異次元軟件世界,你好呀!" -l zh-CN#導(dǎo)入 .txt 文件,并轉(zhuǎn)換成 .wav 音頻保存aspeak -f input.txt -l zh-CN -o ouput.wav
更多具體的參數(shù),比如怎樣指定語(yǔ)音,大家可以看 aspeak 的
官方文檔。至于此工具的的實(shí)際應(yīng)用例子嘛,就得看大家發(fā)揮想象力和二次
開(kāi)發(fā)的能力了。
總結(jié):
不管你是
視頻 UP 主、自媒體還是
辦公人士,借助微軟 Azure TTS 的語(yǔ)音合成引擎來(lái)不僅能錄制一些旁白、朗讀稿子
電子書(shū)、給視頻配音等,也能自?shī)首詷?lè),給生活和工作都帶來(lái)方便與樂(lè)趣。
上面的幾款工具都是免費(fèi)的,感興趣和有需要的朋友都可以下載使用。當(dāng)然了,微軟這個(gè) TTS 云服務(wù)接口本來(lái)是需要付費(fèi)的,而這些免費(fèi)工具都是基于
微軟的免費(fèi) Demo 演示開(kāi)發(fā)而來(lái),哪一天要是被關(guān)掉了,可能就無(wú)法使用了。所以,免費(fèi)有限,大家且用且珍惜吧……