开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開APP
          userphoto
          未登錄

          開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

          開通VIP
          Google 開發(fā)的這個(gè) AI 真的能說人話?!


          谷歌開發(fā)的Tacotron 2使機(jī)器生成的語音聽起來電子味兒更輕,更像一個(gè)人的聲音。 他們使用神經(jīng)網(wǎng)絡(luò)來訓(xùn)練在文本范本和語音示例,以WaveNet級(jí)音頻質(zhì)量和Tacotron級(jí)韻律進(jìn)行語音的合成。


          從給定文本(文本到語音合成,TTS)生成自然語音的研究已經(jīng)持續(xù)了幾十年。在過去的幾年里,研究者們?nèi)〉昧肆钊瞬毮康倪M(jìn)展。

          機(jī)器人的聲音是我們關(guān)注的重點(diǎn),像微軟的Cortana(小娜)或蘋果的Siri。隨著時(shí)間一點(diǎn)點(diǎn)過去,對(duì)比起其他機(jī)器人,谷歌 AI 聲音開始聽起來電子味兒輕了好多,更像是一個(gè)人。而現(xiàn)在,這幾乎就是人的聲音。

          Google 的工程師結(jié)合了 WaveNet 和 Tacotron 等過去工作的 idea,并加強(qiáng)了最終采用于新系統(tǒng) Tacotron 2的技術(shù)。為了實(shí)現(xiàn)類似人類的語音,他們使用的神經(jīng)網(wǎng)絡(luò)僅對(duì)文本記錄和語音示例進(jìn)行訓(xùn)練,而不是以任何復(fù)雜的語言和聲學(xué)特征作為輸入。

          模型架構(gòu)

          該系統(tǒng)包含兩個(gè)主要部分

          1.    一種針對(duì) TTS 的周期性序列特征的預(yù)測(cè)網(wǎng)絡(luò),優(yōu)化了字母序列的序列特征,對(duì)音頻進(jìn)行了編碼。

          2.    WaveNet 的改進(jìn)版本,可根據(jù)預(yù)測(cè)的頻譜圖幀生成時(shí)域波形采樣。


          Tacotron 2 的模型架構(gòu)

          序列-序列模型的特征是一個(gè)80維的音頻聲譜圖(每 12.5 毫秒測(cè)量一次幀),捕捉單詞,速度,音量和語調(diào)。這些功能最終使用增強(qiáng)型WaveNet版本來轉(zhuǎn)換為 24 kHz 波形的 16 位采樣。

          由此產(chǎn)生的系統(tǒng)將語音結(jié)合了 WaveNet 級(jí)別的音頻質(zhì)量和 Tacotron 級(jí)的音調(diào)韻律。它可以在不依賴任何復(fù)雜的特征工程的情況下對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,并且完成與自然人聲非常接近的最先進(jìn)的音質(zhì)。

          不同于公司的其他核心人工智能研究,這項(xiàng)技術(shù)對(duì) Google 來說非常有用武之地。例如,它最初在 2016 年出現(xiàn), Google 智能助理中現(xiàn)在也在使用 WaveNet。Tacotron 2 將是一個(gè)更強(qiáng)大的附加服務(wù)。


          限制

          以上聽起來不錯(cuò),但仍有一些問題需要解決。該系統(tǒng)面臨著一些問題,而發(fā)音復(fù)雜的單詞如 “merlot” 和 “decorum” 等,在某種特殊情況下,它會(huì)隨機(jī)產(chǎn)生奇怪的噪音。

          目前,該系統(tǒng)無法實(shí)時(shí)生成音頻,無法控制生成的語音,就像讓它說的話聽起來悲傷或快樂。此外,它只是訓(xùn)練來模仿女性的聲音;要像其他女性或男性一樣說話,開發(fā)者還得重新調(diào)試。

          本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
          打開APP,閱讀全文并永久保存 查看更多類似文章
          猜你喜歡
          類似文章
          語音合成技術(shù)
          那段記憶中的聲音:單式評(píng)書再現(xiàn)江湖背后的AI技術(shù)
          學(xué)界 | 谷歌全端到端語音合成系統(tǒng)Tacotron:直接從字符合成語音
          一文帶你讀懂 WaveNet:谷歌助手的聲音合成器
          百度發(fā)布全深度學(xué)習(xí)文本到語音轉(zhuǎn)化系統(tǒng) Deep Voice,比 WaveNet 快400倍
          人工智能作曲、算法作曲指南
          更多類似文章 >>
          生活服務(wù)
          分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
          綁定賬號(hào)成功
          后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點(diǎn)擊這里聯(lián)系客服!

          聯(lián)系客服