語音識別的前世今生 | 深度學習徹底改變對話式人工智能

科技行者報道

來源：OREILLY

“語音識別”的終極夢想，是真正能夠理解人類語言甚至是方言環(huán)境的系統(tǒng)。但幾十年來，人們并沒有一個有效的策略來創(chuàng)建這樣一個系統(tǒng)，直到人工智能技術的爆發(fā)。

在過去幾年中，人們在人工智能和深度學習領域的突破，讓語音識別的探索跨了一大步。市面上玲瑯滿目的產品也反映了這種飛躍式發(fā)展，例如亞馬遜Echo、蘋果Siri 等等。本文將回顧語音識別技術領域的最新進展，研究促進其迅猛發(fā)展進程的元素，并探討其未來以及我們距離可以完全解決這個問題還有多遠。

背景：人機交互

多年來，理解人類一直都是人工智能的最重要任務之一。人們不僅希望機器能夠理解他們在說些什么，還希望它們能夠理解他們所要表達的意思，并基于這些信息采取特定的行動。而這一目標正是對話式人工智能（AI）的精髓。

對話式AI包含有兩個主要類別：人機界面，以及人與人溝通的界面。在人機界面中，人類與機器往往通過語音或文本交互，屆時機器會理解人類 ( 盡管這種理解方式是有限的 ) 并采取相應的一些措施。圖1表明，這臺機器可以是一個私人助理 ( Siri、Alexa之類的產品 ) 或某種聊天機器人。

圖1：人機交互AI

在人與人之間的互動中，人工智能會在兩個或兩個以上進行會話、互動或提出見解的人類用戶之間構建一座橋梁 ( 參見圖2 ) 。例如，一個AI在聽取電話會議后，能夠創(chuàng)立出一段簡要的電話記錄摘要，并跟進相關人員。

圖2：人與人之間互動的人工智能

對話式AI背后：機器感知與機器識別

為了理解對話式AI背后的挑戰(zhàn)與技術，我們必須研究人工智能的基本概念：機器感知與機器識別。

機器感知是指機器能夠采用類似于人類自己憑感覺感知周圍世界來分析數據的能力；換句話說，其本質上就是為機器賦予人類的感知能力。近來很多的人工智能算法都需要使用電腦攝像頭，如目標檢測和識別，都歸屬于機器感知范疇——主要涉及視覺處理。語音識別和分析則是那些利用聽覺的機器感知技術。

機器識別是在機器感知所生成的元數據之上的推理運算。機器識別包括決策制定、專家系統(tǒng)、行動執(zhí)行以及用戶的意圖等方面。一般情況下，如果沒有機器識別，對AI的感知系統(tǒng)不會產生任何影響，而機器感知會提供適當的元數據信息來令其做出決策與執(zhí)行行動。

在對話式AI中，機器感知包括所有的語音分析技術，如識別和性能分析；機器識別則包括所有與語言理解能力相關的技術，而這也是自然語言處理 ( NLP ) 的一部分。

語音識別的發(fā)展

語音識別的研究和發(fā)展情況基本分為三個主要時期：

2011年之前

人們對語音識別的活躍研究已經進行了幾十年，而事實上，即使是在二十世紀50年代和60年代，人們也一直在試圖構建語音識別系統(tǒng)。然而，在2011年以及深度學習、大數據和云計算出現以前，這些解決方案還遠遠不足以被大規(guī)模采用以及商業(yè)使用。從本質上來說，其算法還不夠好，當時也沒有足夠的數據可以用于算法的訓練，而且無法進行高性能計算機也阻礙了研究人員運行更復雜的實驗。

2011年-2014年

深度學習產生的第一個重大影響發(fā)生在2011年，當時有一個研究小組一同創(chuàng)造了第一個基于深度學習的語音識別系統(tǒng)，而這個研究小組成員包括來自微軟的研究人員、李登（Li Deng）、董玉（Dong Yu）和亞歷克斯·阿賽羅（Alex Acero），以及杰弗里·希爾頓（Geoffrey Hinton）和他的學生喬治·達爾（George Dahl）。效果很即時：其相對錯誤率降低了25%以上。而這個系統(tǒng)也是深度學習領域進行大規(guī)模發(fā)展和改進的切入點。

此后，在有了更多數據、云計算可用后，蘋果（Siri）、亞馬遜 (Alexa) 和谷歌這類的大公司均采用了深度學習技術，而且對其產品性能有著顯著的改善，并將其產品發(fā)布到了市場上。

2015至今

在2014年底，遞歸神經網絡獲得了更多的關注。與此同時，遞歸神經網絡與注意力模型、記憶網絡以及其他技術一起，掀起了這個領域發(fā)展的第三次浪潮。如今，幾乎每一種算法或者解決方案都采用了某種類型的神經模型，而且實際上，幾乎所有的關于語音的研究都已轉向深度學習。

語音識別領域，神經模型的最新進展

過去六年中，語音識別在此前40多年的基礎上創(chuàng)造了更多的突破。這種非凡的新進展主要歸功于神經網絡。要理解深度學習所帶來的影響以及它所扮演的角色，我們首先需要理解語音識別是如何工作的。

盡管近50年來語音識別一直屬于熱門研究領域，然而構建能夠理解人類語言的及其仍舊是人工智能最具挑戰(zhàn)性的問題之一，要實現這一目標非常困難。語音識別由不少明確的任務組成：給出某種制定的人類語言，然后嘗試將其語音轉換成文字。然而，機器所識別的語音中可能包括一部分噪音，所以就要求其能夠從噪聲中提取出與對話相關的部分并將其轉換成有意義的文字。

語音識別系統(tǒng)的基本構造塊

語音識別基本分為三個主要部分：

信號位準：信號為準的目的是提取語音信號并增強信號（如果有必要的話），或是進行適當的預處理、清理和特征提取。這非常類似于每一項機器學習任務，換句話說，如果給定一些數據，我們需要做適當的數據預處理和特征提取。

噪音位準：噪音位準的目的在于將不同的特征劃分成不同的聲音。換句話說，聲音本身并不能提供出一個足夠精確的標準，而有時我們將次于原聲的聲音稱為聲學標準。

語言位準：因為我們假設這些聲音都是人類所產生而且是有意義的，因此我們可以把這些聲音組合成詞語，然后把這些詞語組合成句子。在語言位準中，這些技術通常屬于不同類型的NLP技術。

基于深度學習的改進

深入學習對語音識別領域產生了巨大的影響。其影響非常深遠，即使在今天，幾乎每一個語音識別領域的解決方案都可能包含有一個或多個基于神經模型的嵌入算法。

通常而言，人們對語音識別系統(tǒng)的評價都基于一個名為配電盤（SWBD）的行業(yè)標準。SWBD是一個語音語料庫，整合了電話中的即興對話，包含音頻和人聲的副本。

語音識別系統(tǒng)的評估標準主要基于其誤字率（WER），誤字率是指語音識別系統(tǒng)識別錯誤的單詞有多少。圖3展示了從2008年到2017的誤字率改進情況。

圖3：誤字率改進情況

從2008年到2011年，誤字率一直都處于一個穩(wěn)定的狀態(tài)，位于23%至24%之間；而深度學習從2011年開始出現時起，誤字率從23.6%降低至5.5%。這一重大發(fā)展對語音識別開發(fā)而言是一種變革，其誤字率的改進相對提高了近77%。誤字率的改善也產生了廣泛應用，例如蘋果Siri、亞馬遜 Alexa、微軟 Cortana 和 Google Now，這些應用也可以通過語音識別激活各種家居，如亞馬遜Echo 和 Google Home。

秘密武器

那么，系統(tǒng)產生如此大幅度改善的原因是什么呢？是不是有什么技術可以使得誤字率從23.6%減少到了5.5%呢？遺憾的是，并沒有其他單獨的技術、方法。

然而，深入學習和語音識別息息相關，構造出了一個可以涉及各種不同技術和方法的先進系統(tǒng)。

例如，在信號位準中，有著不同的基于神經模型從信號中提取和增強語音本身的技術 (圖4) 。同時，還有能夠用更加復雜高效的基于神經模型的方法取代經典特征提取方法的技術。

圖4：信號位準的分析

聲音和語言位準中也包含有各種各樣不同的深度學習技術，無論是聲音等級分類還是語言等級分類，都采用了不同類型基于神經模型的架構（見圖5）。

圖5：聲音和語言位準分析

總而言之，建立一個先進的系統(tǒng)并不是一項容易的工作，而實現將所有涉及的這些不同技術集成為一個系統(tǒng)的過程也不輕松。

前沿研究

近來在語音識別領域有這么多的突破，那么我們自然要問，語音識別接下來的突破口在哪？未來聚焦的研究點或將從以下三個主要領域展開：算法、數據和可擴展性。

算法

隨著亞馬遜Echo 與 Google Home 的成功，許多公司正在發(fā)布能夠識別理解語音的智能揚聲器和家庭設備。然而，這些設備的推出又帶來了一個新問題：用戶說話時往往距離麥克風不是很近，例如用戶用手機對話時的狀態(tài)。而處理遠距離語音識別又是一個具有挑戰(zhàn)性的問題，很多研究小組也正在積極研究這個問題。如今，創(chuàng)新的深度學習和信號處理技術已經可以提高語音識別的質量了。

數據

語音識別系統(tǒng)的關鍵問題之一是缺乏現實生活的數據。例如，很難獲得高質量的遠程通話數據。但是，有很多來自其他來源的數據可用。一個問題是：我們可以創(chuàng)建合適的合成器來生成培訓用的數據嗎？今天，生成合成數據并培訓系統(tǒng)正在受到重視。

為了訓練語音識別系統(tǒng)，我們需要同時具備音頻和轉錄的數據集。人工轉錄是繁瑣的工作，有時會導致大量音頻的問題。因此，就有了對半監(jiān)督培訓的積極研究，并為識別者建立了適當程度的信心。

由于深度學習與語音識別相結合，因此對CPU和內存的占用量不容小覷。隨著用戶大量采用語音識別系統(tǒng)，構建經濟高效的云解決方案是一個具有挑戰(zhàn)性的重要問題。對如何降低計算成本并開發(fā)更有效的解決方案的研究一直在進行。今天，大多數語音識別系統(tǒng)都是基于云的，并且具有必須解決的兩個具體問題：延遲和持續(xù)連接。延遲是需要立即響應的設備（如機器人）的關鍵問題。在長時間監(jiān)聽的系統(tǒng)中，由于帶寬成本，持續(xù)連接是一個問題。因此，還需要對邊緣語音識別的研究，它必須保持基于云的系統(tǒng)的質量。

解決語音識別問題

近年來，語音識別的表現和應用出現了巨大的飛躍。我們離完全解決這個問題還有多遠？答案也許五年、也許十年，但仍然有一些挑戰(zhàn)性的問題需要時間來解決。

第一個問題是對噪音的敏感性問題。一個語音識別系統(tǒng)在非常接近麥克風而且不嘈雜的環(huán)境中運行得很好——然而，如果說話的聲音比較遠或者環(huán)境很嘈雜能迅速降低系統(tǒng)的效能。

第二個必須解決的問題是語言擴展：世界上大約有7000種語言，絕大多數語音識別系統(tǒng)能夠支持的語言數量大約是八十種。擴展系統(tǒng)帶來了巨大的挑戰(zhàn)。

此外，我們缺少許多語言的數據，而且匱乏數據資源則難以創(chuàng)建語音識別系統(tǒng)。

結論

深度學習在語音識別和對話式AI領域刻下了深深的印記。而鑒于該技術最近獲得的突破，我們真的正處于一場革命的邊緣。

而最大的問題在于，我們是否準備贏得語音識別領域的技術挑戰(zhàn)，并像其他商品化技術一樣開始運用它呢？或者說，是否還有另一個新的解決方案正等待著我們去發(fā)現？畢竟，語音識別的最新進展只是未來科技藍圖的一小塊：語言理解本身就是一個復雜而且或許更加強大的一個領域。

本站僅提供存儲服務，所有內容均由用戶發(fā)布，如發(fā)現有害或侵權內容，請點擊舉報。

开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频