去年10月份,“馬云爸爸”做了一件非常驚人的事——成立阿里巴巴達(dá)摩院。
阿里之下的達(dá)摩院,來(lái)源于武俠小說(shuō),作為武學(xué)最高研究機(jī)構(gòu),達(dá)摩院代表了修為的最高境界。同樣,科研也代表了精進(jìn)、執(zhí)著和專注的精神。
達(dá)摩院成立的前一天,有一張圖火了——就是一張馬云和多位科學(xué)家的合影在科技圈兒刷了屏。包括馬云C位在內(nèi),一共有14名成員,普通人可能不太熟悉其中大部分的人,但他們大多數(shù)是技術(shù)領(lǐng)域的頂級(jí)大牛,他們將為阿里的“達(dá)摩院”出謀劃策,出于一些業(yè)務(wù)上的考量,他們更像是顧問(wèn)。
作為一個(gè)“活得至少要比阿里巴巴長(zhǎng)”的技術(shù)機(jī)構(gòu),馬云宣布三年內(nèi),要在技術(shù)研發(fā)上投入超過(guò)1000億,初期招攬100名頂級(jí)科學(xué)家和研究人員,研究自然語(yǔ)言處理、人機(jī)自然交互、量子計(jì)算、機(jī)器學(xué)習(xí)、基礎(chǔ)算法、芯片技術(shù)、傳感器技術(shù)、嵌入式系統(tǒng)等等前沿科學(xué)領(lǐng)域??傊?,你能想到的那些前沿技術(shù)領(lǐng)域,全部包括在達(dá)摩院的范疇之內(nèi)。
馬云對(duì)達(dá)摩院發(fā)展提出的三個(gè)要求,“活得要比阿里巴巴長(zhǎng)”、“服務(wù)全世界至少20億人口”、“必須面向未來(lái)、用科技解決未來(lái)的問(wèn)題”。
過(guò)去一年,達(dá)摩院并沒(méi)有出來(lái)公開(kāi)講過(guò)太多話。今年4月,阿里達(dá)摩院宣布了自主研發(fā)AI芯片——Ali-NPU,按照阿里說(shuō)法,該芯片的性能將是目前同類產(chǎn)品的40倍。今年5月,達(dá)摩院量子實(shí)驗(yàn)室宣布,研制出世界最強(qiáng)的量子電路模擬器“太章”,并在全球率先成功模擬了81比特40層的作為基準(zhǔn)的谷歌隨機(jī)量子電路,挑戰(zhàn)“量子霸權(quán)”。除此之外,基本都是在算法和測(cè)評(píng)比賽上獲得一些獎(jiǎng)項(xiàng)。
成立9個(gè)月以來(lái),阿里的技術(shù)核心達(dá)摩院仍然非常神秘,這個(gè)機(jī)構(gòu)有多少業(yè)務(wù)部門單元,有多少人,他們?cè)谧鍪裁词聝海绾芜\(yùn)用到阿里巴巴的體系當(dāng)中去?
7月6日,阿里巴巴在杭州舉辦了一次“媒體小課堂”——這也是既達(dá)摩院成立了快一年后,第一次做媒體溝通。這不同于一些傳統(tǒng)的發(fā)布會(huì)和溝通會(huì),這更類似于一個(gè)媒體公開(kāi)課的形式,主要由幾名具體技術(shù)業(yè)務(wù)部門的發(fā)言人闡述一些技術(shù)背景、應(yīng)用場(chǎng)景以及達(dá)摩院對(duì)于未來(lái)技術(shù)的判斷。
阿里巴巴方面并沒(méi)有直接透露達(dá)摩院體系之下的人員數(shù)量,但多數(shù)成員來(lái)自于此前的iDST。在媒體小課堂上, 四位主講人分別是來(lái)自達(dá)摩院機(jī)器智能實(shí)驗(yàn)室(視覺(jué)組)負(fù)責(zé)圖像識(shí)別的資深算法專家謝宣松、量子實(shí)驗(yàn)室的量子科學(xué)家徐華、機(jī)器智能技術(shù)實(shí)驗(yàn)室負(fù)責(zé)機(jī)器翻譯的研究員葛妮瑜以及機(jī)器智能技術(shù)實(shí)驗(yàn)室負(fù)責(zé)語(yǔ)音識(shí)別的高級(jí)算法專家雷鳴。旗下有幾個(gè)實(shí)驗(yàn)室我們并不得知,而據(jù)阿里巴巴提供的最新的消息,阿里巴巴體系下已經(jīng)有擁有25000名技術(shù)研發(fā)工程師。
據(jù)阿里介紹,在阿里巴巴,達(dá)摩院并不是一個(gè)純研究部門,它和業(yè)務(wù)和商業(yè)緊密相連,既有學(xué)術(shù)思維,也有產(chǎn)品思維和商業(yè)邏輯。達(dá)摩院機(jī)器智能實(shí)驗(yàn)室高級(jí)算法專家雷鳴在加入達(dá)摩院之前在微軟任職語(yǔ)音科學(xué)家,他認(rèn)為“在微軟更像是純學(xué)術(shù)研究,而在阿里巴巴會(huì)讓自己有一些商業(yè)的考量?!?br>
達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室智能語(yǔ)音交互的首席科學(xué)家鄢志杰曾經(jīng)也提到——他在阿里的實(shí)驗(yàn)室有三類人。一是算法研究,二是做算法落地,三是推動(dòng)產(chǎn)品化的工程技術(shù)人員。這三類人結(jié)合到一個(gè)組織下,能讓算法的研究成果迅速被產(chǎn)品化。
千貨千面,機(jī)器自動(dòng)生成促銷圖
今天的人工智能代表有很多——打敗世界冠軍的AlphaGo,基于用戶興趣的商品推薦,支付寶的刷臉支付、交通網(wǎng)絡(luò)上的車牌識(shí)別,菜鳥(niǎo)網(wǎng)絡(luò)的智能調(diào)度等等。有很多是基于視覺(jué)智能的。
達(dá)摩院的視覺(jué)智能是圍繞幾個(gè)方面的——圍繞“人”,比如基于人的醫(yī)療視覺(jué);圍繞“物”,識(shí)別工業(yè)上的一些設(shè)計(jì)的技術(shù)問(wèn)題、流水線上的包裹,甚至高鐵都可以稱作“物”;還有圍繞“空間”,像城市大腦,是研究城市空間怎么運(yùn)作的,包括技術(shù)在交通、安全上的識(shí)別。
而最新的技術(shù)是在“設(shè)計(jì)”領(lǐng)域,比如視覺(jué)生成。
視覺(jué)生成可以這樣理解——以往很多視覺(jué)的AI技術(shù),都是集中在人臉識(shí)別、支付,或者對(duì)于視覺(jué)中內(nèi)容的理解等等,基本上可以認(rèn)為是識(shí)別、檢測(cè)、分割的技術(shù)內(nèi)容更多,而生成、決策的內(nèi)容更少。
而類比人的智能生成的過(guò)程——從小學(xué)初中大學(xué)碩士博士,逐漸認(rèn)識(shí)和理解這個(gè)世界,而最后工作提出研究、產(chǎn)生的價(jià)值則是個(gè)人決策的概念。對(duì)于視覺(jué)智能來(lái)說(shuō),同樣基礎(chǔ)在于理解,目的在于生成。
目前分成三塊內(nèi)容。一個(gè)是對(duì)圖像的生成;一個(gè)是對(duì)視頻的編輯和生成;還有對(duì)圖形的生成。
對(duì)于阿里來(lái)說(shuō),最典型的應(yīng)用是淘寶正在使用魯班系統(tǒng)。謝宣松提到,“我們?cè)凇p11’,或者在手淘、天貓,上面有大量banner圖片。其中很大部分是由系統(tǒng)自動(dòng)生成。比如說(shuō)光‘雙11’會(huì)產(chǎn)生數(shù)億張圖,累計(jì)起來(lái)更多。目前通過(guò)魯班服務(wù)各種電商場(chǎng)景,后面通過(guò)阿里云服務(wù)各種需求?!?br>
淘寶中很多圖片是機(jī)器自動(dòng)生成的,并非是認(rèn)為PS的。而在智能生成的領(lǐng)域,還支持廣告短視頻自動(dòng)生成。
除去在“設(shè)計(jì)”領(lǐng)域的運(yùn)用之外,阿里巴巴還推出了城市大腦,針對(duì)城市交通路網(wǎng)的識(shí)別,還有行業(yè)大腦對(duì)于特定領(lǐng)域的垂直應(yīng)用。針對(duì)“物”,主要應(yīng)用在流水線物體的檢測(cè)領(lǐng)域,“ 比如鐵路有螺母松動(dòng),或者某個(gè)電池片,太陽(yáng)晶硅這種發(fā)生了裂紋,還有芯片溢膠不正常等等,這些診斷內(nèi)容從視覺(jué)上能看得到,而不用人再去反復(fù)檢查?!?br>
針對(duì)“人”,更多的是應(yīng)用在醫(yī)療領(lǐng)域,針對(duì)X光的膝關(guān)節(jié)檢測(cè)甚至是肺結(jié)核檢測(cè),但挑戰(zhàn)在于,醫(yī)療行業(yè)的數(shù)據(jù)大部分都是異構(gòu)的,達(dá)摩院視覺(jué)智能的目的是建立數(shù)字化人體基準(zhǔn)影像庫(kù)。
極限計(jì)算和量子霸權(quán)
阿里巴巴一位內(nèi)部人士提到,達(dá)摩院的研究分為短、中、長(zhǎng)的研究時(shí)長(zhǎng),人工智能既有短期也有中期,也有長(zhǎng)期的研究方向。量子計(jì)算就算是中長(zhǎng)期的研究方向。
對(duì)于量子計(jì)算來(lái)說(shuō),達(dá)摩院的量子計(jì)算實(shí)驗(yàn)室曝光不多。前者視覺(jué)智能偏向于應(yīng)用層面,視覺(jué)智能如何在阿里巴巴落地等等,而量子計(jì)算則只能從概念和狀態(tài)說(shuō)起……
量子最早來(lái)源于拉丁的Quantus,它的是一個(gè)概念,而非物質(zhì)。本身并不是任何物質(zhì),而是表示在1900年德國(guó)一個(gè)物理學(xué)家普朗克黑體輻射,提出了量子概念。一個(gè)物理量如果存在最小的不可分割的基本單位,則這個(gè)物理量是量子化的,并且把最小單位稱為量子,這是量子的基本概念。它是一個(gè)概念,而不是一個(gè)物質(zhì)。
什么是量子計(jì)算?在知乎上引述@Summer Clover所提到的院士的答案…..比較通俗易懂。
量子比特可以制備兩個(gè)邏輯態(tài)0和1的相干疊加態(tài),換句話講,它可以同時(shí)存儲(chǔ)0和1。一個(gè)N個(gè)物理比特的存儲(chǔ)器,若它是經(jīng)典存儲(chǔ)器,則它只能存儲(chǔ)2^N個(gè)可能數(shù)據(jù)當(dāng)中的某一個(gè);若它是量子存儲(chǔ)器,則它可同時(shí)存儲(chǔ)2^N個(gè)數(shù)據(jù)。而且隨著N的增加,其存儲(chǔ)信息的能力將呈指數(shù)級(jí)上升。由于數(shù)據(jù)操作可以同時(shí)對(duì)存儲(chǔ)器的數(shù)據(jù)進(jìn)行,而量子計(jì)算在實(shí)施一次運(yùn)算的過(guò)程中,則是同時(shí)對(duì)2^N個(gè)輸入數(shù)進(jìn)行測(cè)算,其效果就相當(dāng)于經(jīng)典計(jì)算機(jī)采用2^N個(gè)不同處理器進(jìn)行并行操作。
量子計(jì)算機(jī)的方式,可以解決經(jīng)典計(jì)算機(jī)發(fā)展瓶頸的問(wèn)題。量子算法在算法上加速,可以做量子系統(tǒng)模擬,量子機(jī)器學(xué)習(xí)?!耙话阋粋€(gè)領(lǐng)域有一兩個(gè)應(yīng)用就可以干了,這三個(gè)都有很強(qiáng)的應(yīng)用,這可以說(shuō)是量子計(jì)算發(fā)展核心的驅(qū)動(dòng)力,驅(qū)動(dòng)大家在這個(gè)領(lǐng)域投入,去做這方面?!?br>
量子計(jì)算在加速上有很大應(yīng)用,量子計(jì)算機(jī)對(duì)于模擬原子、分子等遵循量子力學(xué)基本原理的系統(tǒng),加速性能明顯?!瓣P(guān)于藥物研發(fā)、材料性質(zhì)研發(fā),都需要這方面的模擬。經(jīng)典計(jì)算機(jī)沒(méi)有比較好的做,這是量子計(jì)算邏輯非常重要的應(yīng)用。”
量子霸權(quán),則是對(duì)于某個(gè)特定的問(wèn)題量子計(jì)算機(jī)可以解決,但是經(jīng)典計(jì)算機(jī)無(wú)法解決。2016年Google團(tuán)隊(duì)在理論上提出,49個(gè)物理量子比特可以在隨機(jī)量子電路的輸出采樣,這個(gè)特殊問(wèn)題上實(shí)現(xiàn)量子霸權(quán)。2017年10月,IBM在超算上實(shí)現(xiàn)了56量子比特的模擬。
Google今年3月提出72個(gè)量子比特的芯片方案。阿里巴巴則公布了81個(gè)量子比特的模擬,宣布打破了Google宣稱的量子霸權(quán)壟斷。不過(guò)量子霸權(quán),從提出霸權(quán)到打破,“更多是象征意義大于實(shí)際意義,因?yàn)楸旧斫鉀Q不是通路計(jì)算問(wèn)題,主要是特性問(wèn)題解決,認(rèn)為是技術(shù)發(fā)展過(guò)程當(dāng)中一個(gè)個(gè)里程碑?!?br>
量子計(jì)算在阿里巴巴內(nèi)部有什么落地?
此前,阿里巴巴成立了量子計(jì)算實(shí)驗(yàn)室,主要是想通過(guò)顛覆性的量子計(jì)算能力,為客戶提供基于量子計(jì)算的解決方案。據(jù)稱,目前已經(jīng)有“小有規(guī)?!钡膱F(tuán)隊(duì),是一個(gè)跨學(xué)科的國(guó)際化團(tuán)隊(duì),希望是解決量子計(jì)算方面全棧問(wèn)題。阿里巴巴目前沒(méi)有透露進(jìn)一步的詳細(xì)信息。
阿里巴巴目前的介紹也比較偏向于底層,物理實(shí)現(xiàn)層。而在其上面還有一些系統(tǒng)軟件層,有算法層,應(yīng)用層,每個(gè)層上都有很多問(wèn)題。
徐華提到,量子計(jì)算的普及還不太好預(yù)言,但有幾個(gè)領(lǐng)域會(huì)比較受關(guān)注:
一,量子體系的模擬。通過(guò)經(jīng)典計(jì)算機(jī)進(jìn)行量子系統(tǒng)模擬,結(jié)合量子計(jì)算機(jī)本身,一起對(duì)量子體系模擬。阿里巴巴目前已經(jīng)有一些項(xiàng)目在測(cè)試了,現(xiàn)在不方便透露。
二,阿里巴巴集團(tuán)在人工智能優(yōu)化領(lǐng)域有很多布局,業(yè)務(wù)層面有很多應(yīng)用。量子計(jì)算對(duì)于人工智能有很強(qiáng)的加速作用,近期我們可能會(huì)開(kāi)始一些項(xiàng)目的調(diào)研和啟動(dòng)。
徐華認(rèn)為,“當(dāng)前業(yè)界仍是這樣的狀態(tài)——量子計(jì)算非常困難,被定義為極限計(jì)算。利用的是各種極端條件下,極限的物理?xiàng)l件來(lái)實(shí)現(xiàn)?!?br>
針對(duì)非標(biāo)準(zhǔn)漢語(yǔ)語(yǔ)法結(jié)構(gòu)的斗爭(zhēng)
對(duì)于機(jī)器翻譯來(lái)說(shuō),阿里巴巴擁有眾多類似于跨境貿(mào)易的場(chǎng)景。
在淘寶上,常見(jiàn)的場(chǎng)景是一面則是天貓上一件嬰兒衣服,配有中文、圖像,另外一面則是大洋彼岸阿里巴巴國(guó)際網(wǎng)站上同樣的產(chǎn)品,用英文展現(xiàn)的。阿里巴巴產(chǎn)品數(shù)量的特性決定了,在阿里巴巴,眾多商品頁(yè)面、上億個(gè)產(chǎn)品,不可能使用人工翻譯。
機(jī)器翻譯有60年的歷史,它的可用性在最近30年才達(dá)到如今的程度,而在這30年的前25年都是在做統(tǒng)計(jì)機(jī)器翻譯。
統(tǒng)計(jì)機(jī)器翻譯,即通過(guò)大量雙語(yǔ)語(yǔ)料建立一個(gè)統(tǒng)計(jì)模型。比如你看到“中國(guó)”這個(gè)字,英文翻譯就是China,對(duì)于機(jī)器來(lái)說(shuō),“中國(guó)”這個(gè)詞因?yàn)檎Z(yǔ)料庫(kù)的原因它大體是“China”,但“中國(guó)”這個(gè)詞不僅是China,也可以是Chinese,甚至直接分解拆譯成“中-國(guó)”也是有可能的。一個(gè)中文詞有很多英語(yǔ)翻譯,統(tǒng)計(jì)機(jī)器翻譯出發(fā)點(diǎn)就是用大量雙語(yǔ)語(yǔ)料自動(dòng)學(xué)習(xí)翻譯的辭典。
它的優(yōu)點(diǎn),尤其是源語(yǔ)言和目標(biāo)語(yǔ)言比較相像的翻譯過(guò)程中,比如英語(yǔ)、西班牙語(yǔ)、法語(yǔ),效果就非常好。
而最近五年比較火的是神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯。直接說(shuō)在效果上,它是看整個(gè)一個(gè)句子,不是看一個(gè)字,效果會(huì)比較好。所以在語(yǔ)句通順度上會(huì)更好,英文它結(jié)合了一定上下文的意思來(lái)翻譯。而唯一的問(wèn)題是,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯是一個(gè)黑盒子,如果這句話翻譯錯(cuò)了,并不能實(shí)行人工干預(yù),只能通過(guò)繼續(xù)喂養(yǎng)一定的數(shù)據(jù)。
在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯領(lǐng)域,Google算是元老了——不管是新聞、對(duì)話、幽默、電視劇,都是一個(gè)模型翻。微軟,也差不多類似;而Facebook也用這種方法來(lái)翻譯社交網(wǎng)絡(luò)。Amazon不太一樣,使用通用機(jī)器翻譯模型。
談到機(jī)器翻譯在阿里巴巴的應(yīng)用,則是不同場(chǎng)景下,建立不同模型。在傳統(tǒng)統(tǒng)計(jì)機(jī)器翻譯和神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯下,阿里巴巴開(kāi)發(fā)了一套R(shí)BMT規(guī)則式機(jī)器翻譯,采用三種方式翻譯,原因在于淘寶需要對(duì)抗非標(biāo)準(zhǔn)漢語(yǔ)語(yǔ)法結(jié)構(gòu)。
在一張非常傳統(tǒng)的淘寶商品頁(yè)面,常見(jiàn)的標(biāo)題可能是“碎花裙子女士明星最愛(ài)當(dāng)季流行楊冪同款”,而用戶評(píng)論則是正常通順的語(yǔ)言。
在這樣的翻譯需求里,數(shù)字、日期、地址,專有名詞是比較固定的詞語(yǔ),會(huì)使用規(guī)則翻譯。而描述性的、用戶評(píng)論,則會(huì)采取神經(jīng)翻譯的系統(tǒng)。而對(duì)于國(guó)外用戶搜索來(lái)說(shuō),他們不會(huì)去搜索這么冗長(zhǎng)的標(biāo)題,則還需要機(jī)器對(duì)于標(biāo)題的內(nèi)容進(jìn)行理解總結(jié),對(duì)商家冗長(zhǎng)的標(biāo)題進(jìn)行優(yōu)化,進(jìn)行改寫。另外阿里巴巴目前已經(jīng)在結(jié)合淘寶圖片內(nèi)容對(duì)翻譯結(jié)果進(jìn)行合成,標(biāo)題中的“鏡”至少可以翻譯成“mirror”、“l(fā)ens”或“glasses”,但通常情況下,一張產(chǎn)品圖就能解釋一切。
阿里巴巴不止一次提到,全球化是阿里集團(tuán)未來(lái)20年三大核心戰(zhàn)略之一。而讓天下沒(méi)有難做的生意,就演變成要讓大家在語(yǔ)言溝通上零障礙。
阿里巴巴提供的數(shù)據(jù)顯示。以阿里巴巴國(guó)際站為例,七成買家以英語(yǔ)溝通,剩下30%為西班牙語(yǔ)、俄語(yǔ)、土耳其語(yǔ)等小語(yǔ)種,大約96%的賣家對(duì)小語(yǔ)種無(wú)能為力。
目前,阿里巴巴已經(jīng)在做21種語(yǔ)言,48個(gè)語(yǔ)言方向,每一天要調(diào)動(dòng)阿里巴巴機(jī)器翻譯服務(wù)7.5億次,每年翻譯120萬(wàn)億個(gè)詞,不光印歐語(yǔ)系,還包括要翻譯很多小語(yǔ)種語(yǔ)言。葛妮瑜表示,每一個(gè)方向都是很精細(xì)的做,從來(lái)不用搭橋的方式做。
阿里巴巴目前有眾多使用到機(jī)器翻譯的場(chǎng)景,每個(gè)場(chǎng)景的需求都需要被細(xì)致打磨——天貓出海,速賣通,支付寶,優(yōu)酷視頻字幕,以后電視劇機(jī)器都會(huì)自動(dòng)翻譯。目前菜鳥(niǎo)物流通關(guān)、阿里云國(guó)際社區(qū)、飛豬旅行翻譯助手、釘釘社交口語(yǔ)翻譯已經(jīng)上線。
語(yǔ)音識(shí)別,IoT時(shí)代的基礎(chǔ)技術(shù)
相較于前三個(gè)技術(shù)領(lǐng)域,最后介紹的語(yǔ)音技術(shù)可能離我們更近一些。
目前,Google已經(jīng)推出了基于語(yǔ)音識(shí)別的智能音箱,偏智能語(yǔ)言識(shí)別和對(duì)話,微軟小冰也上線了幾年,也是通用語(yǔ)音識(shí)別,Amazon Echo也采用了語(yǔ)音識(shí)別技術(shù),國(guó)內(nèi)百度也有通用語(yǔ)音識(shí)別+輸入法語(yǔ)音。
語(yǔ)音技術(shù)歸納起來(lái)可以從人聽(tīng)到到說(shuō)話的過(guò)程理解。ASR語(yǔ)音識(shí)別,是識(shí)別聽(tīng)到的字和詞;NLP自然語(yǔ)言是理解聽(tīng)到的話的含義;TTS則是語(yǔ)音技術(shù)合成,生成一段語(yǔ)音并傳達(dá)。整個(gè)過(guò)程是從聽(tīng)到、聽(tīng)懂到生成。
語(yǔ)音技術(shù)的好壞的通用度量指標(biāo)是識(shí)別錯(cuò)誤率。在中國(guó)是字的識(shí)別錯(cuò)誤率,英文則是詞的識(shí)別錯(cuò)誤率。據(jù)雷鳴介紹,現(xiàn)在一般識(shí)別錯(cuò)誤率,比如做得比較好的是在一些比較好的領(lǐng)域,可以做到2-3%的錯(cuò)誤率,做得比較差的是7-8%的錯(cuò)誤率。
今天影響語(yǔ)音識(shí)別準(zhǔn)確率的幾個(gè)方面。一個(gè)方面,語(yǔ)音識(shí)別本身模塊組成是分聲學(xué)模型、語(yǔ)言模型、解碼器三個(gè)部分。聲學(xué)模型是給定語(yǔ)言學(xué)單元,計(jì)算輸入語(yǔ)音匹配的可能性。“影響聲學(xué)模型,很典型的就是辭典,今天不斷有新詞,新的發(fā)音進(jìn)來(lái),比如二次元文化。如果辭典不是新的,不能覆蓋所有的目標(biāo)識(shí)別領(lǐng)域,就不能識(shí)別?!?br>
如今的識(shí)別環(huán)境同樣考驗(yàn)硬件——麥克風(fēng)的有效識(shí)別。如果不考慮麥克風(fēng)還有環(huán)境因素,噪音、場(chǎng)地等這些噪音,語(yǔ)音識(shí)別的“雞尾酒效應(yīng)”則是指,在一個(gè)嘈雜環(huán)境下,如何識(shí)別語(yǔ)音主體的問(wèn)題。
除此外,還有特殊領(lǐng)域的專有名詞,中英混讀以及年齡兒童音等?!霸谝恍?huì)議識(shí)別系統(tǒng)中,如果不提前知道會(huì)議要說(shuō)什么,會(huì)識(shí)別的非常亂套。”
據(jù)介紹,阿里巴巴在語(yǔ)音識(shí)別模型方面最特別的是——Google和百度、訊飛基本上是基于LSTM模型技術(shù),阿里巴巴主要基于DFSMN(深度前饋序列記憶網(wǎng)絡(luò))技術(shù)。據(jù)此前媒體公布的消息,對(duì)比目前業(yè)界使用最為廣泛的LSTM模型,訓(xùn)練速度更快、識(shí)別準(zhǔn)確率更高。采用全新DFSMN模型的智能音響或智能家居設(shè)備,相比前代技術(shù)深度學(xué)習(xí)訓(xùn)練速度提到了3倍,語(yǔ)音識(shí)別速度提高了2倍。阿里提供的信息顯示,該模型的語(yǔ)音識(shí)別準(zhǔn)確率為96.04%。
商業(yè)模式方面,Google、百度、訊飛更多直接面向終端用戶。阿里巴巴面更多的是面向合作伙伴。
據(jù)了解,阿里巴巴機(jī)器智能語(yǔ)音技術(shù)團(tuán)隊(duì)主要攻克語(yǔ)音識(shí)別方向,包括語(yǔ)音識(shí)別,語(yǔ)音合成,人機(jī)對(duì)話。智能語(yǔ)音交互團(tuán)隊(duì)主要做語(yǔ)音識(shí)別、語(yǔ)言理解、語(yǔ)音合成、人機(jī)交互、知識(shí)圖譜、聲紋識(shí)別等。
阿里巴巴已經(jīng)有了一些應(yīng)用。阿里巴巴園區(qū)7號(hào)樓的COSTA已經(jīng)有一個(gè)語(yǔ)音點(diǎn)餐機(jī),可以直接說(shuō)出“兩杯熱巧克力”。
阿里巴巴還和上汽做了互聯(lián)網(wǎng)汽車應(yīng)用,具備全語(yǔ)音操控,包括基礎(chǔ)語(yǔ)音能力,車載的地圖/導(dǎo)航技能,也可以在云端不斷升級(jí)和優(yōu)化。
在上海地鐵,已經(jīng)擁有支持語(yǔ)音識(shí)別的售票機(jī),你只需要對(duì)它說(shuō)“買兩張去陸家嘴的票”。
在法庭上,利用語(yǔ)音識(shí)別技術(shù)就可以做書記員基礎(chǔ)的工作,最后讓書記員做一些整理。雷鳴介紹,目前基本覆蓋了300家法院。智能庭審覆蓋的法庭數(shù)超過(guò)6千家,首家互聯(lián)網(wǎng)法院,杭州互聯(lián)網(wǎng)法院已經(jīng)部署了這個(gè)系統(tǒng)。
IoT時(shí)代,雷鳴則提出,多模態(tài)語(yǔ)音交互和下一代對(duì)話引擎,在未來(lái)IoT時(shí)代非常重要的技術(shù)點(diǎn)。
寫在最后
可以看出,此前阿里在各種大會(huì)上提出的AI應(yīng)用,基本上已經(jīng)在實(shí)踐達(dá)摩院的研究能力。
此前,我們也曾詳細(xì)介紹過(guò)阿里云ET農(nóng)業(yè)大腦的“智能養(yǎng)豬”,阿里巴巴工程師就親赴豬場(chǎng)就為每只豬建立了數(shù)字檔案,也是建立在達(dá)摩院的技術(shù)體系之內(nèi)。我們也可以得知,每個(gè)垂直領(lǐng)域的具體案例下會(huì)有很多詳細(xì)的問(wèn)題考究。
達(dá)摩院體系內(nèi)的研究人員大多數(shù)是各個(gè)技術(shù)領(lǐng)域的科學(xué)家,在一些科學(xué)家口中,“阿里達(dá)摩院不同于其他公司的研究機(jī)構(gòu)”,他們跳出學(xué)術(shù)研究的小圈子,希望技術(shù)可以被更多的人的應(yīng)用。達(dá)摩院最主要的工作就是技術(shù)創(chuàng)新,探討和業(yè)務(wù)、商業(yè)的合作的可能性。
實(shí)際上,在達(dá)摩院宣布成立當(dāng)天,馬云發(fā)表演講稱,研究不應(yīng)該是Research for fun(為快樂(lè)研究),也不應(yīng)該Research for profit(為利潤(rùn)研究),而是Research for solving the problem with profit and fun(為解決問(wèn)題研究并帶來(lái)利潤(rùn)和快樂(lè))