阿里妹導(dǎo)讀:近期,2018國(guó)際智能科技峰會(huì)開(kāi)幕式暨主論壇在深圳舉行。本次峰會(huì)邀請(qǐng)了中國(guó)工程院院士高文、院士徐揚(yáng)生、院士丁文華、圖靈獎(jiǎng)獲得者John E.Hopcroft等多位重量嘉賓參會(huì)并做主題演講。
阿里巴巴達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室語(yǔ)音交互首席科學(xué)家鄢志杰受邀在大會(huì)做《IoT時(shí)代語(yǔ)音交互智能》主題發(fā)言,以下為演講全文。
鄢志杰在大會(huì)做主題發(fā)言
今天很高興有這個(gè)機(jī)會(huì)能夠來(lái)介紹一下我們自己的一些工作。為什么在一個(gè)人工智能的場(chǎng)合講IoT,第一深圳是IoT產(chǎn)業(yè)非常活躍的城市;第二,同樣是在深圳,阿里云在深圳的云棲大會(huì)上發(fā)布了新的戰(zhàn)略,阿里巴巴將會(huì)全面進(jìn)軍IoT,IoT將成為阿里繼電商、金融、物流、云計(jì)算之后一條全新的主賽道。前面的像天貓?zhí)詫氝@樣的電商,像螞蟻這樣的金融,還有像菜鳥(niǎo)的物流和阿里云的云計(jì)算對(duì)阿里集團(tuán)是什么地位,那么今天把IoT提到這么高的地位上來(lái)講,顯然是表達(dá)了阿里對(duì)IoT的高度重視。
阿里希望做IoT的基礎(chǔ)設(shè)施,在五年內(nèi),通過(guò)云上的基礎(chǔ)設(shè)施連接100億的設(shè)備。我們的理解有三點(diǎn):計(jì)算是心臟,AI是大腦,IoT是神經(jīng)。為什么這么說(shuō)呢?其實(shí)這也很符合阿里,尤其阿里云一路以來(lái)發(fā)展的脈絡(luò)。阿里云從做計(jì)算、做存儲(chǔ)開(kāi)始,做傳統(tǒng)的云計(jì)算,一直到近些年不斷的去深入做AI技術(shù),不管是我們計(jì)算機(jī)視覺(jué)的技術(shù),語(yǔ)音交互的技術(shù),NLP的技術(shù),還有基礎(chǔ)的機(jī)器學(xué)習(xí)、運(yùn)籌決策等基礎(chǔ)技術(shù),如何使AI技術(shù)通過(guò)IoT神經(jīng)觸達(dá)更多的用戶(hù),產(chǎn)生數(shù)據(jù)及更大的價(jià)值,這就是一路以來(lái)非常清晰的發(fā)展脈絡(luò)。
既然講要連接萬(wàn)物,萬(wàn)物互聯(lián),那首先要解決人跟設(shè)備怎么去連接的問(wèn)題。我作為一個(gè)做語(yǔ)音交互的實(shí)踐者,我覺(jué)得,非常自信地就可以講說(shuō)語(yǔ)音就是人最自然的與IoT交互的方式。原因是什么呢?因?yàn)槿伺c人之間交互也一樣,也是用語(yǔ)音作為最自然的方式。人和機(jī)器,我們也希望能做到這么自然流暢的交互。語(yǔ)音交互是,即使是你在開(kāi)著車(chē),手不方便的時(shí)候,不看屏幕,不用觸摸屏幕上的任何東西,也能夠跟你的車(chē)交互。而且隨著這么多年技術(shù)的發(fā)展,確確實(shí)實(shí)這種交互的體驗(yàn)已經(jīng)從一個(gè)科幻電影——就像《星球大戰(zhàn)》第一集拍出來(lái)的時(shí)候,人能跟機(jī)器人做語(yǔ)音交換完全是科幻電影——但是拍最新的續(xù)集的時(shí)候,到今天,這個(gè)東西已經(jīng)完全成為了一個(gè)大眾科技,跟一個(gè)機(jī)器做語(yǔ)音交互,今天已經(jīng)是完全很容易實(shí)現(xiàn)的一件事情了。
做到這一點(diǎn)背后是技術(shù)的進(jìn)步,得益于我們AI的技術(shù)在近幾年長(zhǎng)足的發(fā)展,不管在感知的層面還是在認(rèn)知的層面。回到這個(gè)當(dāng)中的語(yǔ)音交互,今天已經(jīng)完全的是跨過(guò)了“能用”的這么一個(gè)基礎(chǔ)的門(mén)檻,正在向著“好用”的方向來(lái)發(fā)展,使得這樣的技術(shù)能夠架起一個(gè)人機(jī)交互到個(gè)性化服務(wù)的橋梁。
再具體地說(shuō),請(qǐng)大家看這張圖,右邊的部分就是我們所有的在互聯(lián)網(wǎng)上沉淀的內(nèi)容和服務(wù),就像我剛剛加入阿里之初覺(jué)得也是很贊嘆,我們的集團(tuán)這么多年來(lái)一直在深耕這方面,就像在音樂(lè)里面我們有蝦米音樂(lè),在視頻里面我們有我們的優(yōu)酷土豆,導(dǎo)航有高德的地圖和導(dǎo)航,出行上我們有飛豬,購(gòu)物自然不必講有天貓?zhí)詫殻Ц队兄Ц秾?,更不用說(shuō)了。
當(dāng)我們有了這么多的互聯(lián)網(wǎng)的內(nèi)容和服務(wù)以后,接下來(lái)一個(gè)重要的問(wèn)題就是怎么能夠更多地使得好的內(nèi)容,好的服務(wù)能夠觸達(dá)千千萬(wàn)萬(wàn)的消費(fèi)者。它的觸角就是最左邊的IoT的端,無(wú)論是最傳統(tǒng)的手機(jī)還是像現(xiàn)在的IoT設(shè)備,像智能音箱還有我們的智能電視,智聯(lián)網(wǎng)汽車(chē),以及機(jī)器人等等,我們希望是通過(guò)這些端,把我們?cè)诨ヂ?lián)網(wǎng)上的內(nèi)容和服務(wù)帶給我們的消費(fèi)者。中間的橋梁和媒介就是自然的人機(jī)交互界面,不管是語(yǔ)音的交互,然后計(jì)算機(jī)視覺(jué)的交互,以及這些東西結(jié)合起來(lái)的多模態(tài)交互等等。我們始終就是在拼這張大圖,研發(fā)中間的技術(shù),然后做這么一個(gè)橋梁。
在這張大圖下,天貓精靈的智能音箱,非常漂亮的這么一款音箱,前不久剛發(fā)布了黑色的小音箱。這個(gè)就是阿里集團(tuán)的人工智能實(shí)驗(yàn)室的作品。去年雙11的時(shí)候,也是一天之內(nèi)賣(mài)了一百萬(wàn)臺(tái),到今天一共賣(mài)了累計(jì)200萬(wàn)臺(tái)的銷(xiāo)量,通過(guò)這個(gè)端觸達(dá)到我們的用戶(hù)。
智聯(lián)網(wǎng)汽車(chē),阿里跟國(guó)內(nèi)的汽車(chē)制造領(lǐng)域的龍頭上汽集團(tuán),一起去投資成立了斑馬網(wǎng)絡(luò),做汽車(chē)?yán)锩娴闹锹?lián)網(wǎng)。其中除了地圖以外,很重要的是讓你在開(kāi)車(chē)手握方向盤(pán)不方便的時(shí)候,還能跟你的車(chē)做直接的語(yǔ)音交互。現(xiàn)在走進(jìn)4S店,同樣的SUV,同樣的價(jià)位,它的發(fā)動(dòng)機(jī)和變速箱各種參數(shù)都是差不多的,但是當(dāng)你今天走進(jìn)榮威的4S店,4S店的銷(xiāo)售一定會(huì)請(qǐng)你坐上這臺(tái)車(chē),然后展示斑馬系統(tǒng),然后對(duì)它用語(yǔ)音說(shuō)我要看星星,突然之間所有的天窗都會(huì)打開(kāi),體現(xiàn)出這樣的智能。
除了這些以外,導(dǎo)航、點(diǎn)歌、聽(tīng)歌,甚至我們發(fā)現(xiàn)真正的用戶(hù),很喜歡在車(chē)?yán)镞呴_(kāi)車(chē)的時(shí)候邊玩語(yǔ)音的游戲,其中成語(yǔ)接龍的游戲就是一個(gè)例子,有些司機(jī)和旁邊的副駕一路上就在玩這個(gè)東西。我們給一個(gè)曾經(jīng)非常同質(zhì)化的、一個(gè)最大的IoT——汽車(chē),帶來(lái)了智能的好玩的這些體驗(yàn)。同樣的在上汽這個(gè)汽車(chē)推出以后,越來(lái)越多的汽車(chē)產(chǎn)業(yè)里面的大企業(yè)們相繼加入了這張大圖,包括現(xiàn)在已經(jīng)公布的標(biāo)致、雪鐵龍跟福特這樣的汽車(chē)制造商。
在這張大圖底下,阿里自己推出了自己的OTT電視盒子,這個(gè)叫天貓魔盒,像剛才講的,既然講互聯(lián)網(wǎng)內(nèi)容和服務(wù),天貓大文娛有優(yōu)酷這么好的內(nèi)容,所以需要一個(gè)端能夠觸達(dá)消費(fèi)者,其中一個(gè)端就是魔盒。魔盒它是一個(gè)可以用語(yǔ)音跟盒子進(jìn)行交互的IoT終端。因?yàn)楝F(xiàn)在大家知道在家里看電視的老人小孩很多,怎么能夠在這種場(chǎng)景下幫助他們來(lái)尋找他們想看的東西,這個(gè)語(yǔ)音當(dāng)然是很自然的、很便捷的手段。
除了自己做魔盒以外,阿里也跟行業(yè)里做電視的龍頭一起成立合資公司,一起把我們的內(nèi)容、服務(wù),我們的語(yǔ)音技術(shù)打包,把剛才的盒子裝到電視機(jī)里面去。就像我們看到的海爾的人工智能電視。從前一代的搖控器的方式到剛剛在上海家博會(huì)發(fā)布的下一代的海爾-阿里的第五代人工智能電視,通過(guò)遠(yuǎn)距離的遠(yuǎn)場(chǎng)語(yǔ)音交互,免喚醒的方式,還融合識(shí)別聲紋,來(lái)識(shí)別年齡,過(guò)濾對(duì)小孩子的不良內(nèi)容等等這些技術(shù),我們逐步地在家庭娛樂(lè)的環(huán)境里應(yīng)用智能語(yǔ)音交互。
不僅限于此,語(yǔ)音交互智能還逐漸地也在向公共服務(wù)領(lǐng)域在發(fā)展。在去年底的時(shí)候,馬老師和上海地鐵的董事長(zhǎng)一起參觀了語(yǔ)音售票的概念機(jī)。通常在地鐵站里面用售票機(jī)的就是外地的游客、出差的人士,他們對(duì)上海不熟,只知道自己要去哪,不知道要坐哪一條線、在哪一站換乘、在哪一站下。通常在原來(lái)就得通過(guò)高德,比如說(shuō)把路線先查好,再去買(mǎi)票。有了這個(gè)語(yǔ)音售票機(jī)以后,后面對(duì)接的就是互聯(lián)網(wǎng)的數(shù)據(jù),高德的數(shù)據(jù),你只要對(duì)著售票機(jī)說(shuō)出你想要去的地方,所有的路徑規(guī)劃、怎么換乘、哪站下、需要多長(zhǎng)時(shí)間、需要多少錢(qián)買(mǎi)到這張票,一目了然,然后通過(guò)支付寶的方式,就可以實(shí)現(xiàn)整個(gè)的購(gòu)票的過(guò)程。
但說(shuō)起來(lái)這個(gè)體驗(yàn)好像很簡(jiǎn)單,本來(lái)就應(yīng)該是這樣的,但是在技術(shù)上同樣需要解決在地鐵站那么嘈雜的公共場(chǎng)合下怎么能夠解決一個(gè)遠(yuǎn)距離的語(yǔ)音交互,而且要保持高精度的問(wèn)題。我們做了像大屏上面綠色的條狀的東西,就是一個(gè)很大的麥克風(fēng)陣列。中間這個(gè)黑色的東西就是一個(gè)光學(xué)的攝像頭。其實(shí)是做了一個(gè)多模態(tài)的語(yǔ)音交互的這么一個(gè)技術(shù),使得在特別嘈雜的環(huán)境下,還能夠在一定距離以外跟機(jī)器做一個(gè)遠(yuǎn)距離的隔空的語(yǔ)音的交互。相信不久的將來(lái)這種公共場(chǎng)所的服務(wù)機(jī)器,尤其做這樣的交互的一個(gè)服務(wù)機(jī)器會(huì)越來(lái)越多的出現(xiàn)在我們的生活當(dāng)中。
阿里云很?chē)?yán)肅地在布局技術(shù)問(wèn)題,雖然阿里是一家在商業(yè)上非常成功的公司,但同時(shí)我們希望在技術(shù)上去自主掌握在交互這個(gè)鏈條上的核心技術(shù),并且能夠隨著產(chǎn)品的創(chuàng)新持續(xù)地去迭代、去進(jìn)步。其中一個(gè)例子就是說(shuō),我們從這個(gè)麥克風(fēng)本身的硬件,這種傳感器的硬件技術(shù)出發(fā),到麥克風(fēng)組合起來(lái)設(shè)計(jì)為一個(gè)麥克風(fēng)陣列,到陣列的信號(hào)處理,全鏈路地從最源頭開(kāi)始就找世界頂尖的專(zhuān)家來(lái)做這樣的技術(shù)。
例如說(shuō)在聲學(xué)設(shè)計(jì)方面,大家可能看到過(guò)報(bào)道,我們就是從做電話(huà)通訊的企業(yè)去尋找了這樣的專(zhuān)家,來(lái)和我們做語(yǔ)音技術(shù)的人坐到一起,去打造全鏈路的最好的交互的體驗(yàn)。同時(shí)在大家更熟知的語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋這類(lèi)技術(shù)更不用說(shuō)了。我們還在阿里云上打造云+端的、工業(yè)級(jí)的語(yǔ)音的交互系統(tǒng),跟它相應(yīng)的定制平臺(tái),使得我們可以以這套平臺(tái)性的東西去很快地適配到一個(gè)具體的應(yīng)用的領(lǐng)域。
但我們不是做那種完全高高在上的研究,怎么能把這些好的研究作為一個(gè)可以落地的產(chǎn)品,真正產(chǎn)生它的價(jià)值,也是我們特別努力去思考的。在阿里,一個(gè)團(tuán)隊(duì)中常常會(huì)出現(xiàn)說(shuō)既有偏向于研究的人,又有偏向于落地的人,又有偏向于工程人。當(dāng)這些人放到一個(gè)團(tuán)隊(duì)一起做這件事情的時(shí)候,它產(chǎn)生的這個(gè)化學(xué)反應(yīng)跟它的產(chǎn)品的厚度就會(huì)不一樣的。
剛才能感受到就是我們從傳感器,一直到人工智能芯片方面都開(kāi)始做自有的研發(fā),無(wú)論是通過(guò)自研或并購(gòu)的方式,而且阿里是很?chē)?yán)肅的在做一個(gè)端上的操作系統(tǒng)叫AliOS,我一直把它評(píng)價(jià)為是中國(guó)最嚴(yán)肅的移動(dòng)操作系統(tǒng)。還有像剛才上汽跟海爾的例子,就是說(shuō)怎么能跟行業(yè)里的那些龍頭的合作伙伴一起去開(kāi)拓IoT。就像剛才講的,我們已經(jīng)有比較強(qiáng)的云端的布局了,怎么能通過(guò)這些基礎(chǔ)設(shè)施能夠打通,能夠最后成為商業(yè)上成功的一個(gè)產(chǎn)品,這些方面的市場(chǎng)上面的商業(yè)上的布局,想的會(huì)比較多。最后當(dāng)你做一個(gè)具體的產(chǎn)品的時(shí)候,你仍然要考慮一些非技術(shù)之外的因素,像市場(chǎng)的容量,本身的成本,一直到它的定價(jià)等等,當(dāng)你有全鏈路的能力之后,有這種機(jī)會(huì)去打磨這些東西,使得達(dá)到一個(gè)效益最大化。
當(dāng)前IoT的融入生活也總是遇到這樣那樣的一些爭(zhēng)論。例如說(shuō)我舉個(gè)例子,在家居環(huán)境下,很多爭(zhēng)論說(shuō)我們到底應(yīng)該有一個(gè)中心化的智能設(shè)備還是一個(gè)去中心化的、分布式的智能終端?或者說(shuō)我們應(yīng)該在現(xiàn)階段就特別明確地強(qiáng)調(diào)它是互聯(lián)網(wǎng)的新入口,還是先從滿(mǎn)足大家的指令控制、任務(wù)完成型的這種體驗(yàn)入手。或者說(shuō)做一家商業(yè)公司,我們是應(yīng)該自己做硬件還是采取這種平臺(tái)型的方式,去跟硬件的龍頭企業(yè)一起合作做這件事情等。
有一些事情阿里是一定會(huì)著力去做的,其實(shí)就像是技術(shù)本身,剛才講到的所有這些技術(shù)的模塊,我們都希望把它做精做深,然后通過(guò)某種方式把技術(shù)共享出來(lái),讓全社會(huì)可以使用。在IoT的領(lǐng)域,阿里去做低成本、易復(fù)制的IoT的智能化的整體的方案。包括硬件模組和軟件。然后當(dāng)你用上這個(gè)模塊,接入你的設(shè)備以后,很容易就能享有剛才我們講到的互聯(lián)網(wǎng)上的那么多的服務(wù)的內(nèi)容,然后統(tǒng)統(tǒng)通過(guò)自然交互的模式作為橋梁和紐帶。
我們會(huì)去打造一些自己標(biāo)桿的硬件,但是這個(gè)是手段,真正目的還是為社會(huì)建造基礎(chǔ)開(kāi)放的平臺(tái),使各種各樣的設(shè)備能夠很容易接入這個(gè)平臺(tái),達(dá)到五年100億端的目標(biāo)和愿景。
好的,今天我的分享就到這里,謝謝大家!
新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟(AITISA,簡(jiǎn)稱(chēng)聯(lián)盟),聯(lián)盟在中國(guó)科技部指導(dǎo)下,聯(lián)同科技巨頭、知名學(xué)府及創(chuàng)業(yè)公司發(fā)起成立。聯(lián)盟由潘云鶴院士擔(dān)任名譽(yù)理事長(zhǎng)和專(zhuān)家委員會(huì)主任,高文院士任聯(lián)盟理事長(zhǎng),北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系主任黃鐵軍教授擔(dān)任秘書(shū)長(zhǎng)。
中國(guó)科學(xué)院李未院士、中國(guó)工程院柴天佑院士、金東寒院士、李伯虎院士、劉玠院士、吳澄院士、鄭南寧院士為聯(lián)盟專(zhuān)家委員會(huì)副主任。
阿里巴巴是該聯(lián)盟的副理事單位,阿里達(dá)摩院機(jī)器智能實(shí)驗(yàn)室副主任華先勝為組織副理事。
聯(lián)系客服