騰訊AI Lab,如何回答2018?
最近,這個(gè)巨頭內(nèi)部以AI為核心的實(shí)驗(yàn)室,對(duì)全年重點(diǎn)工作和進(jìn)展進(jìn)行了回顧。
或許從這些進(jìn)展中,不僅能窺見騰訊對(duì)前沿AI方向的探索,還能感受到AI行業(yè)正在面臨的最新挑戰(zhàn)。
于是我們轉(zhuǎn)載騰訊AI Lab 2018年度回顧全文,希望對(duì)你能有啟發(fā)。
AI+公益
我們?cè)?2018 年完成了一些很有意義的項(xiàng)目,如“圖片語(yǔ)音即時(shí)描述”技術(shù),讓機(jī)器充分理解圖像內(nèi)容后,將其“翻譯”成語(yǔ)句,讓視障者使用QQ空間時(shí),能聽到對(duì)圖片的描述,實(shí)時(shí)了解朋友動(dòng)態(tài)。
通過提供這一系列信息無(wú)障礙技術(shù),騰訊今年獲得了聯(lián)合國(guó)教科文組織頒發(fā)的“數(shù)字技術(shù)增強(qiáng)殘疾人權(quán)能獎(jiǎng)”。
AI+醫(yī)療
第二個(gè)例子是顯微鏡的進(jìn)化,我們?cè)谶@種古老而重要的醫(yī)療器械中加入了AI與AR技術(shù),讓機(jī)器自動(dòng)識(shí)別、檢測(cè)、定量計(jì)算和生成報(bào)告,并將檢測(cè)結(jié)果實(shí)時(shí)顯示到醫(yī)生所看目鏡中,在不打斷醫(yī)生閱片的同時(shí)及時(shí)提醒,提高醫(yī)生的診斷效率和準(zhǔn)確度。
今年我們還會(huì)繼續(xù)通過“騰訊覓影”產(chǎn)品深入探索AI+醫(yī)療的應(yīng)用,目前圖像處理技術(shù)已用在食管癌、肺癌、糖尿病性視網(wǎng)膜病變等疾病的早期篩查上,語(yǔ)言和語(yǔ)音處理技術(shù)也用于智能導(dǎo)診和輔診上。
AI+農(nóng)業(yè)
我們還在“AI+農(nóng)業(yè)”邁出了一小步——一個(gè)很會(huì)“種”黃瓜的AI。
在荷蘭舉辦的國(guó)際AI溫室種植大賽里,我們利用傳感器和攝像頭自動(dòng)收集溫室氣候、作物發(fā)育情況等環(huán)境和作物數(shù)據(jù),再用深度學(xué)習(xí)模型計(jì)算、判斷和決策,驅(qū)動(dòng)溫室的設(shè)備元件,遠(yuǎn)程控制黃瓜生產(chǎn),最后獲總比分第二、AI策略第一的成績(jī),還開心收獲了3496公斤黃瓜。
AI+視頻
在騰訊視頻中,我們提供了超分辨率和視頻分類的技術(shù)。此外,我們還探索了對(duì)視頻內(nèi)容的深度理解、編輯與生成。
比如,讓機(jī)器深度分析一個(gè)視頻,識(shí)別其中人物、物體、場(chǎng)景,并分析它們的關(guān)系,并在時(shí)間順序識(shí)別視頻中不同的動(dòng)作和事件,產(chǎn)生能表達(dá)出視頻豐富語(yǔ)義信息的語(yǔ)句。
而在視頻生成上,我們研究的視頻運(yùn)動(dòng)信息遷移技術(shù),在給到幾張人物A的靜止圖片后,能讓A模仿人物B的舞蹈動(dòng)作,從靜止到“動(dòng)”起來(lái)。
下一代的智能交互:3D虛擬人
我們通過多個(gè)部門的共同研究,合作推進(jìn)了“多模態(tài)人機(jī)交互”這一前沿課題。
我們將計(jì)算機(jī)視覺、自然語(yǔ)言處理、語(yǔ)音技術(shù)有機(jī)結(jié)合在一起,輔以一定的情緒認(rèn)知、分析決策能力,賦予虛擬人看、聽、想、說的多模態(tài)輸入和輸出能力,以實(shí)現(xiàn)更自然、逼真、風(fēng)格鮮明、千人千面的人機(jī)交互體驗(yàn)。我們已經(jīng)實(shí)現(xiàn)了整套技術(shù)方案的打通,并有望探索新的產(chǎn)品形式。
游戲AI → AGI
游戲是 AI 研究的傳統(tǒng)實(shí)驗(yàn)場(chǎng),從2016年研發(fā)圍棋AI“絕藝”起,我們不斷利用這塊實(shí)驗(yàn)沃土,探索邁向通用人工智能的道路。2018 年,我們收獲頗豐,而此類探索還將繼續(xù)下去。
我們與王者榮耀及王者榮耀職業(yè)聯(lián)賽共同探索的前沿研究項(xiàng)目——策略協(xié)作型AI“絕悟”——首次亮相KPL決賽,與人類戰(zhàn)隊(duì)(超過99%玩家)進(jìn)行5V5水平測(cè)試并取得勝利。
我們使用了監(jiān)督學(xué)習(xí)方法,模擬人類決策方法的算法模型兼具了大局觀與微操能力,并在此基礎(chǔ)上研發(fā)多個(gè)有針對(duì)性的強(qiáng)化學(xué)習(xí)訓(xùn)練模型,有效提升了AI團(tuán)隊(duì)協(xié)作能力。
此外,我們的深度強(qiáng)化學(xué)習(xí)智能體還在《星際爭(zhēng)霸 II》戰(zhàn)勝了Level-10內(nèi)置 AI,還與清華大學(xué)合作拿下了FPS射擊類游戲AI競(jìng)賽VizDoom賽事歷史上首個(gè)中國(guó)區(qū)冠軍。
機(jī)器人:打通虛擬和現(xiàn)實(shí)
我們還成立了企業(yè)級(jí)機(jī)器人實(shí)驗(yàn)室“騰訊Robotics X”,構(gòu)建AI+機(jī)器人雙基礎(chǔ)部門,打造虛擬世界到真實(shí)世界的載體與連接器。
比如,我們從0到1實(shí)現(xiàn)了機(jī)械手從虛擬到現(xiàn)實(shí)的遷移,通過搭建滿足各種物理屬性的高逼真模擬器,支持多種強(qiáng)化學(xué)習(xí)算法,并能和機(jī)械臂和靈巧手的實(shí)體硬件接口兼容,通過新提出的DHER算法訓(xùn)練抓取、搭積木、端茶倒水等虛擬任務(wù)。
我們還將其成功遷移到了現(xiàn)實(shí)世界中。
另外,在新建成的騰訊深圳總部展廳里,我們還完成了“絕藝”圍棋機(jī)器人、桌上冰球和與浙江大學(xué)合作的機(jī)械狗等展示項(xiàng)目,體現(xiàn)了機(jī)器人的本體、控制、感知、決策方面的能力。
除了發(fā)表論文公開研究成果,我們也通過代碼和數(shù)據(jù)開源將騰訊積累的技術(shù)能力(尤其是 AI 能力)共享給整個(gè)行業(yè),并希望以此促進(jìn)行業(yè)生態(tài)的共同發(fā)展和繁榮。
2018 年 10 月,我們開源了業(yè)內(nèi)最大規(guī)模的多標(biāo)簽圖像數(shù)據(jù)集Tencent ML-Images,其中包含了 1800 萬(wàn)圖像和11000種常見物體類別。
此外我們還提供了從圖像下載和圖像預(yù)處理,到基于ML-Images的預(yù)訓(xùn)練和基于ImageNet的遷移學(xué)習(xí),再到基于訓(xùn)練所得模型的圖像特征提取整個(gè)流程的代碼和模型。
截至目前已在 GitHub 獲 2000 星和 2000+ 次下載。
我們還在 10 月份開源了一個(gè)大規(guī)模、高質(zhì)量的中文詞向量數(shù)據(jù)集,其中包含 800 多萬(wàn)中文詞匯,在覆蓋率、新鮮度及準(zhǔn)確性上都優(yōu)于之前的數(shù)據(jù)集。
11 月,我們開源了一個(gè)自動(dòng)化深度學(xué)習(xí)模型壓縮與加速框架 PocketFlow,其中整合了多種模型壓縮與加速算法,并能利用強(qiáng)化學(xué)習(xí)自動(dòng)搜索合適的壓縮參數(shù)。我們希望該框架能降低模型壓縮的技術(shù)門檻,賦能移動(dòng)端 AI 應(yīng)用開發(fā)。
在高校合作方面,我們與麻省理工、牛津、斯坦福、港科大、清華和哈工大等全球知名高校的教授聯(lián)合研究,并通過專項(xiàng)研究計(jì)劃、訪問學(xué)者計(jì)劃、青年學(xué)者基金、聯(lián)合實(shí)驗(yàn)室等多種方式,共探學(xué)術(shù)前沿領(lǐng)域,并迅速將研究應(yīng)用到騰訊云、騰訊開放平臺(tái)等多個(gè)業(yè)務(wù)中。
我們基礎(chǔ)研究方向主要為四個(gè):機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、語(yǔ)音處理和自然語(yǔ)言處理。
2018 年,我們有超過150 篇學(xué)術(shù)論文發(fā)表在各大頂級(jí)學(xué)術(shù)會(huì)議上,如NeurIPS、ICML、CVPR、ECCV、ACL、EMNLP、InterSpeech 和 ICASSP 等,位居國(guó)內(nèi)企業(yè)前列。
未來(lái),我們將繼續(xù)關(guān)注前沿領(lǐng)域的研究課題,推進(jìn)跨學(xué)科、多模態(tài)、交叉研究課題探索,以開放、合作和共贏的態(tài)度,不斷探索研究的邊界。
學(xué)習(xí)能力,是區(qū)分智能機(jī)器和普通自動(dòng)化機(jī)器的核心技能之一,也是邁向通用人工智能(AGI)的必備技能。
我們的研究涵蓋了強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、模仿學(xué)習(xí)、優(yōu)化算法、弱監(jiān)督和半監(jiān)督學(xué)習(xí)、對(duì)抗學(xué)習(xí)和多任務(wù)學(xué)習(xí)等。
我們探索了自動(dòng)化機(jī)器學(xué)習(xí)(AutoML)的可能性,這是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的前沿探索方向之一。
比如,我們提出了一種基于數(shù)據(jù)分布遷移的超參優(yōu)化算法[1]。該方法利用分布相似度來(lái)遷移不同數(shù)據(jù)對(duì)應(yīng)的超參優(yōu)化結(jié)果,從而能對(duì)新數(shù)據(jù)的超參優(yōu)化起到熱啟動(dòng)的效果。
我們還進(jìn)一步研發(fā)了FastBO算法,并發(fā)現(xiàn)其在醫(yī)療和游戲等多個(gè)場(chǎng)景上有比人工調(diào)參更好的效果。
針對(duì)多任務(wù)問題,我們提出了一種學(xué)習(xí)框架 L2MT[2] ,能自動(dòng)發(fā)掘一個(gè)最優(yōu)的多任務(wù)學(xué)習(xí)模型;我們還提出了一種用學(xué)習(xí)遷移實(shí)現(xiàn)遷移學(xué)習(xí)的方法 L2T[3],能顯著降低遷移學(xué)習(xí)的計(jì)算成本和所需的領(lǐng)域知識(shí)。
我們也為強(qiáng)化學(xué)習(xí)提出了一些改進(jìn)方法,比如提出一種描述如何從環(huán)境和任務(wù)來(lái)組成強(qiáng)化學(xué)習(xí)策略的元規(guī)則部件神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了自適應(yīng)于不同環(huán)境、不同任務(wù)的合成策略[4]。
我們還嘗試用演示來(lái)提升強(qiáng)化學(xué)習(xí)的探索效果(POfD)[5]及使用聯(lián)網(wǎng)智能體的完全去中心化多智能體強(qiáng)化學(xué)習(xí)[6]。
在計(jì)算機(jī)安全和社會(huì)安全上,我們研發(fā)的自動(dòng)特征學(xué)習(xí)、群分類和圖特征增強(qiáng)方面的算法,能成功識(shí)別和對(duì)抗黑產(chǎn)用戶、涉黑群體和惡意用戶(標(biāo)記覆蓋率超90%),還能精準(zhǔn)識(shí)別有信貸風(fēng)險(xiǎn)的用戶,幫助防控金融風(fēng)險(xiǎn)。
計(jì)算機(jī)視覺技術(shù)有非常廣泛的應(yīng)用前景,是智能醫(yī)療、自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)、移動(dòng)機(jī)器人等重要應(yīng)用的不可或缺的一部分。
我們不斷尋找賦予機(jī)器更強(qiáng)大視覺能力的方法,以實(shí)時(shí)、穩(wěn)健和準(zhǔn)確地理解世界。
2018 年,我們的探索包括結(jié)合相機(jī)與其它傳感器數(shù)據(jù)實(shí)現(xiàn) 3D 實(shí)時(shí)定位[1]、結(jié)合傳統(tǒng)時(shí)空建模方法(MRF)與深度學(xué)習(xí)方法(CNN)來(lái)跟蹤和分割視頻中的物體[2],及一些在視頻描述生成任務(wù)上的新方法[3]。
我們還定義了一種名為視頻重定位(Video re-localization)[4]的新任務(wù),可在某段長(zhǎng)視頻中查找與指定視頻語(yǔ)義相關(guān)片段。我們也為視頻中的運(yùn)動(dòng)表征提出了一種端到端的神經(jīng)網(wǎng)絡(luò)TVNet[5]。
除了幫助機(jī)器理解世界,我們也在探索視頻生成方面的技術(shù),比如我們提出了一種自動(dòng)生成延時(shí)攝影視頻的解決方案[6],可以通過預(yù)測(cè)后續(xù)的圖像幀來(lái)呈現(xiàn)可能發(fā)生的動(dòng)態(tài)變化。我們也探索了多階段動(dòng)態(tài)生成對(duì)抗網(wǎng)絡(luò)(MD-GAN)[7]在這一任務(wù)上的應(yīng)用。
我們的語(yǔ)音解決方案已經(jīng)在騰訊的聽聽音箱、極光電視盒子和叮當(dāng)音箱等產(chǎn)品中得到應(yīng)用。
2018 年,我們又提出了一些新的方法和改進(jìn),在語(yǔ)音增強(qiáng)、語(yǔ)音分離、語(yǔ)音識(shí)別、語(yǔ)音合成等技術(shù)方向都取得了一定進(jìn)展。
語(yǔ)音喚醒上,我們針對(duì)誤喚醒、噪聲環(huán)境中喚醒、快語(yǔ)速喚醒和兒童喚醒等問題,提出了一種新的語(yǔ)音喚醒模型[1],能顯著提升關(guān)鍵詞檢測(cè)質(zhì)量,在有噪聲環(huán)境下表現(xiàn)突出,還能顯著降低前端和關(guān)鍵詞檢測(cè)模塊的功耗需求。
我們還提出了一種基于 Inception-ResNet 的聲紋識(shí)別系統(tǒng)框架[2],可學(xué)習(xí)更加魯棒且更具有區(qū)分性的嵌入特征。
語(yǔ)音識(shí)別上,我們的解決方案是結(jié)合了說話人特征的個(gè)性化識(shí)別模型,能為每位用戶提取并保存?zhèn)€性化聲學(xué)信息特征。隨用戶數(shù)據(jù)積累,個(gè)性化特征自動(dòng)更新,用戶識(shí)別準(zhǔn)確率能顯著提升。
另外,我們還創(chuàng)新地提出了多類單元集合融合建模方案,這是一種實(shí)現(xiàn)了不同程度單元共享、參數(shù)共享、多任務(wù)的中英混合建模方案。這種方案能在基本不影響漢語(yǔ)識(shí)別準(zhǔn)確度的情況下提升英語(yǔ)的識(shí)別水平。我們?nèi)栽谠肼暛h(huán)境、多說話人場(chǎng)景[3]、“雞尾酒會(huì)問題”[4]、多語(yǔ)言混雜等方面繼續(xù)探索。
語(yǔ)音合成是確保機(jī)器與人類自然溝通的重要技術(shù)。騰訊在語(yǔ)音合成方面有深厚的技術(shù)積累,開發(fā)了可實(shí)現(xiàn)端到端合成和重音語(yǔ)調(diào)合成的新技術(shù)。騰訊AI Lab 2018 年在語(yǔ)調(diào)韻律變化[5]、說話風(fēng)格遷移[6]等任務(wù)上取得了一些新進(jìn)展。
騰訊 AI Lab 在自然語(yǔ)言處理方面有廣泛而又有針對(duì)性的研究,涉及文本理解、文本生成、人機(jī)對(duì)話、機(jī)器翻譯等多個(gè)方向。
我們訓(xùn)練的模型在多個(gè)閱讀理解類數(shù)據(jù)集上位居前列,如CMU大學(xué)的RACE、ARC (Easy/Challenge)及OpenBookQA等。
在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯方面,我們通過改進(jìn)當(dāng)前主流翻譯模型中的多層多頭自注意力機(jī)制[1]和提出基于忠實(shí)度的訓(xùn)練框架[2],改善其核心的譯文忠實(shí)度低的問題。
我們還針對(duì)口語(yǔ)翻譯中代詞缺省的問題提出了一種聯(lián)合學(xué)習(xí)方法[3],以及探索如何將外部的翻譯記憶融入神經(jīng)網(wǎng)絡(luò)翻譯模型[4]。
我們還發(fā)布了一款A(yù)I輔助翻譯產(chǎn)品TranSmart[5],向人工翻譯致敬。它采用業(yè)內(nèi)領(lǐng)先的人機(jī)交互式機(jī)器翻譯和輔助翻譯輸入法技術(shù),配合億級(jí)雙語(yǔ)平行數(shù)據(jù),為用戶提供實(shí)時(shí)智能翻譯輔助,幫助用戶更好更快地完成翻譯任務(wù)。作為筆譯工具的未來(lái)形態(tài),目前這個(gè)產(chǎn)品已經(jīng)進(jìn)入了很多高校翻譯課堂。
我們研究了文本和對(duì)話生成,提了出一種基于強(qiáng)化學(xué)習(xí)框架的回復(fù)生成模型[6],對(duì)于同一個(gè)輸入能夠自動(dòng)生成多個(gè)不同的回復(fù);一種跨語(yǔ)言神經(jīng)網(wǎng)絡(luò)置信跟蹤框架XL-NBT[7]在實(shí)現(xiàn)跨語(yǔ)種對(duì)話系統(tǒng)方面有重要的實(shí)際應(yīng)用潛力(比如多語(yǔ)種自動(dòng)客服)。
此外,我們還為自動(dòng)回復(fù)的多樣性對(duì)條件變分自編碼機(jī)進(jìn)行了改進(jìn)[8]。
值得一提的是我們將中國(guó)古典文化與現(xiàn)代技術(shù)的結(jié)合方面的探索。我們?cè)?2018 年春節(jié)期間推出了騰訊 AI 春聯(lián),可根據(jù)用戶提供的兩個(gè)漢字生成一副春聯(lián)。
我們還探索了創(chuàng)造機(jī)器詩(shī)人的問題,提出一種基于對(duì)抗條件變分自編碼器的詩(shī)歌生成方法(CVAE-D)[9],在主旨一致性和用詞的新穎性上取得了不錯(cuò)的進(jìn)展。
近三年時(shí)間里,騰訊AI Lab相繼成立了深圳及美國(guó)西雅圖實(shí)驗(yàn)室,目前團(tuán)隊(duì)有70多名頂尖AI科學(xué)家及300多位經(jīng)驗(yàn)豐富的工程師,專注四大研究方向。
產(chǎn)業(yè)落地上,AI Lab將與新成立的“騰訊Robotics X”機(jī)器人實(shí)驗(yàn)室擔(dān)當(dāng)前沿技術(shù)雙基礎(chǔ)部門,深耕產(chǎn)業(yè),擁抱消費(fèi)及產(chǎn)業(yè)互聯(lián)網(wǎng),做好技術(shù)標(biāo)配。
機(jī)器學(xué)習(xí)
[1] 基于數(shù)據(jù)分布遷移的超參優(yōu)化算法
https://arxiv.org/pdf/1810.06305.pdf
[2] 學(xué)習(xí)框架L2MT
https://arxiv.org/abs/1805.07541
[3] 用學(xué)習(xí)遷移實(shí)現(xiàn)遷移學(xué)習(xí)的方法 L2T
https://ai.tencent.com/ailab/media/publications/icml/148_Transfer_Learning_via_Learning_to_Transfer.pdf
[4] 自適應(yīng)于不同環(huán)境、不同任務(wù)的合成策略
https://papers.nips.cc/paper/7393-synthesize-policies-for-transfer-and-adaptation-across-tasks-and-environments
[5] POfD
https://ai.tencent.com/ailab/media/publications/icml/152_Policy_Optimization_with_Demonstrations.pdf
[6] 完全去中心化多智能體強(qiáng)化學(xué)習(xí)
https://arxiv.org/abs/1802.08757
計(jì)算機(jī)視覺
[1] 3D 實(shí)時(shí)定位
https://arxiv.org/abs/1810.05456
[2] 跟蹤和分割視頻中的物體
https://arxiv.org/abs/1803.09453
[3] 視頻描述生成任務(wù)新方法
https://arxiv.org/abs/1803.11438
[4] 視頻重定位
https://arxiv.org/abs/1808.01575
[5] TVNet
https://arxiv.org/abs/1804.00413
[6] 自動(dòng)生成延時(shí)攝影視頻
https://arxiv.org/abs/1709.07592
[7] 多階段動(dòng)態(tài)生成對(duì)抗網(wǎng)絡(luò)(MD-GAN)
https://arxiv.org/abs/1709.07592
語(yǔ)音處理
[1] 語(yǔ)音喚醒模型
https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1668.pdf
[2] 基于 Inception-ResNet 的聲紋識(shí)別系統(tǒng)框架
https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1769.pdf
[3] 多說話人場(chǎng)景
https://ai.tencent.com/ailab/media/publications/MonauralMulti-TalkerSpeechRecognitionwithAttentionMechanismand_GatedConvolutionalNetworks._pdf.pdf
[4] 雞尾酒會(huì)問題
https://link.springer.com/article/10.1631/FITEE.1700814
[5] 語(yǔ)調(diào)韻律變化
https://ai.tencent.com/ailab/media/publications/icassp/FEATURE_BASED_ADAPTATION_FOR_SPEAKING_STYLE_SYNTHESIS.pdf
[6] 說話風(fēng)格遷移
https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1991.pdf
自然語(yǔ)言處理
[1] 多層多頭自注意力機(jī)制的改進(jìn)
https://arxiv.org/abs/1810.10181
[2] 基于忠實(shí)度的訓(xùn)練框架
https://arxiv.org/abs/1811.08541
[3] 聯(lián)合學(xué)習(xí)方法
https://arxiv.org/abs/1810.06195
[4] 翻譯記憶融入
https://ai.tencent.com/ailab/nlp/papers/aaai2019_graph_translation.pdf
[5] AI輔助翻譯產(chǎn)品TranSmart
http://transmart.qq.com/
[6] 基于強(qiáng)化學(xué)習(xí)框架的回復(fù)生成模型
https://ai.tencent.com/ailab/nlp/publications.html
[7] 跨語(yǔ)言神經(jīng)網(wǎng)絡(luò)置信跟蹤框架 XL-NBT
https://arxiv.org/pdf/1808.06244.pdf
[8] 對(duì)條件變分自編碼機(jī)的改進(jìn)
http://aclweb.org/anthology/D18-1354
[9] 基于對(duì)抗條件變分自編碼器的詩(shī)歌生成方法(CVAE-D)
http://aclweb.org/anthology/D18-1423
聯(lián)系客服