一文看盡2019全年AI技術(shù)突破

邊策十三魚羊發(fā)自凹非寺
量子位報道 | 公眾號 QbitAI

2019年，整個AI行業(yè)的發(fā)展如何？

NLP模型不斷刷新成績，谷歌和Facebook你方唱罷我登場；
GAN在不斷進化，甚至能生成高分辨率難辨真假的人臉；
強化學習攻破了《星際2》等戰(zhàn)略游戲。

讓人對到來的2020年充滿期待。

最近，Analytics Vidhya發(fā)布了2019年AI技術(shù)回顧報告，總結(jié)了過去一年中，AI在不同技術(shù)領(lǐng)域取得的進展，并展望了2020年的新趨勢。

Analytics Vidhya是一個著名數(shù)據(jù)科學社區(qū)。其技術(shù)回顧報告由多位機器學習業(yè)內(nèi)專家撰寫。

報告認為，在過去的一年中，發(fā)展最為迅猛的是NLP，CV已較為成熟，RL才剛剛起步，明年可能迎來大爆發(fā)。

量子位在報告基礎(chǔ)上，進行了編譯整理及補充。話不多說，一起來逐一盤點2019的那些AI技術(shù)吧：

自然語言處理（NLP）：語言模型井噴，部署工具涌現(xiàn)

NLP在2019年實現(xiàn)了巨大的飛躍，該領(lǐng)域這一年取得的突破是無與倫比的。

報告認為，2018年是NLP的分水嶺，2019年本質(zhì)上是在此基礎(chǔ)上進一步發(fā)展，讓該領(lǐng)域突飛猛進。

Transformer統(tǒng)治了NLP

自從2017年的論文Attention is All You Need發(fā)表以來，出現(xiàn)了BERT為代表的NLP模型。之后，Transformer一次又一次地在NLP領(lǐng)域中統(tǒng)治了SOTA結(jié)果。

谷歌的Transformer-XL是另一種基于Transformer的模型，在語言建模方面勝過BERT。隨后是OpenAI的GPT-2模型，它以其生成非常像人類的語言文字而聞名。

2019年下半年，BERT本身出現(xiàn)了許多創(chuàng)新，例如CMU的XLNet，F(xiàn)acebook AI的RoBERTa和mBERT（多語言BERT）。這些模型在RACE、SQuAD等測試榜上不斷刷新成績。

GPT-2則終于釋出完整版，開源15億參數(shù)模型。

GPT-2模型地址：
https://openai.com/blog/gpt-2-1-5b-release/

延伸閱讀

BERT重奪多項測試第一名，改進之后性能追上XLNet，現(xiàn)已開源預(yù)訓練模型

模仿川普語氣真假難分，康奈爾盲測15億參數(shù)模型：從未如此逼真，最強編故事AI完全體來了

大型預(yù)訓練語言模型成常態(tài)

遷移學習是2019年NLP領(lǐng)域出現(xiàn)的另一趨勢。我們開始看到多語言模型，這些模型在大型的未標記文本語料庫上進行了預(yù)訓練，從而使它們能夠?qū)W習語言本身的潛在細微差別。

GPT-2、Transformer-XL等模型幾乎可以對所有NLP任務(wù)進行微調(diào)，并且可以在相對較少的數(shù)據(jù)下很好地運行。

像百度的ERNIE 2.0這樣的模型引入了持續(xù)預(yù)訓練的概念，預(yù)訓練方法有了很大的進步。在此框架中，可以隨時逐步引入不同的自定義任務(wù)。

新的測試標準推出

隨著一系列NLP新模型帶來了巨大性能提升，它們的測試分數(shù)也已經(jīng)達到了上限，分差很小，甚至在GLUE測試中超過了人類的平均水平。

因此這些測試基準已經(jīng)不足以反映NLP模型的發(fā)展水平，也不利于未來的進一步提高。

DeepMind、紐約大學、華盛頓大學聯(lián)合Facebook提出了新的測試標準SuperGLUE，加入了更難的因果推理任務(wù)，對NLP模型提出了新的挑戰(zhàn)。

開始考慮NLP的工程和部署

2019年出現(xiàn)了一大批實用的NLP資源：

斯坦福大學開源的StanfordNLP庫，HuggingFace的Transformer預(yù)訓練模型庫。spaCy利用該庫創(chuàng)建了spacy-transformers，這是一種用于文本處理的工業(yè)級庫。

斯坦福NLP小組表示：“與我們在2019年訓練的大型語言模型一樣，我們還將重點放在優(yōu)化這些模型上?！?/p>

像BERT，Transformer-XL，GPT-2這些大型模型的問題在于，它們的計算量很大，因此在現(xiàn)實中使用它們幾乎是不切實際的。

HuggingFace的DistilBERT顯示，可以將BERT模型的大小減少40％，同時保留其97％的語言理解能力，并且速度提高60％。

谷歌和豐田研究出了另一種減小BERT模型尺寸的方法ALBERT，它在3個NLP基準測試（GLUE，SQuAD，RACE）上獲得了SOTA的成績。

延伸閱讀

GitHub萬星NLP資源大升級：實現(xiàn)Pytorch和TF深度互操作，集成32個最新預(yù)訓練模型

對語音識別的興趣增加

NLP領(lǐng)域在2019年重新燃起了對英偉達NeMo等框架開發(fā)音頻數(shù)據(jù)的興趣，該框架使端到端自動語音識別系統(tǒng)的模型訓練變得異常輕松。

除了NeMo之外，英偉達還開源了QuartzNet，QuartzNet 另一個基于Jasper的新的端到端語音識別模型架構(gòu)，Jasper是一種小型，高效的語音識別模型。

更關(guān)注多語言模型

在能夠使用多語言數(shù)據(jù)之前，NLP如何真正發(fā)揮作用？

今年，人們對重新探索NLP庫（例如StanfordNLP）的多語言途徑有了新的興趣，這些途徑帶有經(jīng)過預(yù)先訓練的模型，可以處理50多種人類語言的文本。您可以想象，這對社區(qū)產(chǎn)生了巨大影響。

然后，成功嘗試通過Facebook AI的XLM mBERT（超過100種語言）和CamemBERT 等項目來創(chuàng)建像BERT這樣的大型語言模型，該項目針對法語進行了微調(diào)：

2020年趨勢

以上是2019年NLP領(lǐng)域進展的總結(jié)，2020年該領(lǐng)域會有哪些趨勢呢？

身為NLP專家、Kaggle Grandmaster的Sudalai Rajkumar推測了2020年的主要趨勢：

延續(xù)當前趨勢，在更大的數(shù)據(jù)集上訓練更大的深度學習模型；
構(gòu)建更多的生產(chǎn)應(yīng)用程序，較小的NLP模型將對此有所幫助；
手動注釋文本數(shù)據(jù)的成本很高，因此半監(jiān)督標記方法可能會變得很重要；
NLP模型的可解釋性，了解模型在進行公正決策時學到的知識。

NLP領(lǐng)域?qū)W者、ULMFiT的作者之一Sebastian Ruder認為：

不僅會從龐大的數(shù)據(jù)集中學習，還會看到更多的模型在更少樣本上高效地學習；
模型越來越強調(diào)稀疏性和效率；
重點關(guān)注多語言的更多數(shù)據(jù)集。

計算機視覺（CV）：圖像分割愈發(fā)精細，AI造假愈演愈真

計算機視覺方面，今年CVPR、ICCV等國際頂會接收論文數(shù)量均有大幅增長。下面，就來回顧2019最受矚目的幾種重要算法和實現(xiàn)。

何愷明Mask R-CNN正在被超越

Mask Scoring R-CNN

在COCO圖像實例分割任務(wù)上，Mask Scoring R-CNN超越了何愷明的Mask R-CNN，并因此中選計算機視覺頂會CVPR 2019的口頭報告。

在Mask R-CNN這樣的模型中，實例分類的置信度被當作mask的質(zhì)量衡量指標，但實際上mask的質(zhì)量和分類的質(zhì)量并沒有很強的相關(guān)性。

華中科技大學的這篇文章針對這個問題進行了研究，他們提出了一種新的打分方法：mask score。

不僅僅直接依靠檢測得到分類得分，Mask Scoring R-CNN模型還單獨學習了一個針對mask的得分規(guī)則：MaskloU head。

同時考慮分類得分和蒙版得分，Mask Scoring R-CNN就能更加公正地評估算法質(zhì)量，提高實例分割模型的性能。

研究團隊在COCO數(shù)據(jù)集上進行了實驗，結(jié)果表明Mask Scoring R-CNN在不同的基干網(wǎng)路上，AP提升始終在1.5%左右。

這篇論文被Open Data Science評為2019年第一季度十佳論文之一。

論文一作是地平線實習生黃釗金，來自華中科技大學電信學院副教授王興剛的團隊，王興剛也是這篇論文的作者之一。

SOLO

字節(jié)跳動實習生王鑫龍?zhí)岢龅膶嵗指钚路椒⊿OLO，作為一種單階段實例分割方法，框架更簡單，但性能同樣超過了Mask R-CNN。

SOLO方法的核心思想是，將實例分割問題重新定義為類別感知預(yù)測問題和實例感知掩碼生成問題。

COCO數(shù)據(jù)集上的實驗結(jié)果表明，SOLO的效果普遍超過此前的單階段實例分割主流方法，在一些指標上還超過了增強版Mask R-CNN。

相關(guān)地址

https://arxiv.org/abs/1903.00241v1
https://arxiv.org/abs/1912.04488

延伸閱讀

性能超越何愷明Mask R-CNN！華科碩士生開源圖像分割新方法 | CVPR19 Oral

字節(jié)跳動實習生提出實例分割新方法：性能超過何愷明Mask R-CNN

EfficientNet

EfficientNet是一種模型縮放方法，由谷歌基于AutoML開發(fā)，在ImageNet測試中實現(xiàn)了84.1%的準確率，刷新記錄。

雖然準確率只比在其之前的SOTA模型Gpipe提高了0.1%，但模型更小更快，參數(shù)量和FLOPs都大幅減少，效率提升10倍之多。

其作者是來自谷歌大腦的工程師Mingxing Tan和首席科學家Quoc V. Le。

相關(guān)地址

GitHub：
https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet

論文：
https://arxiv.org/abs/1905.11946

延伸閱讀

谷歌開源縮放模型EfficientNets：ImageNet準確率創(chuàng)紀錄，效率提高10倍

Detectron2

這項超強PyTorch目標檢測庫來自Facebook。

比起初代Detectron，它訓練比從前更快，功能比從前更全，支持的模型也比從前更豐盛。一度登上GitHub熱榜第一。

實際上，Detectron2是對初代Detectron的完全重寫：初代是在Caffe2里實現(xiàn)的，而為了更快地迭代模型設(shè)計和實驗，Detectron2是在PyTorch里從零開始寫成的。

并且，Detectron2實現(xiàn)了模塊化，用戶可以把自己定制的模塊實現(xiàn)，加到一個目標檢測系統(tǒng)的任何部分里去。

這意味著許多的新研究，都能用幾百行代碼寫成，并且可以把新實現(xiàn)的部分，跟核心Detectron2庫完全分開。

Detectron2在一代所有可用模型的基礎(chǔ)上（Faster R-CNN，Mask R-CNN，RetinaNet，DensePose），還加入了了Cascade R-NN，Panoptic FPN，以及TensorMask等新模型。

相關(guān)地址

GitHub：
https://github.com/facebookresearch/detectron2

延伸閱讀

GitHub趨勢榜第一：超強PyTorch目標檢測庫Detectron2，訓練更快，支持更多任務(wù)

更強的GAN們

2019年，GAN們依然活躍。

比如同樣來自Google DeepMind的VQ-VAE二代，生成的圖像比BigGAN更加高清逼真，而且更具多樣性：
https://arxiv.org/abs/1906.00446

BigBiGAN，不僅能生成質(zhì)量優(yōu)秀的圖像，還在圖像分類任務(wù)上刷新了記錄：
https://arxiv.org/abs/1907.02544

以色列理工學院和谷歌聯(lián)合出品，拿下ICCV2019最佳論文的SinGAN：
https://arxiv.org/abs/1905.01164

英偉達的StyleGAN也高能進化成為StyleGAN2，彌補了第一代的各種缺陷：
https://arxiv.org/abs/1912.04958

延伸閱讀

史上最佳GAN被超越！生成人臉動物高清大圖真假難辨，DeepMind發(fā)布二代VQ-VAE

刷新ImageNet紀錄，GAN不只會造假！DeepMind用它做圖像分類，秒殺職業(yè)分類AI

ICCV2019最佳論文SinGAN全面解讀，看這一篇就懂了

如果沒有StyleGAN2，真以為初代就是巔峰了：英偉達人臉生成器高能進化，彌補重大缺陷

2020年趨勢

展望2020年，Analytics Vidhya認為，視覺領(lǐng)域的重點，依然會聚焦在GAN上：

styleGAN2等新方法正在生成越來越逼真的面部圖像，檢測DeepFake將變得越來越重要。視覺和（音頻）都將朝向這個方向進行更多研究。

而元學習和半監(jiān)督學習，則是2020年的另一大重點研究方向。

強化學習（RL）：星際DOTA雙雙告破，可用性更強

2019年，現(xiàn)有的強化方法擴展到了更大的計算資源方面，并取得了一定的進展。

在過去的一年里，強化學習解決了一系列過去難以解決的復(fù)雜環(huán)境問題，比如在Dota2和星際2等游戲中戰(zhàn)勝了人類頂尖職業(yè)玩家。

報告指出，盡管這些進展引起了媒體行業(yè)極大的關(guān)注，但是當前的方法還是存在著一些問題：

需要大量的訓練數(shù)據(jù)，只有在有足夠準確和快速的模擬環(huán)境的情況下，才能獲得訓練數(shù)據(jù)。許多電子游戲就是這種情況，但大多數(shù)現(xiàn)實世界中的問題卻不是這樣。
由于采用了這種訓練模式，因此，大規(guī)模的強化學習算法，感覺就像只是在問題空間的過度密集采過度產(chǎn)生的策略，而不是讓它學習環(huán)境中的潛在因果關(guān)系并智能地進行概括。
同樣，幾乎所有現(xiàn)有的Deep RL方法在對抗性樣本、領(lǐng)域外泛化和單樣本學習方面都非常脆弱，目前還沒有好的解決方案。

因此，Deep RL的主要挑戰(zhàn)是逐漸從應(yīng)對確定性的環(huán)境，轉(zhuǎn)向?qū)Ｗ⒂诟镜倪M步，例如泛化、轉(zhuǎn)移學習和從有限數(shù)據(jù)中學習等等。從一些機構(gòu)的研究趨勢中，我們可以看出這一點。

首先OpenAI發(fā)布了一套類似于健身房的新環(huán)境，該環(huán)境使用過程級別生成來測試Deep RL算法的泛化能力。

許多研究人員開始質(zhì)疑并重新評估我們對“智能”的實際定義。我們開始更好地了解神經(jīng)網(wǎng)絡(luò)的未被發(fā)現(xiàn)的弱點，并利用這些知識來建立更好的模型。

延伸閱讀

1-10落敗，5分鐘崩盤！星際2職業(yè)高手史上首次被AI擊潰，AlphaStar一戰(zhàn)成名

碾壓99.8%人類對手，三種族都達宗師級！星際AI登上Nature，技術(shù)首次完整披露

2:0！Dota2世界冠軍OG被OpenAI碾壓，全程人類只推掉兩座外塔

Dota2冠軍OG如何被AI碾壓？OpenAI累積三年的完整論文終于放出

2020年趨勢

總而言之，2020年的預(yù)測趨勢如下：

從有限的數(shù)據(jù)中學習和推廣將成為強化學習研究的中心主題；
強化學習領(lǐng)域的突破與深度學習領(lǐng)域的進步緊密相關(guān)；
將有越來越多的研究利用生成模型的力量來增強各種訓練過程。

交叉型研究：AI深入多學科研究

隨著人工智能技術(shù)的發(fā)展，跨學科研究也成為了今年的熱門。AI的身影，頻現(xiàn)于醫(yī)學、腦機接口乃至數(shù)學研究當中。

腦機接口

在馬斯克、Facebook紛紛押注的腦機接口領(lǐng)域，深度學習正在幫助研究人員解碼大腦所想。

比如加州大學舊金山分校這項登上Nature的研究：利用深度學習直接讀懂大腦，將大腦信號轉(zhuǎn)換成語音。

此前的語音合成腦機接口每分鐘只能生成8個單詞，而這項研究中的新裝置，每分鐘能生成150個單詞，接近人類自然語速。

醫(yī)學

在醫(yī)學領(lǐng)域，機器學習技術(shù)也不僅僅在醫(yī)療影像識別上發(fā)揮作用。

比如，德國組織工程和再生醫(yī)學研究所的一項研究，就利用深度學習算法DeepMACT，自動檢測和分析了整個小鼠身體中的癌癥轉(zhuǎn)移灶。

基于這項技術(shù)，科學家首次觀察到了單個癌細胞形成的微小轉(zhuǎn)移位點，并且把工作效率提高了300倍以上。

“目前，腫瘤臨床試驗的成功率約為5% 。我們相信DeepMACT技術(shù)可以大大改善臨床前研究的藥物開發(fā)過程。因此，這可能有助于為臨床試驗找到更強大的候選藥物，并有望幫助挽救許多生命?！毖芯康耐ㄓ嵶髡逜li Ertürk表示。

數(shù)學

雖說數(shù)學是自然科學的基礎(chǔ)，但在AI不斷的發(fā)展下，也起到了一定“反哺”作用。

Facebook發(fā)表的一項新模型，可以在1秒時間內(nèi)，精確求解微分方程、不定積分。

不僅如此，性能還超越了常用的Mathematica和Matlab。

積分方程和微分方程，都可以視作將一個表達式轉(zhuǎn)換為另一個表達式，研究人員認為，這是機器翻譯的一個特殊實例，可以用NLP的方法來解決。

方法主要分為四步：

將數(shù)學表達式以樹的形式表示；
引入了seq2seq模型；
生成隨機表達式；
計算表達式的數(shù)量。

研究人員在一個擁有5000個方程的數(shù)據(jù)集中，對模型求解微積分方程的準確率進行了評估。

結(jié)果表明，對于微分方程，波束搜索解碼能大大提高模型的準確率。

在包含500個方程的測試集上，商業(yè)軟件中表現(xiàn)最好的是Mathematica。

而當新方法進行大小為50的波束搜索時，模型準確率就從81.2%提升到了97%，遠勝于Mathematica（77.2%）

并且，在某一些Mathematica和Matlab無力解決的問題上，新模型都給出了有效解。

展望2020年機器學習

從NLP到計算機視覺，再到強化學習，2020年有很多值得期待的東西。以下是Analytics Vidhya預(yù)測的2020年的一些關(guān)鍵趨勢：

到2020年，機器學習的職位數(shù)量將繼續(xù)呈指數(shù)級增長。很大程度上是由于NLP的發(fā)展，許多公司將尋求擴大團隊，這是進入該領(lǐng)域的好時機。
數(shù)據(jù)工程師的作用將更加重要。
AutoML在2018年起飛，但并沒有在2019年達到預(yù)期高度。明年，隨著AWS和Google Cloud的現(xiàn)成解決方案變得更加突出，我們應(yīng)該更多地關(guān)注這一點。
2020年將是我們終于看到強化學習突破的一年嗎？幾年來一直處于低迷狀態(tài)，因為將研究解決方案轉(zhuǎn)移到現(xiàn)實世界已證明是一個主要障礙。

最后，不妨比照2018的回顧報告，給2019年AI技術(shù)表現(xiàn)打個分吧~

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

邊策 十三 魚羊 發(fā)自 凹非寺量子位 報道 | 公眾號 QbitAI

自然語言處理（NLP）：語言模型井噴，部署工具涌現(xiàn)

Transformer統(tǒng)治了NLP

大型預(yù)訓練語言模型成常態(tài)

新的測試標準推出

開始考慮NLP的工程和部署

對語音識別的興趣增加

更關(guān)注多語言模型

2020年趨勢

計算機視覺（CV）：圖像分割愈發(fā)精細，AI造假愈演愈真

何愷明Mask R-CNN正在被超越

EfficientNet

Detectron2

更強的GAN們

2020年趨勢

強化學習（RL）：星際DOTA雙雙告破，可用性更強

2020年趨勢

交叉型研究：AI深入多學科研究

腦機接口

醫(yī)學

數(shù)學

展望2020年機器學習

邊策十三魚羊發(fā)自凹非寺
量子位報道 | 公眾號 QbitAI

自然語言處理（NLP）：語言模型井噴，部署工具涌現(xiàn)

計算機視覺（CV）：圖像分割愈發(fā)精細，AI造假愈演愈真

強化學習（RL）：星際DOTA雙雙告破，可用性更強