开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開APP
          userphoto
          未登錄

          開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

          開通VIP
          2020 年最具潛力 44 個(gè)頂級(jí)開源項(xiàng)目,涵蓋 11 類 AI 學(xué)習(xí)框架、平臺(tái)(值得收藏)

          工欲善其事必先利其器,這也是大部分開發(fā)者在日常工作中最重要開發(fā)原則。選擇與開發(fā)內(nèi)容相匹配的工具,常常會(huì)使我們事半功倍。但面對(duì)人工智能的多個(gè)領(lǐng)域,如:機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、NLP等等,多樣的工具有時(shí)也讓我們也無(wú)從選擇。

          就在最近,一個(gè)基于 javascript 的可視化庫(kù) D3js(treemap 可視化)對(duì) json 文件生成的技術(shù)圖,給開發(fā)者提供了詳細(xì)的各領(lǐng)域工具清單,內(nèi)容涵蓋了 11 種極具潛力的 AI 工具類型,我們將其整理如下,強(qiáng)烈建議大家收藏~

          原文鏈接:https://github.com/haggaishachar/techmap

          目錄:

          Ⅰ、經(jīng)典機(jī)器學(xué)習(xí)(1-3)

          Ⅱ、深度學(xué)習(xí)(4-8)

          Ⅲ、強(qiáng)化學(xué)習(xí)(9-12)

          Ⅳ、自然語(yǔ)言處理(13-18)

          Ⅴ、語(yǔ)音識(shí)別(19-21)

          Ⅵ、計(jì)算機(jī)視覺(jué)(22-26)

          Ⅶ、分布式訓(xùn)練(27-31)

          Ⅷ、自動(dòng)建模(32-35)

          Ⅸ、IDEs系統(tǒng)(36-38)

          Ⅹ、平臺(tái)(39-41)

          Ⅺ、評(píng)分推理系統(tǒng)(42-43)

              I . 適用于經(jīng)典機(jī)器學(xué)習(xí)的工具

          一、SciKit-learn ?star 39.2k ?fork 19.2k

          scikit-learn 是一種強(qiáng)大的基于 Python 語(yǔ)言的機(jī)器學(xué)習(xí)算法庫(kù)(https://scikit-learn.org/stable/)。其中,包含了算法預(yù)處理,模型參數(shù)擇優(yōu),回歸與分類等算法,官方文檔包含了每一種算法的例子,代碼簡(jiǎn)潔優(yōu)美,可視化了每一種算法結(jié)果,即能學(xué)習(xí) python,也是幫助開發(fā)者更好理解機(jī)器學(xué)習(xí)算法的便利工具。

          尤其在監(jiān)督學(xué)習(xí)部分,Scikit-learn 提供了廣義線性模型、支持向量機(jī)、最近鄰算法、高斯過(guò)程、樸素貝葉斯、決策樹和集成方法等算法教程,同時(shí)還介紹了特征選擇、隨即梯度下降算法、線性與二次判別分析等在監(jiān)督學(xué)習(xí)中非常重要的概念;而在半監(jiān)督學(xué)習(xí)中的標(biāo)簽傳播算法和無(wú)監(jiān)督學(xué)習(xí)中的聚類與降維算法方面,也有非常多的教程。

          GitHub 地址:

          https://github.com/scikit-learn/scikit-learn 

          二、XGBoost star 18.3k ?fork 7.3k

          xgboost 的全稱是 eXtreme Gradient Boosting,它在 Gradient Boosting 框架下實(shí)現(xiàn)了 c++機(jī)器學(xué)習(xí)算法。

          XGBoost 最大的特點(diǎn)在于,它能夠自動(dòng)利用 CPU 的多線程進(jìn)行并行,同時(shí)在算法上加以改進(jìn)提高了精度。它是經(jīng)過(guò)優(yōu)化的分布式梯度提升庫(kù),可擴(kuò)展性強(qiáng),高效、靈活且可移植。

          GitHub 地址:

          https://github.com/dmlc/xgboost 

          三、Accord.NET star 3.7k ?fork 1.7k

          Accord.NET Framework 是一個(gè).NET 機(jī)器學(xué)習(xí)框架,結(jié)合了完全用 C#編寫的音頻和圖像處理庫(kù)(http://accord-framework.net/)。

          它可用于構(gòu)建生產(chǎn)級(jí)計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)試聽(tīng)、信號(hào)處理和統(tǒng)計(jì)應(yīng)用程序甚至用于商業(yè)用途的完整框架,并為.NET 的應(yīng)用程序提供了統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、圖像處理、計(jì)算機(jī)視覺(jué)相關(guān)的算法。

          GitHub 地址:

          https://github.com/accord-net/framework 

              II . 適用于深度學(xué)習(xí)的工具

          TensorFlow 2019 年相關(guān)數(shù)據(jù)

          四、TensorFlow star 141k ?fork 79.8k

          TensorFlow 是用于機(jī)器學(xué)習(xí)的端到端開源平臺(tái)(https://tensorflow.org),也是 2019 年度 GitHub 上最受歡迎的項(xiàng)目。

          它具有工具、庫(kù)、社區(qū)資源全面且靈活的生態(tài)系統(tǒng),提供穩(wěn)定的 Python 和 C ++ API,以及其他語(yǔ)言的非保證向后兼容 API;能夠幫助開發(fā)者們?cè)?ML 領(lǐng)域的研究與發(fā)展,并使開發(fā)人員輕松構(gòu)建和部署 ML 支持的應(yīng)用程序。

          GitHub 地址:

          https://github.com/tensorflow/tensorflow 

          五、PyTorch star 35.8k ?fork 9k

          作為 TensorFlow 強(qiáng)有力競(jìng)爭(zhēng)對(duì)手的 PyTorch,也是目前較為主流的深度學(xué)習(xí)工具之一。

          PyTorch 是一個(gè)開源的機(jī)器學(xué)習(xí)框架,提供了兩個(gè)高級(jí)功能,包括:具有強(qiáng)有力的 GPU 加速度的張量計(jì)算(如 NumPy),以及基于磁帶自動(dòng)調(diào)整系統(tǒng)構(gòu)建的深度神經(jīng)網(wǎng)絡(luò);可加快從研究原型到生產(chǎn)部署的過(guò)程。

          此前,OpenAI 官方宣布了「全面轉(zhuǎn)向 PyTorch」的消息,計(jì)劃將自家平臺(tái)的所有框架統(tǒng)一為 PyTorch,也進(jìn)一步體現(xiàn)了 PyTorch 在深度學(xué)習(xí)方面的潛力。

          GitHub 地址:

          https://github.com/pytorch/pytorch 

          六、MXNET star 18.4k ?fork 6.5k

          MXNet 是一個(gè)功能齊全,可編程和可擴(kuò)展的深入學(xué)習(xí)框架,支持最先進(jìn)的深入學(xué)習(xí)模式(https://mxnet.apache.org/)。

          MXNet 提供了混合編程模型(命令式和聲明式)和大量編程語(yǔ)言的代碼(包括 Python、C++、R、Scala、Julia、Matlab 和 JavaScript)的能力,是一個(gè)易安裝易上手的開源深度學(xué)習(xí)工具,它提供了一個(gè) python 接口 gluon,能夠讓開發(fā)者迅速搭建起神經(jīng)網(wǎng)絡(luò),并進(jìn)行高效訓(xùn)練。

          GitHub 地址:

          https://github.com/apache/incubator-mxnet 

          七、Sonnet star 8.1k ?fork 1.2k

          Sonnet 是由 DeepMind 發(fā)布的,在 TensorFlow 上用于構(gòu)建復(fù)雜神經(jīng)網(wǎng)絡(luò)的開源庫(kù)。

          Sonnet 主要用于讓 DeepMind 開發(fā)的其它模型更容易共享,Sonnet 可以在內(nèi)部的其它子模塊中編寫模塊,或者在構(gòu)建新模塊時(shí)傳遞其它模型作為參數(shù);同時(shí),Sonnet 提供實(shí)用程序來(lái)處理這些任意層次結(jié)構(gòu),以便于使用不同的 RNN 進(jìn)行實(shí)驗(yàn),整個(gè)過(guò)程無(wú)需繁瑣的代碼改寫。

          GitHub 地址:

          https://github.com/deepmind/sonnet 

          八、DL4J star 11.5k ?fork 4.8k

          DL4J 是采用 java 和 jvm 編寫的開源深度學(xué)習(xí)庫(kù),支持各種深度學(xué)習(xí)模型。DL4J 最重要的特點(diǎn)是支持分布式,可以在 Spark 和 Hadoop 上運(yùn)行,它支持分布式 CPU 和 GPU 運(yùn)行,并可以利用 Spark 在多臺(tái)服務(wù)器多個(gè) GPU 上開展分布式的深度學(xué)習(xí)模型訓(xùn)練,讓模型運(yùn)行更快。

          DL4J 的基本特性包括:DL4J 中的神經(jīng)網(wǎng)絡(luò)訓(xùn)練通過(guò)簇的迭代并行計(jì)算;整個(gè)過(guò)程由 Hadoop 和 Spark 架構(gòu)支持;使用 Java 允許開發(fā)者在 Android 設(shè)備的程序開發(fā)周期中使用。

          GitHub 地址:

          https://github.com/eclipse/deeplearning4j 

              III . 適用于強(qiáng)化學(xué)習(xí)的工具

          九、Gym    star 19.6k ?fork 5.5k

          Gym 是一個(gè)用于開發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具(https://gym.openai.com/)。

          它無(wú)需對(duì) agent 的先驗(yàn)知識(shí),并且采用 python 作為主要開發(fā)語(yǔ)言,因此可以簡(jiǎn)單的和 TensorFlow 等深度學(xué)習(xí)庫(kù)進(jìn)行開發(fā)集成,同時(shí)直觀的將學(xué)習(xí)結(jié)果用畫面直觀的展示出來(lái)。Gym 庫(kù)中包含許多可以用于制定強(qiáng)化學(xué)習(xí)算法的測(cè)試問(wèn)題(即環(huán)境),這些環(huán)境有共享接口,允許編寫通用的算法。

          GitHub 地址:

          https://github.com/openai/gym 

          十、Dopamine     star 8.7k ?fork 1.1k

          一款基于 Tensorflow 的框架,旨在為新手和經(jīng)驗(yàn)豐富的強(qiáng)化學(xué)習(xí)研究人員提供兼具靈活性、穩(wěn)定性和可重復(fù)性的新工具。

          該框架的靈感來(lái)源于大腦中獎(jiǎng)勵(lì)-動(dòng)機(jī)行為的主要成分「多巴胺受體」,這反映了神經(jīng)科學(xué)與強(qiáng)化學(xué)習(xí)研究之間的強(qiáng)大的歷史聯(lián)系,是一個(gè)強(qiáng)化學(xué)習(xí)算法快速原型的研究框架。

          GitHub 地址:

          https://github.com/google/dopamine 

          十一、ReAgent    star 2.4k ?fork 312

          Facebook 推出的一個(gè)構(gòu)建決策推理系統(tǒng)的模塊化端到端平臺(tái),用于推理系統(tǒng)(強(qiáng)化學(xué)習(xí)、上下文管理等), 可以顯著簡(jiǎn)化推理模型構(gòu)建過(guò)程。

          ReAgent 由三部分組成:生成決策并接收決策反饋的模型、用于評(píng)估新模型部署前性能的模塊及快速迭代的服務(wù)平臺(tái)。同時(shí),ReAgent 也是創(chuàng)建基于 AI 的推理系統(tǒng)的最全面、模塊化開源平臺(tái),并且是第一個(gè)包含策略評(píng)估的平臺(tái),將會(huì)加速相關(guān)決策系統(tǒng)的部署。

          GitHub 地址:

          https://github.com/facebookresearch/ReAgent 

          十二、Tensorlayer   star 5.9k ?fork 1.3k

          這是一個(gè)面向科學(xué)家的深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)庫(kù)。TensorLayer 由底層到上層可以分為三大模塊:神經(jīng)網(wǎng)絡(luò)模塊、工作流模塊、應(yīng)用模塊。

          與 Keras 和 Pytorch 相比,TensorLayer 提高了神經(jīng)網(wǎng)絡(luò)模塊的抽象化設(shè)計(jì),同時(shí)實(shí)現(xiàn)了降低使用現(xiàn)有層和開發(fā)新層的工作量。

          GitHub 地址:

          https://github.com/tensorlayer/tensorlayer 

              IV . 適用于自然語(yǔ)言處理的工具

          十三、BERT   star 21.3k ?fork 5.8k 

          BERT 是一個(gè)基于雙向 Transformer 的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型,用于對(duì)大量未標(biāo)記的文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,以學(xué)習(xí)一種語(yǔ)言表示形式,這種語(yǔ)言表示形式可用于對(duì)特定機(jī)器學(xué)習(xí)任務(wù)進(jìn)行微調(diào)。

          BERT 被稱為是 NLP 領(lǐng)域中里程碑的進(jìn)展;目前,BERT 也是 NLP 深度學(xué)習(xí)中的重要組成部分,很多之后的自然語(yǔ)言處理模型都是在此基礎(chǔ)上優(yōu)化與改進(jìn)而得。

          GitHub 地址:

          https://github.com/google-research/bert 

          十四、Transformers  star 21.7k ?fork 4.8k

          Transformers 是神經(jīng)機(jī)器翻譯中使用的一種神經(jīng)網(wǎng)絡(luò),它主要涉及將輸入序列轉(zhuǎn)換為輸出序列的任務(wù),這些任務(wù)包括語(yǔ)音識(shí)別和文本轉(zhuǎn)換語(yǔ)音。

          這類任務(wù)需要「記憶」,下一個(gè)句子必須與前一個(gè)句的上下文相關(guān)聯(lián)(這是相當(dāng)關(guān)鍵的),以免丟失重要的信息。通過(guò)將 attention 應(yīng)用到正在使用的單詞上,則可以解決當(dāng)句子太長(zhǎng)的時(shí),RNN 或 CNN 無(wú)法跟蹤上下文和內(nèi)容的問(wèn)題。

          GitHub 地址:

          https://github.com/huggingface/transformers 

          十五、AllenNLP    star 8k ?fork 1.7k

          一個(gè)基于 PyTorch 的 NLP 研究庫(kù),利用深度學(xué)習(xí)來(lái)進(jìn)行自然語(yǔ)言理解,通過(guò)處理低層次的細(xì)節(jié)、提供高質(zhì)量的參考實(shí)現(xiàn),能輕松快速地幫助研究員構(gòu)建新的語(yǔ)言理解模型。

          AllenNLP 能讓設(shè)計(jì)和評(píng)估新的深度學(xué)習(xí)模型變得簡(jiǎn)單,幾乎適用于任何 NLP 問(wèn)題,通過(guò)利用一些基礎(chǔ)組件,你可以輕松地在云端或是你自己的筆記本上跑模型。

          GitHub 地址:

          https://github.com/allenai/allennlp 

          十六、flair    star 8.1k ?fork 1k

          一款簡(jiǎn)單易用的 Python NLP 庫(kù),允許將當(dāng)前最優(yōu)自然語(yǔ)言處理(NLP)模型應(yīng)用于文本,如命名實(shí)體識(shí)別(NER)、詞性標(biāo)注(PoS)、詞義消歧和分類。

          Flair 基于 Pytorch 的 NLP 框架,它的接口相對(duì)更簡(jiǎn)單,允許用戶使用和結(jié)合不同的詞嵌入和文檔嵌入,包括 Flair 嵌入、BERT 嵌入和 ELMo 嵌入。

          GitHub 地址:

          https://github.com/flairNLP/flair 

          十七、spaCy    star 15.7k ?fork 2.8k

          這是一個(gè)具有工業(yè)強(qiáng)度級(jí)的 Python 自然語(yǔ)言處理工具包。

          它已經(jīng)成為 Python 中最廣泛使用的工業(yè)級(jí)自然語(yǔ)言庫(kù)之一,它提供了當(dāng)前最佳的準(zhǔn)確性和效率,并且有一個(gè)活躍的開源社區(qū)支持。

          GitHub 地址:

          https://github.com/explosion/spaCy 

          十八、fastText   star 20.5k ?fork 3.9k

          FastText 是 Facebook 人工智能研究實(shí)驗(yàn)室(FAIR)開源的一個(gè)文本處理庫(kù),他是一個(gè)專門用于文本分類和外文本表示的庫(kù),用于高效文本分類和表示學(xué)習(xí)。

          fastText 的核心是使用「詞袋」的方式,不管文字的順序;但它不是線性的,而是使用分層分類器來(lái)將時(shí)間復(fù)雜度降低到對(duì)數(shù)級(jí)別,并且在具有更高分類數(shù)量的大數(shù)據(jù)集上更高效。

          GitHub 地址:

          https://github.com/facebookresearch/fastText

              V . 適用于語(yǔ)音識(shí)別的工具

          十九、Kaldi  star 8.2k ?fork 3.7k

          Kaldi 是目前使用廣泛的開發(fā)語(yǔ)音識(shí)別應(yīng)用的框架。

          該語(yǔ)音識(shí)別工具包使用了 C ++編寫,研究開發(fā)人員利用 Kaldi 可以訓(xùn)練出語(yǔ)音識(shí)別神經(jīng)網(wǎng)路模型,但如果需要將訓(xùn)練得到的模型部署到移動(dòng)端設(shè)備上,通常需要大量的移植開發(fā)工作。

          GitHub 地址:

          https://github.com/kaldi-asr/kaldi 


          二十、DeepSpeech star 13k ?fork 2.4k

          DeepSpeech 是一個(gè)開源語(yǔ)音轉(zhuǎn)文本引擎,使用基于百度深度語(yǔ)音研究論文的機(jī)器學(xué)習(xí)技術(shù)訓(xùn)練的模型。其中,該項(xiàng)目運(yùn)用到了 Google 的 TensorFlow 來(lái)簡(jiǎn)化實(shí)施過(guò)程。

          GitHub 地址:

          https://github.com/mozilla/DeepSpeech 

          二十一、wav2letter   star 4.8k ?fork 770

          這是由 Facebook 人工智能研究院發(fā)布的首個(gè)全卷積自動(dòng)語(yǔ)音識(shí)別工具包,它是一個(gè)簡(jiǎn)單高效的端到端自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)。

          wav2letter 的核心設(shè)計(jì)基于三個(gè)關(guān)鍵原則,包括:實(shí)現(xiàn)在包含成千上萬(wàn)小時(shí)語(yǔ)音數(shù)據(jù)集上的高效模型訓(xùn)練;簡(jiǎn)單可擴(kuò)展模型,可以接入新的網(wǎng)絡(luò)架構(gòu)、損失函數(shù)以及其他語(yǔ)音識(shí)別系統(tǒng)中的核心操作;以及平滑語(yǔ)音識(shí)別模型從研究到生產(chǎn)部署的過(guò)渡。

          GitHub 地址:

          https://github.com/facebookresearch/wav2letter 

              VI . 適用于計(jì)算機(jī)視覺(jué)的工具

          二十二、YOLO  star 16.2k ?fork 10.4k

          YOLO 是當(dāng)前深度學(xué)習(xí)領(lǐng)域解決圖像檢測(cè)問(wèn)題最先進(jìn)的實(shí)時(shí)系統(tǒng)。在檢測(cè)過(guò)程中,YOLO 首先將圖像劃分為規(guī)定的邊界框,然后對(duì)所有邊界框并行運(yùn)行識(shí)別算法,來(lái)確定物體所屬的類別。確定類別之后,YOLO 再智能地合并這些邊界框,在物體周圍形成最優(yōu)邊界框。

          這些步驟全部并行進(jìn)行,因此 YOLO 能夠?qū)崿F(xiàn)實(shí)時(shí)運(yùn)行,并且每秒處理多達(dá) 40 張圖像。據(jù)官網(wǎng)顯示,在 Pascal Titan X 上,它以 30 FPS 的速度處理圖像,并且在 COCO 測(cè)試開發(fā)中的 mAP 為 57.9%。

          GitHub 地址:

          https://github.com/allanzelener/YAD2K 

          二十三、OpenCV    star 41.9k ?fork 32.4k

          OpenCV 是英特爾開源的跨平臺(tái)計(jì)算機(jī)視覺(jué)庫(kù)(https://opencv.org),被稱為 CV 領(lǐng)域開發(fā)者與研究者的必備工具包。

          這是一套包含從圖像預(yù)處理到預(yù)訓(xùn)練模型調(diào)用等大量視覺(jué) API 的庫(kù),并可以處理圖像識(shí)別、目標(biāo)檢測(cè)、圖像分割和行人再識(shí)別等主流視覺(jué)任務(wù)。其最顯著的特點(diǎn)是它提供了整套流程的工具,因此開發(fā)者無(wú)需了解各個(gè)模型的原理就能用 API 構(gòu)建視覺(jué)任務(wù)。它具備 C++、Python 和 Java 接口,支持 Windows、Linux、Mac OS、iOS 和 Android 系統(tǒng)。

          GitHub 地址:

          https://github.com/opencv/opencv 

          二十四、Detectron2   star 7.7k ?fork 1.4k

          Detectron2 則是 PyTorch 1.3 中一重大新工具,它源于 maskrcnn 基準(zhǔn)測(cè)試,也是對(duì)先前版本 detectron 的一次徹底重寫。

          Detectron2 通過(guò)全新的模塊化設(shè)計(jì),變得更靈活且易于擴(kuò)展,它能夠在單個(gè)或多個(gè) GPU 服務(wù)器上提供更快速的訓(xùn)練速度,包含了更大的靈活性與擴(kuò)展性,并增強(qiáng)了可維護(hù)性和可伸縮性,以支持在生產(chǎn)中的用例。

          GitHub 地址:

          https://github.com/facebookresearch/detectron2 

          二十五、OpenPose   star 15.9k ?fork 4.7k

          OpenPose 人體姿態(tài)識(shí)別項(xiàng)目是美國(guó)卡耐基梅隆大學(xué)(CMU)基于卷積神經(jīng)網(wǎng)絡(luò)和監(jiān)督學(xué)習(xí)并以 caffe 為框架開發(fā)的開源庫(kù)。

          它可以實(shí)現(xiàn)人體動(dòng)作、面部表情、手指運(yùn)動(dòng)等姿態(tài)估計(jì)。適用于單人和多人,具有極好的魯棒性。是世界上首個(gè)基于深度學(xué)習(xí)的實(shí)時(shí)多人二維姿態(tài)估計(jì)應(yīng)用,很多人體姿態(tài)估計(jì)實(shí)例都是基于它實(shí)現(xiàn),如動(dòng)作采集、3D 試衣、繪畫輔助等。

          GitHub 地址:

          https://github.com/CMU-Perceptual-Computing-Lab/openpose 

          二十六、facenet   star 10k ?fork 4.1k

          FaceNet 采用了深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)將圖像映射到歐式空間,也被稱為通用人臉識(shí)別系統(tǒng)。

          該系統(tǒng)可從人臉中提取高質(zhì)量的特征,稱為人臉嵌入(face embeddings),可用于訓(xùn)練人臉識(shí)別系統(tǒng),從而實(shí)現(xiàn)對(duì)人臉的驗(yàn)證。它在 LFW 數(shù)據(jù)集上測(cè)試的準(zhǔn)確率達(dá)到了 99.63%,在 YouTube Faces DB 數(shù)據(jù)集上準(zhǔn)確率為 95.12%。

          GitHub 地址:

          https://github.com/davidsandberg/facenet 

              VII . 適用于分布式訓(xùn)練的工具

          二十七、Spark MLlib   star 25.1k ?fork 21.1k

          Spark 是一個(gè)開源集群運(yùn)算框架,也是現(xiàn)在大數(shù)據(jù)領(lǐng)域熱門開源軟件之一(https://spark.apache.org/mllib/)。

          由于 Spark 使用了內(nèi)存內(nèi)運(yùn)算技術(shù),它在內(nèi)存上的運(yùn)算速度比 Hadoop MapReduce 的運(yùn)算速度快上 100 倍;這也使得 Spark MLlib 分布式計(jì)算框架運(yùn)行非常高效、快速。它可以實(shí)現(xiàn)大部分機(jī)器學(xué)習(xí),如:聚類、分類、回歸等算法,并允許將數(shù)據(jù)加載至集群內(nèi)存,多次對(duì)其進(jìn)行查詢,所以非常適合用于機(jī)器學(xué)習(xí)算法。

          GitHub 地址:

          https://github.com/apache/spark 

          二十八、Mahout  star 1.8k ?fork 930

          Mahout 是一個(gè)分布式線性代數(shù)框架,用于快速創(chuàng)建可擴(kuò)展的高性能機(jī)器學(xué)習(xí)應(yīng)用程序(http://mahout.apache.org/  )。

          Mahout 框架長(zhǎng)期以來(lái)一直與 Hadoop 綁定,但它的許多算法也可以在 Hadoop 之外運(yùn)行。它允許多種算法可以跨越分布式 Spark 群集上運(yùn)行,并且支持 CPU 和 GPU 運(yùn)行。

          GitHub 地址:

          https://github.com/apache/mahout 

          二十九、Horovod   star 8.5k ?fork 1.3k

          這是由 Uber 開源的一個(gè)跨多臺(tái)機(jī)器的分布式深度學(xué)習(xí)的 TensorFlow 訓(xùn)練框架,可以使分布式深度學(xué)習(xí)快速且易于使用。

          據(jù)介紹,Horovod 讓開發(fā)人員只需幾行代碼就可以完成任務(wù)。這不僅加快了初始修改過(guò)程,而且進(jìn)一步簡(jiǎn)化了調(diào)試??紤]到深度學(xué)習(xí)項(xiàng)目的高度迭代性,這也可以節(jié)省大量時(shí)間。除此之外,它還結(jié)合了高性能和修補(bǔ)低級(jí)模型細(xì)節(jié)的能力,例如:同時(shí)使用高級(jí) api,并使用 NVIDIA 的 CUDA 工具包實(shí)現(xiàn)自己的自定義操作符。

          GitHub 地址:

          https://github.com/horovod/horovod 

          三十、Dask   star 6.2k ?fork 994

          當(dāng)開發(fā)者需要并行化到多核時(shí),可以用 Dask 來(lái)將計(jì)算擴(kuò)展到多個(gè)內(nèi)核甚至多個(gè)機(jī)器。

          Dask 提供了 NumPy Arrays,Pandas Dataframes 和常規(guī)列表的抽象,能夠在無(wú)法放入主內(nèi)存的數(shù)據(jù)集上并行運(yùn)行。對(duì)大型數(shù)據(jù)集來(lái)說(shuō),Dask 的高級(jí)集合是 NumPy 和 Pandas 的替代方案。

          GitHub 地址:

          https://github.com/dask/dask 

          三十一、Ray   star 10.3k ?fork 1.5k

          Ray 是一個(gè)高性能分布式執(zhí)行框架,它使用了和傳統(tǒng)分布式計(jì)算系統(tǒng)不一樣的架構(gòu)和對(duì)分布式計(jì)算的抽象方式,用于快速而簡(jiǎn)單的構(gòu)建和運(yùn)行分布式應(yīng)用程序。

          Ray 按照典型的 Master-Slave 進(jìn)行設(shè)計(jì)。其中,Master 負(fù)責(zé)全局協(xié)調(diào)和狀態(tài)維護(hù),Slave 執(zhí)行分布式計(jì)算任務(wù)。不過(guò)和傳統(tǒng)的分布式計(jì)算系統(tǒng)不同的是,Ray 使用了混合任務(wù)調(diào)度的思路,性能更強(qiáng)。

          GitHub 地址:

          https://github.com/ray-project/ray 

              VIII . 適用于自動(dòng)建模的工具

          三十二、TPOT  star 6.7k ?fork 1.2k

          TPOT 是一個(gè) Python 編寫的軟件包,利用遺傳算法行特征選擇和算法模型選擇,僅需幾行代碼,就能生成完整的機(jī)器學(xué)習(xí)代碼。

          在機(jī)器學(xué)習(xí)模型開發(fā)圖中,TPOT 所完成的即通過(guò)利用遺傳算法,分析數(shù)千種可能的組合,為模型、參數(shù)找到最佳的組合,從而自動(dòng)化機(jī)器學(xué)習(xí)中的模型選擇及調(diào)參部分。

          GitHub 地址:

          https://github.com/EpistasisLab/tpot 

          三十三、AutoKeras   star 6.6k ?fork 1.1k

          它使用了高效神經(jīng)架構(gòu)搜索(ENAS,https://arxiv.org/abs/1802.03268),只需使用 pip install autokeras 就能快速輕松地安裝軟件包,然后就能用自己的數(shù)據(jù)集來(lái)執(zhí)行自己的架構(gòu)搜索構(gòu)建思路。

          相比谷歌 AutoML,兩者構(gòu)建思路類似,但不同的是,AutoKeras 所有代碼都已經(jīng)開源,可供開發(fā)者無(wú)償使用。

          GitHub 地址:

          https://github.com/keras-team/autokeras 

          三十四、Featuretools  star 4.6k ?fork 602

          這是一個(gè)用于自動(dòng)化特性工程的開源 python 框架(https://www.featuretools.com/)。

          它可以幫助開發(fā)者從一組相關(guān)數(shù)據(jù)表中自動(dòng)構(gòu)造特征。開發(fā)者只需要知道數(shù)據(jù)表的基本結(jié)構(gòu)和它們之間的關(guān)系,然后在實(shí)體集(一種數(shù)據(jù)結(jié)構(gòu))中指明。然后在有了實(shí)體集之后,使用一個(gè)名為深度特征合成(DFS)的方法,在一個(gè)函數(shù)調(diào)用中構(gòu)建出數(shù)千個(gè)特征。

          GitHub 地址:

          https://github.com/FeatureLabs/featuretools 


          三十五、NNI   star 5.3k ?fork 683

          NNI 是由微軟發(fā)布的一個(gè)用于神經(jīng)網(wǎng)絡(luò)超參數(shù)調(diào)整的開源 AutoML 工具包,也是目前較為熱門的 AutoML 開源項(xiàng)目之一。

          最新版本的 NNI 對(duì)機(jī)器學(xué)習(xí)生命周期的各個(gè)環(huán)節(jié)做了更加全面的支持,包括:特征工程、神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)、超參調(diào)優(yōu)和模型壓縮,開發(fā)者都能使用自動(dòng)機(jī)器學(xué)習(xí)算法來(lái)完成,即使是開發(fā)小白也能輕松上手。

          GitHub 地址:

          https://github.com/microsoft/nni 

          三十六、AdaNet    star 3k ?fork 443

          AdaNet 是由谷歌開源的一個(gè)輕量級(jí)的基于 TensorFlow 框架(https://adanet.readthedocs.io/en/v0.8.0/)。

          AdaNet 易于使用,并能創(chuàng)建高質(zhì)量的模型,為 ML 實(shí)踐者節(jié)省了用于選擇最佳神經(jīng)網(wǎng)絡(luò)架構(gòu)的時(shí)間,實(shí)現(xiàn)了一種將學(xué)習(xí)神經(jīng)架構(gòu)作為子網(wǎng)絡(luò)集合的自適應(yīng)算法。

          GitHub 地址:

          https://github.com/tensorflow/adanet 

              IX . IDEs 系統(tǒng)

          三十七、Jupyter   star 9.3k ?fork 2.2k

          Jupyter 是一種 Web 應(yīng)用,涵蓋了跨數(shù)十種編程語(yǔ)言的交互式計(jì)算。

          它能讓用戶將說(shuō)明文本、數(shù)學(xué)方程、代碼和可視化內(nèi)容全部組合到一個(gè)易于共享的文檔中,非常方便研究和教學(xué)。在數(shù)據(jù)挖掘平臺(tái) Kaggle 上,使用 Python 的數(shù)據(jù)開發(fā)者大多數(shù)選擇了 jupyter 來(lái)實(shí)現(xiàn)分析和建模的過(guò)程。

          GitHub 地址:

          https://github.com/jupyter/jupyter 

          三十八、Spyder    star 5.1k ?fork 1k

          Spyder 是一個(gè) 用于科學(xué)計(jì)算的使用 Python 編程語(yǔ)言的集成開發(fā)環(huán)境(IDE)。

          它結(jié)合了綜合開發(fā)工具的高級(jí)編輯、分析、調(diào)試功能以及數(shù)據(jù)探索、交互式執(zhí)行、深度檢查和科學(xué)包的可視化功能,對(duì)于初學(xué)者也非常友好。

          GitHub 地址:

          https://github.com/spyder-ide/spyder 

          三十九、Zeppelin  star 4.6k ?fork 2.2k

          Zeppelin 是一款基于 Web 的交互式數(shù)據(jù)分析平臺(tái)。它基于網(wǎng)絡(luò)的筆記本,默認(rèn)使用 Spark 集群作為分析引擎,提供數(shù)據(jù)可視化的框架,支持?jǐn)?shù)據(jù)驅(qū)動(dòng)的交互式數(shù)據(jù)分析。

          通過(guò)配置,它也支持包括 SQL、Python、R 等多種數(shù)據(jù)分析語(yǔ)言,提供數(shù)據(jù)庫(kù)查詢、動(dòng)態(tài)圖表展示、地圖等數(shù)據(jù)可視化能力,并能夠以 Notebook 的形式保存和分發(fā)代碼及分析結(jié)果。

          GitHub 地址:

          https://github.com/apache/zeppelin 

              X . 平臺(tái)

          四十、H2O  star 4.6k ?fork 1.7k

          H2O 是  H2O.ai 公司的完全開源的分布式內(nèi)存機(jī)器學(xué)習(xí)平臺(tái)。H2O 同時(shí)支持 R 和 Python,支持最廣泛使用的統(tǒng)計(jì)和機(jī)器學(xué)習(xí)算法,包括梯度提升(Gradient Boosting)機(jī)器、廣義線性模型、深度學(xué)習(xí)模型等。

          H2O 包括一個(gè)自動(dòng)機(jī)器學(xué)習(xí)模塊,使用自己的算法來(lái)構(gòu)建管道。它對(duì)特征工程方法和模型超參數(shù)采用了窮舉搜索,優(yōu)化了管道。H2O 自動(dòng)化了一些最復(fù)雜的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)工作,例如特征工程、模型驗(yàn)證、模型調(diào)整、模型選擇 和 模型部署。除此之外,它還提供了自動(dòng)可視化以及機(jī)器學(xué)習(xí)的解釋能力(MLI)。

          GitHub 地址:

          https://github.com/h2oai/h2o-3

          四十一、MLflow  star 5.9k ?fork 1.2k

          MLflow 是機(jī)器學(xué)習(xí)生命周期的開源平臺(tái),開放接口,可與任何機(jī)器學(xué)習(xí)庫(kù)、算法、部署工具或編程語(yǔ)言一起使用,基于 REST API 和簡(jiǎn)單的數(shù)據(jù)格式而構(gòu)建。是一個(gè)開源項(xiàng)目,允許用戶和機(jī)器學(xué)習(xí)庫(kù)開發(fā)人員可以對(duì)其進(jìn)行擴(kuò)展。

          MLflow 現(xiàn) alpha 版,提供跟蹤、項(xiàng)目和模型三大組件。MLflow 的跟蹤組件支持記錄和查詢實(shí)驗(yàn)數(shù)據(jù),如評(píng)估度量指標(biāo)和參數(shù)。MLflow 的項(xiàng)目組件提供了可重復(fù)運(yùn)行的簡(jiǎn)單包裝格式。最后,MLflow 的模型組件提供了用于管理和部署模型的工具。

          GitHub 地址:

          https://github.com/mlflow/mlflow 

          四十二、Kubeflow   star 8.3k ?fork 1.3k

          Kubeflow 項(xiàng)目旨在使 Kubernetes 上的機(jī)器學(xué)習(xí)變的輕松、便捷、可擴(kuò)展,其目標(biāo)不是重建其他服務(wù),而是提供一種簡(jiǎn)便的方式找到最好的 OSS 解決方案。對(duì)分布式訓(xùn)練任務(wù)支持。

          用于創(chuàng)建和管理交互式 Jupyter notebook 的 JupyterHub,可配置為使用 CPU 或 GPU,并通過(guò)單一設(shè)置調(diào)整至單個(gè)集群大小的 TensorFlow 訓(xùn)練控制器(Tensorflow Training Controller),用于 TF 服務(wù)容器(TF Serving container)

          GitHub 地址:

          https://github.com/kubeflow/kubeflow 

              XI . 評(píng)分推理系統(tǒng)

          四十三、ONNX  star 7.8k ?fork 1.3k

          ONNX 是一種針對(duì)機(jī)器學(xué)習(xí)所設(shè)計(jì)的開放式的文件格式,用于存儲(chǔ)訓(xùn)練好的模型。它使得不同的人工智能框架(如 Pytorch, MXNet)可以采用相同格式存儲(chǔ)模型數(shù)據(jù)并交互。ONNX 的規(guī)范及代碼主要由微軟,亞馬遜,F(xiàn)acebook 和 IBM 等公司共同開發(fā),以開放源代碼的方式托管在 Github 上。

          目前官方支持加載 ONNX 模型并進(jìn)行推理的深度學(xué)習(xí)框架有:Caffe2, PyTorch, MXNet,ML.NET,TensorRT 和 Microsoft CNTK,并且 TensorFlow 也非官方的支持 ONNX。

          GitHub 地址:

          https://github.com/onnx/onnx 

          四十四、Seldon star 1.4k ?fork 296

          開源機(jī)器學(xué)習(xí)部署平臺(tái) Seldon Core,讓機(jī)器學(xué)習(xí)模型可以部署于 Kubernetes 上。Seldon Core 的目標(biāo),要讓研究人員可以用任何工具包、程序語(yǔ)言建立機(jī)器學(xué)習(xí)模型。

          現(xiàn)階段該工具支持模型包含以 Python 為基礎(chǔ)的 TensorFlow、Sklearn,還有 Spark、H2O、R 等知名模型。此外,Seldon Core 也讓機(jī)器學(xué)習(xí)模型可支援 REST、gRPC,讓使用者可以更簡(jiǎn)單地整合相關(guān)企業(yè)應(yīng)用。

          GitHub 地址:

          https://github.com/SeldonIO/seldon-core 


          -------------------End-------------------

          本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
          打開APP,閱讀全文并永久保存 查看更多類似文章
          猜你喜歡
          類似文章
          2018年,你最應(yīng)該跟蹤的全球十大開源AI項(xiàng)目
          GitHub上獲得26236個(gè)Star的Java面試項(xiàng)目,看看你都會(huì)幾個(gè)部分?
          IT大佬推薦 ! 20個(gè)必備的Python庫(kù) 讓你的資源從此用不完 建議收藏
          GitHub2019年4月最牛逼的15個(gè)python項(xiàng)目
          28款GitHub最流行的開源機(jī)器學(xué)習(xí)項(xiàng)目
          二十大Python人工智能與機(jī)器學(xué)習(xí)開源項(xiàng)目,TensorFlow升為榜首
          更多類似文章 >>
          生活服務(wù)
          分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
          綁定賬號(hào)成功
          后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點(diǎn)擊這里聯(lián)系客服!

          聯(lián)系客服