全文共3226字,預(yù)計(jì)學(xué)習(xí)時(shí)長6分鐘
數(shù)據(jù)科學(xué)、大數(shù)據(jù)、數(shù)據(jù)湖、人工智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、商業(yè)智能、商業(yè)分析……近些年,眾多的文章和言論都探討了上述術(shù)語。像往常一樣,當(dāng)某樣?xùn)|西變得流行時(shí),它的概念、定義和限制就會逐漸消失。
如果你注冊了Linkedin還經(jīng)常使用的話,你能已經(jīng)注意到了,光看標(biāo)題越來越猜不出別人到底在做什么。我們已經(jīng)厭倦了眼花繚亂的科技詞匯和縮略詞,也越來越?jīng)]有費(fèi)心去了解它們的含義。
“但是你……你到底是做什么的?”
有趣的時(shí)刻來了……
· 如果詢問者與你職位相同,你可以詳細(xì)解釋(或者你應(yīng)該能做到)。
· 如果詢問者和你是一個(gè)部門的,你可能會假設(shè)他知道你使用的所有技術(shù),并給出解釋,但你可能會解釋不清。
· 詢問者和你從事的領(lǐng)域不同:那么考驗(yàn)?zāi)愕臅r(shí)候到了。尤其是他開始問你問題的時(shí)候……
· 要是你不得不向你的祖母解釋呢?
有一句“名言”(作者被誤傳為阿爾伯特·愛因斯坦)是這樣說的:
如果你能向你的祖母解釋清楚一件事,那你才是真的理解了。
另一種說法說的是6歲的孩子而不是祖母,但如果我們要說的是技術(shù),那還是祖母吧。
簡單定義為:數(shù)據(jù)科學(xué)是從數(shù)據(jù)中提取有用知識的一系列技能和技術(shù)。
這些技能通常用德魯·康威(Drew Conway)創(chuàng)造的維恩圖(或它的變體)來表示:
三個(gè)圓圈分別代表三個(gè)不同的領(lǐng)域:編程領(lǐng)域(語言知識、語言庫、設(shè)計(jì)模式、體系結(jié)構(gòu)等);數(shù)學(xué)(代數(shù)、微積分等)和統(tǒng)計(jì)學(xué)領(lǐng)域;數(shù)據(jù)領(lǐng)域(特定領(lǐng)域的知識:醫(yī)療、金融、工業(yè)等)。
這些領(lǐng)域共同構(gòu)成了定義中的技能和技術(shù)。它們包括獲取數(shù)據(jù)、數(shù)據(jù)清理、數(shù)據(jù)分析、創(chuàng)建假設(shè)、算法、機(jī)器學(xué)習(xí)、優(yōu)化、結(jié)果可視化等等。
數(shù)據(jù)科學(xué)匯集了這些領(lǐng)域和技能,支持和改進(jìn)了從原始數(shù)據(jù)中提取見解和知識的過程。
什么是“有用的知識”?就是可以具有某種價(jià)值、可以回答或解決現(xiàn)實(shí)世界中問題的知識。
數(shù)據(jù)科學(xué)也可以定義為:研究應(yīng)用數(shù)據(jù)處理和分析方面的進(jìn)展,為我們提供解決方法和答案的領(lǐng)域。
這個(gè)解釋起來就簡單了:大數(shù)據(jù)就是大量的數(shù)據(jù)。
要定義大數(shù)據(jù),通常會用3V來解釋,這是產(chǎn)生大數(shù)據(jù)的3個(gè)主要原因:
· 容量:收集的數(shù)據(jù)量每分鐘都在巨幅增長,我們需要使用分布式解決方案(使用多臺機(jī)器,而不是非常非常昂貴的超級計(jì)算機(jī)/主機(jī))來調(diào)整我們的存儲和處理工具以適應(yīng)該容量。
· 速度:處理數(shù)據(jù)的緊急程度與產(chǎn)生/獲取數(shù)據(jù)的頻率相關(guān),還與決策中迫切使用數(shù)據(jù)的需求有關(guān);即使是實(shí)時(shí)(或者幾乎實(shí)時(shí))。
· 種類:數(shù)據(jù)不再(僅)是結(jié)構(gòu)化的,所以我們得忘記適用于傳統(tǒng)數(shù)據(jù)庫的東西。我們必須為添加各種格式的新數(shù)據(jù)源做準(zhǔn)備;純文本和多媒體內(nèi)容都包括在內(nèi)。
之后更多V被添加進(jìn)來:真實(shí)性 (數(shù)據(jù)必須真實(shí)、可靠、可用)、價(jià)值(數(shù)據(jù)應(yīng)有商業(yè)或社會價(jià)值)、易損性(數(shù)據(jù)必須合法、尊重隱私,并以安全的方式存儲和訪問)。
大數(shù)據(jù)可能是解決這些問題的方案。不要把它和本文解釋的第一個(gè)概念混淆了:大數(shù)據(jù)就是實(shí)現(xiàn)或促進(jìn)應(yīng)用數(shù)據(jù)科學(xué)領(lǐng)域先進(jìn)技術(shù)的事物,是數(shù)據(jù)的本質(zhì)要求。例如,作為數(shù)據(jù)科學(xué)家,我們試圖從數(shù)據(jù)集中得到答案。數(shù)據(jù)集不僅超過了RAM的大小,還超過了硬盤的大小。大數(shù)據(jù)為我們提供了跨多臺機(jī)器承載數(shù)據(jù)的分布式存儲技術(shù),以及并行處理數(shù)據(jù)的分布式處理技術(shù)。
數(shù)據(jù)湖是一個(gè)集中存儲庫,用于存儲各種數(shù)據(jù):結(jié)構(gòu)化數(shù)據(jù)(我們填入表格的數(shù)據(jù))、半結(jié)構(gòu)化數(shù)據(jù)(數(shù)據(jù)幾乎符合所有格式:CSV,日志,JSON,XML等)和非結(jié)構(gòu)化數(shù)據(jù)(文檔、電子郵件、PDF、圖片、視頻、音頻等)。數(shù)據(jù)是在公司內(nèi)部生成的還是在公司外部生成的并不重要。
“集中”意味著一切都將存儲在同一個(gè)地方,每個(gè)人都將訪問那兒獲取數(shù)據(jù)。這并不是說所有的數(shù)據(jù)都在同一個(gè)機(jī)器里或公司里;分布式存儲將成為一種慣例,數(shù)據(jù)還可以儲存在云端。
不要忽略一個(gè)重要的細(xì)節(jié):數(shù)據(jù)是以原始格式存儲的,沒有進(jìn)行任何更改。這意味著未來進(jìn)行分析時(shí)信息都是完整的;數(shù)據(jù)只有在使用時(shí)才會被處理和轉(zhuǎn)換。此外,把魚煮熟了再放回湖里有什么意義呢? :)
機(jī)器能思考嗎?
1950年,艾倫·圖靈(Alan Turing)提出了這個(gè)問題,他甚至發(fā)明了一個(gè)著名的測試,來評估機(jī)器給出的答案是否與人類的答案相似。從那以后,對人工智能的幻想就開始了,重點(diǎn)在于模仿人類行為。
你做過那個(gè)測試嗎?
人工智能不是《銀翼殺手》中的復(fù)制人,也不是《太空堡壘卡拉狄加》中的賽昂人。我們可以把人工智能定義為任何具有某種智能行為的機(jī)器或軟件。
什么是智能行為?
問得好!這就是有分歧的地方。隨著機(jī)器不斷被開發(fā)出新功能,以前被認(rèn)為是智能的任務(wù)也從人工智能環(huán)境中剝離了出來。
我們可將人工智能定義為能夠從其環(huán)境中正確解釋數(shù)據(jù)、從中學(xué)習(xí),并在不斷變化的環(huán)境中使用所獲得的知識來執(zhí)行特定任務(wù)的機(jī)器或軟件。
例如:一輛會自行停車的汽車不是智能汽車;它只是按照常規(guī)測量距離和移動。我們認(rèn)為能夠自動駕駛的汽車就是智能的,因?yàn)樗軌蚋鶕?jù)周邊發(fā)生的事件(在完全不確定的環(huán)境中)做出決定。
人工智能領(lǐng)域包括幾個(gè)分支,它們目前正處于鼎盛時(shí)期。將其可視化后就能準(zhǔn)確地知道我們在說什么:
數(shù)據(jù)挖掘是一項(xiàng)使用數(shù)據(jù)探索技術(shù)發(fā)現(xiàn)一些有趣(而不明顯)的模式的技術(shù)。
什么模式?例如:根據(jù)某些特征對數(shù)據(jù)進(jìn)行分組的方式、異常檢測(罕見值)、某些觀察值與其他值之間的相關(guān)性、某些事件的連續(xù)性、行為的識別等。
數(shù)據(jù)挖掘使用機(jī)器學(xué)習(xí)等方法。
機(jī)器學(xué)習(xí)是人工智能最重要的分支。它的任務(wù)是:研究和開發(fā)技術(shù),使機(jī)器能夠在沒有人類明確指令的情況下自學(xué),從而執(zhí)行特定的任務(wù)。
機(jī)器將從輸入數(shù)據(jù)集(稱為樣本或訓(xùn)練數(shù)據(jù))中學(xué)習(xí),根據(jù)算法檢測到的模式建立數(shù)學(xué)模型。該模型的最終目標(biāo)是對之后來自相同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行(準(zhǔn)確的)預(yù)測或決策。
傳統(tǒng)的機(jī)器學(xué)習(xí)主要有兩種類型:
· 監(jiān)督學(xué)習(xí):當(dāng)訓(xùn)練數(shù)據(jù)被“標(biāo)記”時(shí)。這意味著,對于每個(gè)樣本,我們都有與觀察到的變量(輸入)和我們想要學(xué)習(xí)預(yù)測或分類的變量(輸出、目標(biāo)或因變量)相對應(yīng)的值。在這種類型中,我們找到了回歸算法(預(yù)測數(shù)值的算法)和分類算法(輸出僅限于某些分類值時(shí))。
· 無監(jiān)督學(xué)習(xí):當(dāng)訓(xùn)練數(shù)據(jù)沒有標(biāo)記時(shí)(我們沒有目標(biāo)變量)。這里的目標(biāo)是找到某種結(jié)構(gòu)或模式,例如對訓(xùn)練樣本進(jìn)行分組,這樣我們就可以對未來的樣本進(jìn)行分類。
傳統(tǒng)的機(jī)器學(xué)習(xí)已經(jīng)讓位于更復(fù)雜或更現(xiàn)代的學(xué)習(xí)類型:
· 集成方法:基本上是幾種算法聯(lián)合使用,將它們的結(jié)果結(jié)合起來以獲取更好的結(jié)果。盡管XGBoost憑借在Kaggle的勝利而得名,但最常見的例子還是隨機(jī)森林。
· 強(qiáng)化學(xué)習(xí):機(jī)器通過反復(fù)試誤來學(xué)習(xí),這得益于它對周圍環(huán)境的迭代做出的反饋。你可能聽說過AlphaGo或AlphaStar(在《星際爭霸2》中實(shí)力碾壓人類)。
· 深度學(xué)習(xí):皇冠上的寶石……
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)子領(lǐng)域。
它基于人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用。人工神經(jīng)網(wǎng)絡(luò)是一個(gè)計(jì)算模型,具有分層結(jié)構(gòu),由相互連接的節(jié)點(diǎn)共同工作而形成。這個(gè)名字的靈感來自(或試圖模仿)大腦的生物神經(jīng)網(wǎng)絡(luò)。
雖然神經(jīng)網(wǎng)絡(luò)已經(jīng)被研究和使用多年,但該領(lǐng)域的進(jìn)展一直很緩慢;主要是限于計(jì)算能力不足。盡管深度學(xué)習(xí)近些年來取得蓬勃發(fā)展,這多少要?dú)w功于神經(jīng)網(wǎng)絡(luò)訓(xùn)練采用了CPU,但其開始不過才十年。
人們普遍認(rèn)為:任何機(jī)器學(xué)習(xí)問題,無論多么復(fù)雜,都可以通過神經(jīng)網(wǎng)絡(luò)解決,只要把它做得足夠大就行了。如今,深度學(xué)習(xí)的發(fā)展帶動了人工智能其他領(lǐng)域的發(fā)展;無論是更傳統(tǒng)的領(lǐng)域(改善獲得的結(jié)果),還是最流行的領(lǐng)域:自然語言處理、人工視覺、語音識別、逼真多媒體內(nèi)容的生成等。
這個(gè)術(shù)語指在公司內(nèi)部使用數(shù)據(jù),幫助經(jīng)理做出決策。
BI工具(報(bào)告、儀表板)告訴我們發(fā)生了什么,因此基于這些工具的決策將是被動的。
一個(gè)隨機(jī)儀表板
它是傳統(tǒng)商業(yè)智能的進(jìn)化,利用大數(shù)據(jù)的進(jìn)步,使企業(yè)能夠探索數(shù)據(jù),并與更多的數(shù)據(jù)交互,這些數(shù)據(jù)不限類型不限來源;所有這些(幾乎)都是實(shí)時(shí)的。它還利用了數(shù)據(jù)科學(xué)領(lǐng)域的進(jìn)步,因此從數(shù)據(jù)中獲得的發(fā)現(xiàn)將更有價(jià)值。
BA工具告知我們過去和現(xiàn)在發(fā)生的;它們也會根據(jù)我們的行為預(yù)測未來,甚至模擬可能的未來。因此,所做的決定可能是主動的,而不是被動的。
BA的目的是使整個(gè)公司都能從這些發(fā)現(xiàn)中受益,這意味著公司在所有領(lǐng)域都能做出更好(和更快)的決策。