商業(yè)和生活中,我們處處能夠看到數(shù)據(jù)挖掘的影子,Target 百貨分析16歲的少女買無香型沐浴露之后,判斷她懷孕了;語言學(xué)家通過記錄自己孩子出生到3歲每天每秒鐘的狀態(tài)數(shù)據(jù),發(fā)現(xiàn)語言記憶和周遭環(huán)境相關(guān)性更大;調(diào)查局通過數(shù)據(jù)分析和挖掘發(fā)現(xiàn)改善公共環(huán)境有助于降低犯罪率。今天我們將從以下幾個方面來揭開數(shù)據(jù)挖掘的神秘面紗。
——導(dǎo)讀
數(shù)據(jù)挖掘涉及的學(xué)科?
首先我們可以看出,數(shù)據(jù)分析與挖掘位于中間,也就是紅點的位置,而旁邊有很多交叉的學(xué)科。
數(shù)據(jù)庫系統(tǒng)是現(xiàn)在比較普及的一種存儲數(shù)據(jù)信息的方式,也就是電子檔案的方式。統(tǒng)計學(xué)是一種傳統(tǒng)的數(shù)據(jù)分析方法,它的起源比較早。模式識別、機器學(xué)習(xí)和人工智能與數(shù)據(jù)挖掘的交集點不多。機器學(xué)習(xí),它本身是我們?nèi)祟愒谘芯咳斯ぶ悄艿囊环N分析方法,提出了一些計算機的算法,而這些算法是和數(shù)據(jù)分析、數(shù)據(jù)挖掘是有交集的,比如前段時間比較火熱的Alphago在人工神經(jīng)網(wǎng)絡(luò)方面的成功應(yīng)用,而這些算法目前也逐漸應(yīng)用在了商業(yè)范圍內(nèi)。
總體來說,數(shù)據(jù)分析與數(shù)據(jù)挖掘肯定是一門高度交叉的學(xué)科,而且包含的知識點,領(lǐng)域特別廣,是綜合社會科學(xué)和自然科學(xué)的一種交叉的一種學(xué)問。
數(shù)據(jù)挖掘的“道法術(shù)器”
▋1. 道以明向:建模流程、建模技術(shù)、業(yè)務(wù)場景的理解。
道,是放在最上層的東西,不管是什么學(xué)科,什么學(xué)問。而具體在數(shù)據(jù)挖掘領(lǐng)域,道著眼于對于整個數(shù)據(jù)挖掘的整套基本流程和建模技術(shù)、業(yè)務(wù)三者結(jié)合的深刻了解。需要大量的經(jīng)驗積累形成自己的一套思路和方法。
▋2. 法以立本:數(shù)據(jù)挖掘的標(biāo)準(zhǔn)流程化的步驟。
目前比較成熟的數(shù)據(jù)挖掘標(biāo)準(zhǔn)化流程如KDD(Knowledge Discovery in Database),CRISP-DM。
▋3. 術(shù)以立策:數(shù)據(jù)挖掘的具體建模方法。
‖?描述性(無監(jiān)督學(xué)習(xí))
·用處:分析具有多個屬性的數(shù)據(jù)集,找出 潛在的模式,沒有因變量
·場景:觀察個體之間的相似程度,例如根據(jù)年齡、性別、收入等因素進(jìn)行客戶細(xì)分;根據(jù)客戶對多個產(chǎn)品的購買,發(fā)現(xiàn)產(chǎn)品之間的相關(guān)性,做精準(zhǔn)商品推薦。
·主要算法:聚類、關(guān)聯(lián)分析、因子分析、主成份分析、社交網(wǎng)絡(luò)分析、…
‖?預(yù)測性(有監(jiān)督學(xué)習(xí))
·用處:用一個或多個自變量預(yù)測因變量的值
·場景:客戶是否會違約是一個因變量,可以用客戶的性別、年齡、收入、職位、經(jīng)濟狀況、歷史信 用狀況等因素進(jìn)行預(yù)測
·主要算法:決策樹、線性回歸、Logistic回歸、支持向量機、神經(jīng)網(wǎng)絡(luò)、判別分析、…
▋4. 器以成事:建模的具體工具。
傳統(tǒng)商業(yè)分析工具SAS,SPSS,開源類工具R,python,weka,Hadoop等。