大數(shù)據(jù)的非隨機樣本
——任世賢講大數(shù)據(jù)之六
任世賢
(貴州攀特工程統(tǒng)籌技術(shù)信息研究所)
2015年11月15日
在《大數(shù)據(jù)時代》第1章的開首,用了一個醒目的標題 “更多:不是隨機樣本,而是全體數(shù)據(jù)”。維克托?邁爾-舍恩伯格所說的“全體數(shù)據(jù)”是什么呢? 所分析的相關(guān)問題“能獲得的所有數(shù)據(jù)”就是這里的“全體數(shù)據(jù)”。
邁爾的“所有數(shù)據(jù)”又該如何理解呢?邁爾在書中寫道:“大數(shù)據(jù)是指不用隨機分析方法這樣的捷徑,而(是)采用所有數(shù)據(jù)的方法”。應(yīng)當說明,這里的“(是)”為作者所加?!八袛?shù)據(jù)”是大數(shù)據(jù)分析應(yīng)用的數(shù)據(jù),而不是隨機分析方法所采用的數(shù)據(jù)。這可以作為他“所有數(shù)據(jù)”的補充解釋。
邁爾在書中舉了一個精彩的例子:與傳統(tǒng)相機只可以記錄一束光不同,Lytro相機可以記錄光場里所有的光,達到1100萬束之多。這樣,用戶沒有必要在照相時就聚焦,而可以在照片生成后再根據(jù)需要確定。這是因為,Lytro相機已經(jīng)捕捉到了光場里的全部光束,所以用戶只要選擇聚焦圖像中的任意一點就可以了。記錄了光場里的全部光束,也就是收集了所有的數(shù)據(jù),“樣本=總體”——這就是Lytro相機的創(chuàng)新之處。與普通相機相比,Lytro相機的照片獲得了“復用性”可以循環(huán)利用。Lytro相機的例子很好地揭示了邁爾“所有數(shù)據(jù)”的內(nèi)涵。
在《大數(shù)據(jù)時代》第1章的開首,維克托?邁爾-舍恩伯格這樣說道:“我們需要的是所有的數(shù)據(jù),‘樣本=總體’。” 邁爾的“所有數(shù)據(jù)”是“樣本=總體”的數(shù)據(jù)。
人類記錄和累積數(shù)據(jù)的歷史是非常早的。只是在有了計算機以及數(shù)據(jù)庫技術(shù)后,才得到較為廣泛的推廣和應(yīng)用。例如,在銀行、電信等這些特殊的行業(yè),顧客的使用記錄最先被完整地記錄下來。在小數(shù)據(jù)時代,因為記錄、儲存和分析數(shù)據(jù)的工具不夠好,只能收集少量數(shù)據(jù)進行分析。為了讓分析變得簡單,建立很多機構(gòu),我們采用的都是使用盡可能少的信息的技術(shù),因為統(tǒng)計學的一個目的就是用盡可能少的數(shù)據(jù)來證實盡可能重大的發(fā)現(xiàn)。于是,我們形成了一種習慣,那就是在我們的制度、處理過程和激勵機制中盡可能地減少數(shù)據(jù)的使用。隨機分析和隨機采樣就是這樣的方法和手段。
隨機采樣取得了巨大的成功,成為現(xiàn)代社會、現(xiàn)代測量領(lǐng)域的主心骨。但是邁爾指出:“這只是一條捷徑,是在不可收集和分析全部數(shù)據(jù)的情況下的選擇,它本身存在許多固有的缺陷”。隨機采樣的成功依賴于采樣的絕對隨機性,但是實現(xiàn)采樣的隨機性非常困難。一旦采樣過程中存在任何偏見,分析結(jié)果就會相去甚遠。
可是,現(xiàn)在一切都改變了,數(shù)據(jù)處理技術(shù)的進步可謂翻天覆地,日新月異。因此,邁爾說:“我們會收集所有的數(shù)據(jù),即‘樣本=總體’?!?span lang='EN-US'>
大數(shù)據(jù)的分析也是要獲取“樣本”的。如何正確獲取大數(shù)據(jù)分析的樣本(或“所有數(shù)據(jù)”的樣本)呢?在《大數(shù)據(jù)時代》中關(guān)于“所有數(shù)據(jù)”舉了這樣一個案例:艾伯特-拉斯洛·巴拉巴西和他的同事想研究人與人之間的互動。于是他們調(diào)查了四個月內(nèi)所有的移動通信記錄。這個通信記錄是“一個為全美五分之一人口提供服務(wù)的無線運營商提供的”。邁爾說“這是第一次在全社會層面用接近于“樣本=總體”的數(shù)據(jù)資料進行網(wǎng)絡(luò)分析?!币粋€僅僅是全美1/5人口四個月的通信記錄提供的數(shù)據(jù),能夠作為分析美國全社會層面的樣本嗎?
系統(tǒng)科學理論的研究成果指出:部分與整體之間具有相似性;整體包含部分,部分反映整體。采樣分析的精確性隨著采樣隨機性的增加而大幅提高,但卻與樣本數(shù)量的增加關(guān)系不大。對1100人進行的關(guān)于“是否”問題的抽樣調(diào)查有著很高的精確性,精確度甚至超過了對所有人進行調(diào)查時的 97%。不管是調(diào)查10萬人還是1億人,20次調(diào)查里有19都是這樣。為什么會這樣?邁爾寫道:“原因很復雜,但是有一個比較簡單的解釋就是,當樣本數(shù)量達到了某個值之后,我們從新個體身上得到的信息會越來越少,就如同經(jīng)濟學中的邊際效應(yīng)遞減一樣”。因此,作者認為,這個案例所用的數(shù)據(jù)是大數(shù)據(jù)分析的“所有數(shù)據(jù)”。這里,作者所用的是定性分析方法。大數(shù)據(jù)分析本質(zhì)上是定量分析。在定量分析之前,必須做好定性分析。定性分析是定量分析的基礎(chǔ),定性分析錯了,定量分析也就失去了其意義和價值。
近來,英國媒稱谷歌流感預測連續(xù)三年“不靠譜”,稱該系統(tǒng)多年來一直高估了美國的流感病例,并指出:這項失敗凸顯了依賴大數(shù)據(jù)技術(shù)的危險性。是什么原因造成谷歌流感預測的失敗呢?是“所有數(shù)據(jù)”即“樣本=總體”嗎?《自然》雜志報道中提出這樣一種看法,認為媒體對于流感爆發(fā)的過分關(guān)注及炒作,是導致谷歌流感趨勢數(shù)據(jù)不準確的主要原因。作者認為,谷歌第一年發(fā)布的流感預測應(yīng)當是比較準確的;但是,在諸多媒體對此成果進行報道后,尤其是在一些媒體借機炒作之后,谷歌的工程師們沒有根據(jù)互聯(lián)網(wǎng)上關(guān)于流感預測環(huán)境的變化對其算法進行實時調(diào)整,最后造成了第二年和第三年預測的連續(xù)偏高的失真。谷歌流感預測的失敗,絕不是“所有數(shù)據(jù)”即“樣本=總體”的失敗,它為后來的大數(shù)據(jù)分析提供了寶貴的資料。作者深信,谷歌流感預測的項目總結(jié)了失敗的教訓后,一定能夠獲得成功。
最后,本文作如下的幾點小結(jié):
(1)應(yīng)當從“所有數(shù)據(jù)”的角度來理解“全體數(shù)據(jù)”?!八袛?shù)據(jù)”是所分析問題的所有數(shù)據(jù),是專題問題的所有數(shù)據(jù),是專業(yè)問題的所有數(shù)據(jù),這是“樣本=總體”的數(shù)據(jù)。
(2)部分與整體之間具有相似性;整體包含部分,部分反映整體。這是數(shù)據(jù)樣本存在的理論依據(jù)。在大數(shù)據(jù)時代,隨機樣本和“樣本=總體”的大數(shù)據(jù)樣本都具有其特定的價值,二者具有互補性。
(3)定性分析是定量分析的基礎(chǔ)。大數(shù)據(jù)分析是定量分析。在確定大數(shù)據(jù)樣本時,必須先做好定性分析。項目的啟動是這樣,項目的跟蹤同樣也是這樣。