大數據與統計新(xīn)思維
作(zuò)者:admin  來(lái)源: 36大數據  發表時(shí)間(jiān):2016-6-21  點擊:3507

譯着《大數據時(shí)代》(英國ViktorMayer-Schǒnberger,KennethCukier着)和《駕馭大數據》(美國BillFranks着),以及我國學者塗子(zǐ)沛、郭曉科的《大數據》等幾本書引起了(le)廣泛的關(guān)注,其他各種媒體(tǐ)關(guān)于大數據的討(tǎo)論也(yě)層出不窮,大數據已成為(wèi)流行語。有人(rén)認為(wèi),大數據是一(yī)場(chǎng)新(xīn)的革命,将橫掃一(yī)切領域,重構世界。不少國家已将大數據作(zuò)為(wèi)國家發展戰略,而商(shāng)業領域更是将其視(shì)為(wèi)下(xià)一(yī)個(gè)投資的寶庫。毫無疑問,大數據時(shí)代已經來(lái)臨,它正在悄悄地改變着人(rén)們的行為(wèi)與思維,難以阻擋,無法抗拒。在計算(suàn)機科學、電子(zǐ)商(shāng)務(wù)等領域已率先在大數據技術開發與應用方面做出不俗成就(jiù)的時(shí)候,以數據為(wèi)研究對象的統計學該如(rú)何應對?無動于衷還是盲目追從?正确的态度應該是理(lǐ)性對待、積極跟進、改變思維、謀求發展。

一(yī):對大數據的初步認識

  到底什(shén)麽是大數據,不同的學科領域、不同行業的從業人(rén)員(yuán)肯定會有不同的理(lǐ)解。與傳統意義上(shàng)的數據相比,大數據的“大”與“數據”都有了(le)新(xīn)的含義,絕不僅僅是體(tǐ)量的問題,更重要的是數據的内涵問題。或許,“大”與“數據”根本就(jiù)不能(néng)分(fēn)開,隻有把“大數據”當作(zuò)一(yī)個(gè)整體(tǐ)概念來(lái)理(lǐ)解才有意義。那麽從統計學的角度,我們該如(rú)何來(lái)理(lǐ)解大數據?筆者認為(wèi)大數據不是基于人(rén)工設計、借助傳統方法而獲得的有限、固定、不連續、不可擴充的結構型數據,而是基于現(xiàn)代信息技術與工具可以自動記錄、儲存和連續擴充的、大大超出傳統統計記錄與儲存能(néng)力的一(yī)切類型的數據。有人(rén)用4V(Volume,Variety、Velocity和Value)來(lái)形容大數據的特征,最根本之處就(jiù)是數字化(huà)基礎上(shàng)的數據化(huà)。通俗地說(shuō),大數據就(jiù)是一(yī)切可記錄信号的集合。

  如(rú)果說(shuō),傳統統計研究的數據是有意收集的結構化(huà)的樣本數據,那麽現(xiàn)在我們面對的數據則是一(yī)切可以記錄和存儲、源源不斷擴充、超大容量的各種類型的數據。樣本數據與大數據的這(zhè)種區别,具有什(shén)麽樣的統計學意義?我們知道,樣本數據是按照特定研究目的、依據抽樣方案獲得的格式化(huà)的數據,不僅數據量有限,而且如(rú)果過程偏離方案,數據就(jiù)不能(néng)滿足要求。基于樣本數據所進行的分(fēn)析,其空間(jiān)十分(fēn)有限———通常無法滿足多層次、多角度的需要,若遇到抽樣方案事(shì)先未曾考慮到的問題,數據的不可擴充性缺點就(jiù)暴露無疑。而大數據是一(yī)切可以通過現(xiàn)代信息技術記錄和量化(huà)的數據,不僅所蘊含的信息量巨大,而且不受各種框框的限制———任何種類的數據都來(lái)者不拒、也(yě)無法抵拒。不難發現(xiàn),大數據相比于樣本數據的最大優點是,具有巨大的數據選擇空間(jiān),可以進行多維、多角度的數據分(fēn)析。更為(wèi)重要的是,由于大數據的大體(tǐ)量與多樣性,樣本不足以呈現(xiàn)的某些(xiē)規律,大數據可以體(tǐ)現(xiàn);樣本不足以捕捉的某些(xiē)弱小信息,大數據可以覆蓋;樣本中被認為(wèi)異常的值,大數據得以認可。這(zhè)将極大地提高我們認識現(xiàn)象的能(néng)力,避免丢失很多重要的信息,避免失去很多決策選擇的機會。

  這(zhè)裏,我們自然就(jiù)想到了(le)大量觀察與大數據這(zhè)兩個(gè)概念中的“大”的區别。對于傳統的統計研究方法而言,大量觀察法是基礎,是收集數據的基本理(lǐ)論依據,其主要思想是要對足夠量的個(gè)體(tǐ)進行調查觀察,以确保有足夠的微觀基礎來(lái)消除或削弱個(gè)體(tǐ)差異對整體(tǐ)特征的影響,足以歸納出關(guān)于總體(tǐ)的數量規律。所以,這(zhè)裏的“大”是足夠的意思。大量觀察法的極端情況就(jiù)是普查,但(dàn)限于各種因素不能(néng)經常進行,所以一(yī)般情況下(xià)隻能(néng)進行抽樣調查,這(zhè)就(jiù)需要精确計算(suàn)最小的樣本量。基于大量觀察法獲得的樣本數據才符合大數法則或大數定律,才能(néng)用以推斷總體(tǐ)。而大數據則指不限量的數據,是基于現(xiàn)代信息技術的一(yī)切可以記錄的全體(tǐ)數據,其特征之一(yī)就(jiù)是盡量多地包含數據,它與樣本容量無關(guān),隻與信息來(lái)源的數量與儲存容量有關(guān)。因此,這(zhè)裏的“大”是全體(tǐ)的意思。

  可見,統計學的研究對象沒有變,變的是數據的來(lái)源、體(tǐ)量、類型、速度與量化(huà)的方式。這(zhè)種變化(huà)對統計研究帶來(lái)了(le)什(shén)麽樣的挑戰?《大數據時(shí)代》提出了(le)三個(gè)最顯着的變化(huà):一(yī)是樣本等于總體(tǐ),二是不再追求精确性,三是相關(guān)分(fēn)析比因果分(fēn)析更重要。這(zhè)些(xiē)觀點具有很強的震撼力,迫使我們對現(xiàn)有的統計研究思維進行反思。盡管這(zhè)些(xiē)觀點值得進一(yī)步商(shāng)榷,但(dàn)至少告訴我們這(zhè)樣一(yī)個(gè)道理(lǐ):統計研究對象的基礎變了(le),統計思維也(yě)要跟着變化(huà),否則統計研究的對象隻是全部數據的5%,而且越來(lái)越少,那又怎麽能(néng)說(shuō)統計學是一(yī)門關(guān)于數據的科學呢(ne)?又怎麽去完善和發展開展數據分(fēn)析研究的統計方法論呢(ne)?

二:統計思維的變化(huà)

  改變統計思維,是大數據時(shí)代的必然要求。否則,統計學科就(jiù)有可能(néng)被大數據的潮流所吞沒,至少會被邊緣化(huà),失去一(yī)次重要的參與推動曆史變革的機遇。當然,統計思維的變化(huà)應該以一(yī)個(gè)永恒不變的主題為(wèi)前提,那就(jiù)是通過數據分(fēn)析去揭示事(shì)物的真相,這(zhè)個(gè)真相就(jiù)是事(shì)物的生(shēng)存規律、聯系規律和發展規律。也(yě)就(jiù)是說(shuō),數據分(fēn)析要以數據背後的數據去還原事(shì)物的本來(lái)面目,以達到求真的目的。如(rú)果說(shuō),我們原來(lái)限于各種條件隻能(néng)根據有限的樣本數據去實現(xiàn)這(zhè)個(gè)目的,那麽現(xiàn)在我們則可以在很多方面借助大數據去實現(xiàn)這(zhè)個(gè)目的,關(guān)鍵就(jiù)看我們開展數據分(fēn)析的能(néng)力有多大,或者說(shuō)利用大數據、從一(yī)切數據中提取有價值信息的能(néng)力有多大———因為(wèi)大數據無疑增加了(le)統計分(fēn)析的難度,而這(zhè)又首先取決于我們統計思維能(néng)否适應大數據時(shí)代的變化(huà)。正如(rú)邁爾–舍恩伯格所說(shuō):大數據發展的核心動力就(jiù)是人(rén)類測量、記錄和分(fēn)析世界的渴望。

  那麽,統計思維應該發生(shēng)怎樣的變化(huà)?筆者認為(wèi)主要要有如(rú)下(xià)三大變化(huà):

  (一(yī))認識數據的思維要變化(huà)

  前面已經提到,與傳統數據相比,大數據不僅體(tǐ)量大、變化(huà)快(kuài),而且其來(lái)源、類型和量化(huà)方式都發生(shēng)了(le)根本性的變化(huà),使得數據雜亂、多樣、不規整。

  首先,從來(lái)源上(shàng)看,傳統的數據收集因為(wèi)具有很強的針對性,因此數據的提供者大多是确定的,身(shēn)份特征是可識别的,有的還可以進行事(shì)後核對。但(dàn)大數據通常來(lái)源于物聯網,不是為(wèi)了(le)特定的數據收集目的而産生(shēng),而是人(rén)們一(yī)切可記錄的信号(當然,任何信号的産生(shēng)都有其目的,但(dàn)它們是發散的),并且身(shēn)份識别十分(fēn)困難。從某種意義上(shàng)講,大數據來(lái)源的微觀基礎是很難追溯的。

  其次,從類型上(shàng)看,傳統數據基本上(shàng)是結構型數據,即定量數據加上(shàng)少量專門設計的定性數據,格式化(huà),有标準,可以用常規的統計指标或統計圖表加以表現(xiàn)。但(dàn)大數據更多的是非結構型數據、半結構型數據或異構數據,包括了(le)一(yī)切可記錄、可存儲的信号,多樣化(huà)、無标準、難以用傳統的統計指标或統計圖表加以表現(xiàn)。同時(shí),不同的網絡信息系統有不同的數據識别方式,相互之間(jiān)也(yě)沒用統一(yī)的數據分(fēn)類标準。再者,現(xiàn)在有的數據庫是非關(guān)系型的數據庫,不需要預先設定記錄結構即可自動包容大量各種各樣的數據。

  第三,從量化(huà)方式上(shàng)看,傳統數據的量化(huà)處理(lǐ)已經有一(yī)整套較為(wèi)完整的方式與過程,量化(huà)的結果可直接用于各種運算(suàn)與分(fēn)析。但(dàn)大數據中大量的非結構化(huà)數據如(rú)何量化(huà)(結構化(huà))、如(rú)何從中提取信息、如(rú)何與結構化(huà)數據對接是一(yī)個(gè)嶄新(xīn)的問題。正如(rú)Franks所說(shuō):“幾乎沒有哪種分(fēn)析過程能(néng)夠直接對非結構化(huà)數據進行分(fēn)析,也(yě)無法直接從非結構化(huà)的數據中得出結論。”更為(wèi)重要的是,“量化(huà)”的含義恐怕也(yě)不一(yī)樣了(le),即此“量化(huà)”不一(yī)定等同于彼“量化(huà)”,量化(huà)結果的表現(xiàn)形式自然也(yě)不相同。顯然,我們不能(néng)套用已有的方式去量化(huà)非結構化(huà)數據。

  可以說(shuō),大數據是雜亂、不規整、良莠不齊的,但(dàn)我們不能(néng)因此而回避它、拒絕它,隻能(néng)接納它、包容它。我們需要将統計研究的對象範圍從結構型數據擴展到一(yī)切數據,需要重新(xīn)思考數據的定義和分(fēn)類方法,并以此為(wèi)基礎發展和創新(xīn)統計分(fēn)析方法。從某種意義上(shàng)講,沒有無用的數據,隻有未被欣賞的數據,關(guān)鍵是我們從哪個(gè)角度看數據。

  (二)收集數據的思維要變化(huà)

  收集數據是開展統計分(fēn)析的前提,“沒有黏土(tǔ),如(rú)何做磚?”以往,收集統計數據的思維是先确定統計分(fēn)析研究的目的,然後需要什(shén)麽數據就(jiù)收集什(shén)麽數據,所以要精心設計調查方案,嚴格執行每個(gè)流程,但(dàn)往往是投入大而數據量有限。現(xiàn)在,我們擁有了(le)大數據,就(jiù)等于擁有了(le)超大量可選擇的數據———備選“黏土(tǔ)”的體(tǐ)量與種類都極大地增加了(le),所要做的最重要的工作(zuò)就(jiù)是比較與選擇,因此我們的思維應該是如(rú)何充分(fēn)利用大數據,凡是大數據源中能(néng)找到的數據就(jiù)不再需要進行專門的調查。

  但(dàn)是,由于大數據來(lái)源與種類的多樣性,以及數據增加的快(kuài)速性,我們在享受數據的豐富性的同時(shí)也(yě)不得不面臨這(zhè)樣一(yī)些(xiē)困境:存儲能(néng)力夠不夠,分(fēn)析能(néng)力夠不夠(是否及時(shí)、充分(fēn)),如(rú)何甄别數據的真僞,如(rú)何選擇關(guān)聯物,如(rú)何提煉和利用數據,如(rú)何确定分(fēn)析節點?現(xiàn)在TB級的數據庫已經很多,PB級的數據庫也(yě)不少見,以後還會出現(xiàn)EB、甚至ZB、YB級的數據庫。今天的大數據,明天就(jiù)不再是大數據。這(zhè)樣一(yī)來(lái),電子(zǐ)存儲能(néng)力能(néng)否跟得上(shàng)數據增加的速度就(jiù)成為(wèi)首要的問題。如(rú)果讓數據庫自動更新(xīn)就(jiù)有可能(néng)失去一(yī)些(xiē)寶貴的數據信息,而到了(le)一(yī)定級别以後擴充存儲容量或對數據進行拷貝,其代價是十分(fēn)巨大的,因此我們不得不對數據進行分(fēn)類、篩選,有針對地删除那些(xiē)垃圾數據、不重要或次重要的數據。如(rú)果說(shuō)以前有針對地獲得數據叫做收集,那麽今後有選擇地删除數據就(jiù)意味着收集。也(yě)就(jiù)是說(shuō),大數據時(shí)代的數據收集将更多的是從已有的超大量數據中進行再過濾、再選擇。因此,我們要做好(hǎo)(hǎo)丢棄一(yī)部分(fēn)數據的準備。

  當然,并不是任何數據都可以從現(xiàn)成的大數據中獲得,這(zhè)裏存在一(yī)個(gè)針對性、安全性和成本比較問題。因此,我們既要繼續采用傳統的方式方法去收集特定需要的數據,又要善于利用現(xiàn)代網絡信息技術和各種數據源去收集一(yī)切相關(guān)的數據,并善于從大數據中進行再過濾、再選擇。問題在于什(shén)麽是無用的或不重要的數據?該如(rú)何過濾與選擇數據?這(zhè)就(jiù)需要對已經存在的數據進行重要性分(fēn)析、真僞别和關(guān)聯物定位。

  此外,大的數據庫可能(néng)需要将信息分(fēn)散在不同的硬盤或電腦上(shàng),這(zhè)樣一(yī)來(lái),在不能(néng)同步更新(xīn)數據信息的情況下(xià)如(rú)何選擇、調用和匹配數據又是一(yī)個(gè)問題。因此從某種意義上(shàng)講,從大數據中收集數據就(jiù)是識别、整理(lǐ)、提煉、汲取(删除)、分(fēn)配和存儲元數據的過程。

  (三)分(fēn)析數據的思維要變化(huà)

  基于上(shàng)述兩個(gè)變化(huà),數據分(fēn)析的思維必然要跟着變化(huà),那就(jiù)是要主動利用現(xiàn)代信息技術與各種軟件工具從大數據中挖掘出有價值的信息,并在這(zhè)個(gè)過程中豐富和發展統計分(fēn)析方法。

  關(guān)于數據分(fēn)析思維的變化(huà),特别需要強調三點:

  第一(yī),傳統的統計分(fēn)析過程是“定性—定量—再定性”,第一(yī)個(gè)定性是為(wèi)了(le)找準定量分(fēn)析的方向,主要靠經驗判斷,這(zhè)在數據短缺、分(fēn)析運算(suàn)手段有限的情況下(xià)很重要。現(xiàn)在我們是在大數據中找礦,直接依賴數據分(fēn)析做出判斷,因此基礎性的工作(zuò)就(jiù)是找到“定量的回應”,這(zhè)在存儲能(néng)力大為(wèi)增強、分(fēn)析技術與分(fēn)析速度大為(wèi)提高的今天,探測“定量的回應”變得越來(lái)越簡單,所要做的就(jiù)是直接從各種“定量的回應”中找出那些(xiē)真正的、重要的數量特征和數量關(guān)系,得出可以作(zuò)為(wèi)判斷或決策依據的結論,因此統計分(fēn)析的過程可以簡化(huà)為(wèi)“定量—定性”,從而大大提高得到新(xīn)的定性結論的可能(néng)性。

  第二,傳統的統計實證分(fēn)析,一(yī)般都要先根據研究目的提出某種假設,然後通過數據的收集與分(fēn)析去驗證該假設是否成立,其分(fēn)析思路(lù)是“假設—驗證”,但(dàn)這(zhè)種驗證往往由于受到假設的局限、指标選擇的失當、所需數據的缺失而得不出真正的結論。特别是,一(yī)旦假設本身(shēn)不科學、不符合實際,那麽分(fēn)析結論就(jiù)毫無用處、甚至扭曲事(shì)實真相。事(shì)實證明,很多這(zhè)樣的實證分(fēn)析純粹是為(wèi)了(le)湊合假設。現(xiàn)在,我們有了(le)大數據,可以不受任何假設的限制而從中去尋找關(guān)系、發現(xiàn)規律,然後再加以總結、形成結論。也(yě)就(jiù)是說(shuō),分(fēn)析的思路(lù)是“發現(xiàn)—總結”。這(zhè)将極大地豐富統計分(fēn)析的資源與空間(jiān),有助于發現(xiàn)更多意外的“發現(xiàn)”。

  第三,傳統的統計推斷分(fēn)析,通常是基于分(fēn)布理(lǐ)論,以一(yī)定的概率為(wèi)保證,根據樣本特征去推斷總體(tǐ)特征,其邏輯關(guān)系是“分(fēn)布理(lǐ)論—概率保證—總體(tǐ)推斷”,推斷的評判标準與具體(tǐ)樣本無關(guān),但(dàn)推斷是否正确卻取決于樣本的好(hǎo)(hǎo)壞。現(xiàn)在,大數據強調的是全體(tǐ)數據,總體(tǐ)特征不再需要根據分(fēn)布理(lǐ)論進行推斷,隻需進行計數或計量處理(lǐ)即可。不僅如(rú)此,還可以根據全面數據和實際分(fēn)布來(lái)判斷其中出現(xiàn)某類情況的可能(néng)性有多大,其邏輯關(guān)系變成了(le)“實際分(fēn)布—總體(tǐ)特征—概率判斷”,也(yě)即概率不再是事(shì)先預設,而是基于實際分(fēn)布得出的判斷。按照邁爾-舍恩伯格的觀點,這(zhè)個(gè)概率判斷就(jiù)可用于預測了(le)。

  伴随着上(shàng)述三大變化(huà),統計分(fēn)析評價的标準又該如(rú)何變化(huà)?傳統統計分(fēn)析的評價标準無非兩個(gè)方面,一(yī)是可靠性評價,二是有效性評價,而這(zhè)兩種評價都因抽樣而生(shēng)。所謂可靠性評價是指用樣本去推斷總體(tǐ)有多大的把握程度,是以概率來(lái)度量的———有時(shí)表現(xiàn)為(wèi)置信水平,有時(shí)表現(xiàn)為(wèi)顯着性水平。特别是在假設檢驗和模型拟合度評價中,顯着性水平怎麽定是一(yī)個(gè)難題,一(yī)直存在争議(yì),因為(wèi)所參照的分(fēn)布類型不同其統計量就(jiù)不同,顯着性評價的臨界值就(jiù)不同,而臨界值又與顯着性水平的高低(dī)直接相關(guān)。然而在大數據的背景下(xià),大數據在一(yī)定程度上(shàng)就(jiù)是全體(tǐ)數據,我們可以對全體(tǐ)數據進行計數或計量分(fēn)析,這(zhè)就(jiù)不存在以樣本推斷總體(tǐ)的問題了(le),那麽這(zhè)時(shí)還有沒有可靠性的問題?還要不要确定置信水平?怎麽确定?依據是什(shén)麽?如(rú)何比較來(lái)自不同容量數據庫的分(fēn)析結論的可靠性?

  所謂有效性評價指的是真實性,即誤差大小。這(zhè)裏又有兩個(gè)相關(guān)的概念:準确性與精确性。準确性一(yī)般是指一(yī)個(gè)觀察值與真實值的吻合程度,通常情況下(xià)是無法做出測度的;而精确性一(yī)般指樣本統計量分(fēn)布的離散程度,以抽樣分(fēn)布的标準差來(lái)衡量。很顯然,精确性是針對樣本數據而言的。也(yě)就(jiù)是說(shuō)樣本數據既有精确性問題又有準确性問題,樣本數據中的誤差既包括抽樣誤差也(yě)可能(néng)包括非抽樣誤差。抽樣誤差可以基于抽樣分(fēn)布理(lǐ)論進行計算(suàn)和控制,而非抽樣誤差隻能(néng)通過各種方式加以識别或判斷,但(dàn)多數情況下(xià)由于樣本量不是太大而可以得到較好(hǎo)(hǎo)的防範。但(dàn)對于大數據,由于它是全體(tǐ)數據,因而不再有抽樣誤差問題,隻有非抽樣誤差問題,也(yě)就(jiù)是說(shuō)大數據的真實性隻表現(xiàn)為(wèi)準确性而非精确性。然而由于大數據是超大量數據,再加上(shàng)混雜性與多樣性,因此其非抽樣誤差很難防範與控制,這(zhè)就(jiù)使得準确性評價問題變得更為(wèi)困難———如(rú)何測度?标準怎樣?

三:積極應對大數據

  面對大數據,我們唯有積極應對,别無選擇。如(rú)何應對,需要考慮以下(xià)幾個(gè)方面:

  (一(yī))需要改變總體(tǐ)、個(gè)體(tǐ)乃至樣本的定義方式

  傳統的統計分(fēn)析,是先有總體(tǐ),再有數據,即必須先确定總體(tǐ)範圍和個(gè)體(tǐ)單位,再收集個(gè)體(tǐ)數據,分(fēn)析總體(tǐ)。但(dàn)對大數據來(lái)說(shuō),情況完全不同了(le),是先有數據,再有總體(tǐ)。從某種意義上(shàng)說(shuō),大數據的産生(shēng)系統多數是非總體(tǐ)式的,即無事(shì)先定義的目标總體(tǐ),隻有與各個(gè)時(shí)點相對應的事(shì)後總體(tǐ),原因就(jiù)在于個(gè)體(tǐ)是不确定的,是變化(huà)着的,是無法事(shì)先編制名錄庫的,這(zhè)與傳統的總體(tǐ)與個(gè)體(tǐ)有很大的不同。更為(wèi)複雜的是,事(shì)後個(gè)體(tǐ)的識别也(yě)很困難,因為(wèi)同一(yī)個(gè)個(gè)體(tǐ)可能(néng)有多個(gè)不同的網絡符号或稱謂,而不同網絡系統的相同符号(稱謂)也(yě)未必就(jiù)是同一(yī)個(gè)個(gè)體(tǐ),而且還經常存在個(gè)體(tǐ)異位的情況(即某一(yī)個(gè)體(tǐ)利用另一(yī)個(gè)體(tǐ)的符号完成某種行為(wèi)),因此我們對于大數據往往是隻見“數據”的外形而不見“個(gè)體(tǐ)”的真容。但(dàn)對大數據的分(fēn)析,仍然有一(yī)個(gè)總體(tǐ)口徑問題,依然需要識别個(gè)體(tǐ)身(shēn)份。這(zhè)就(jiù)需要我們改變總體(tǐ)與個(gè)體(tǐ)的定義方式———盡管它們的内涵沒有變。與此對應,如(rú)果要從大數據庫中提取樣本數據,那麽樣本的定義方式也(yě)需要改變。當然,考慮到大數據的流動變化(huà)性,任何時(shí)點的總體(tǐ)都可以被理(lǐ)解為(wèi)一(yī)個(gè)截面樣本。

  (二)需要改變對不确定性的認識

  衆所周知,統計學是為(wèi)了(le)認識和研究事(shì)物的不确定性而産生(shēng)的,因為(wèi)無論是自然現(xiàn)象還是社會經濟現(xiàn)象,都時(shí)時(shí)處處充滿着因個(gè)體(tǐ)的差異性而引起的不确定性,因為(wèi)在大多數情況下(xià)我們缺乏足夠的信息或缺乏足夠的知識去利用有效信息,而人(rén)們總是期望通過量化(huà)事(shì)物的不确定性去發現(xiàn)規律、揭示真相,認識不确定性背後的必然性。要研究不确定性就(jiù)需要收集數據,在隻能(néng)進行抽樣觀測的情況下(xià),這(zhè)種不确定性就(jiù)表現(xiàn)為(wèi)如(rú)何獲得樣本、如(rú)何推斷總體(tǐ)(包括估計與檢驗)和如(rú)何構建模型等方面。對于大數據,仍然存在着個(gè)體(tǐ)的差異性,區别隻在于它包括了(le)一(yī)定條件下(xià)的所有個(gè)體(tǐ),而不是随機獲得的一(yī)個(gè)樣本。這(zhè)樣,大數據的不确定性就(jiù)不再是樣本的獲取與總體(tǐ)的推斷,而是數據的來(lái)源、個(gè)體(tǐ)的識别、信息的量化(huà)、數據的分(fēn)類、關(guān)聯物的選擇、節點的确定,以及結論的可能(néng)性判斷等方面。可以說(shuō),大數據的不确定性隻來(lái)自于其來(lái)源的多樣性與混雜性,以及由于個(gè)體(tǐ)的可變性所引起的總體(tǐ)多變性,而不是同類個(gè)體(tǐ)之間(jiān)的差異性———因為(wèi)我們已經掌握了(le)一(yī)定條件下(xià)的完全信息。

  (三)需要建立新(xīn)的數據梳理(lǐ)與分(fēn)類方法

  大數據的多樣性與混雜性,以及先有數據、後有總體(tǐ)的特點,原有的數據梳理(lǐ)與分(fēn)類方法将受到諸多的限制。傳統的數據梳理(lǐ)與分(fēn)類是按照預先設定的方案進行的,标志與指标的關(guān)系、分(fēn)類标識與分(fēn)組規則等都是結構化(huà)的,既是對有針對性地收集的數據的加工,也(yě)是統計分(fēn)析的組成部分(fēn)。但(dàn)對于大數據,由于新(xīn)的網絡語言、新(xīn)的信息内容、新(xīn)的數據表現(xiàn)形式不斷出現(xiàn),使得會産生(shēng)哪些(xiē)種類的信息、有哪些(xiē)可以利用的分(fēn)類标識、不同标識之間(jiān)是什(shén)麽關(guān)系、類與類之間(jiān)的識别度有多大、信息與個(gè)體(tǐ)之間(jiān)的對應關(guān)系如(rú)何等,都無法事(shì)先加以嚴格設定或控制,往往需要事(shì)後進行補充或完善。面對超大量的數據,我們從何下(xià)手?隻能(néng)從數據本身(shēn)入手,從觀察數據分(fēn)布特征入手。這(zhè)就(jiù)需要采用不同的數據梳理(lǐ)與分(fēn)類方法。否則,要想尋找到能(néng)有效開展數據分(fēn)析的路(lù)徑是不可能(néng)的。因此根據大數據的特點,創新(xīn)與發展數據的梳理(lǐ)與分(fēn)類方法,是有效開展大數據分(fēn)析的重要前提。這(zhè)裏需要強調的是,能(néng)否建立起能(néng)自動進行初步的數據梳理(lǐ)與分(fēn)類的簡單模型?因為(wèi)從技術上(shàng)講,我們已經具備了(le)一(yī)定的對大數據進行多次叠代建模的算(suàn)法。

  (四)需要強化(huà)結構化(huà)數據與非結構化(huà)數據的對接研究

  有效實現(xiàn)結構化(huà)數據與非結構化(huà)數據的對接,是數據概念拓展的必然結果。盡管大數據是超大量數據,但(dàn)大數據不能(néng)涵蓋所有的數據,因此傳統意義上(shàng)的結構化(huà)數據與大數據中的非結構化(huà)數據必将長期并存。大數據時(shí)代的來(lái)臨,使得數據收集、存儲與分(fēn)析的能(néng)力大為(wèi)增強,而且步伐越來(lái)越快(kuài),但(dàn)出于針對性與安全性考慮,總有一(yī)些(xiē)結構化(huà)數據要通過專門的方式去收集而不能(néng)依賴于公共網絡系統(例如(rú)政府統計數據,專題研究數據)。這(zhè)樣,如(rú)何既能(néng)有針對性地收集所需的結構化(huà)數據,又能(néng)從大量非結構化(huà)數據中挖掘出有價值的信息,使兩者相輔相成、有機結合,就(jiù)成了(le)一(yī)個(gè)新(xīn)的課題,值得探討(tǎo)的問題包括非結構化(huà)數據如(rú)何結構化(huà)或結構化(huà)數據能(néng)否采用非結構化(huà)的表現(xiàn)形式等。通過特定的方法,實現(xiàn)結構化(huà)數據與非結構化(huà)數據的轉化(huà)與對接是完全可能(néng)的。但(dàn)要實現(xiàn)這(zhè)種對接,必須要增強對各種類型數據進行測度與描述的能(néng)力,否則大數據分(fēn)析就(jiù)沒有全面牢固的基礎。如(rú)果說(shuō)傳統的基于樣本數據的統計分(fēn)析側重于推斷,那麽基于大數據的統計分(fēn)析需要更加關(guān)注描述。

  (五)需要轉變抽樣調查的功能(néng)

  對于傳統的數據收集而言,抽樣調查是最重要的方式。盡管樣本隻是總體(tǐ)中的很小一(yī)部分(fēn),但(dàn)由于依據科學的抽樣理(lǐ)論,科學設計的抽樣調查能(néng)夠确保數據的精确度和可靠性。但(dàn)抽樣調查畢竟存在着信息量有限、不可連續擴充、前期準備工作(zuò)要求高等缺陷,很難滿足日益增長的數據需求。現(xiàn)在有了(le)大數據,我們應該利用一(yī)切可以利用的、盡量多的數據來(lái)進行分(fēn)析而不是僅局限于樣本數據。但(dàn)這(zhè)是否意味着抽樣調查可以退出曆史舞台呢(ne)?筆者認為(wèi)還為(wèi)時(shí)過早,在信息化(huà)、數字化(huà)、物聯網還不能(néng)全覆蓋的情況下(xià),仍然還有很多數據信息需要通過抽樣調查的方式去獲取。與此同時(shí),盡管我們可以對大數據進行全體(tǐ)分(fēn)析,但(dàn)考慮到成本與效率因素,在很多情況下(xià)抽樣分(fēn)析仍然是不錯的或明智的選擇。當然,抽樣調查也(yě)要适當轉變其功能(néng)以便進一(yī)步拓展其應用空間(jiān):一(yī)是可以把抽樣調查獲得的數據作(zuò)為(wèi)大數據分(fēn)析的對照基礎與驗證依據;二是可以把抽樣調查作(zuò)為(wèi)數據挖掘、快(kuài)速進行探測性分(fēn)析的工具———從混雜的數據中尋找規律或關(guān)系的線索。

  (六)需要歸納推斷法與演繹推理(lǐ)法并用

  哲人(rén)培根說(shuō)過“知識就(jiù)是力量”。統計研究的任務(wù)就(jiù)是為(wèi)了(le)發現(xiàn)新(xīn)的知識,歸納法則是發現(xiàn)新(xīn)知識的基本方法。因此,歸納推斷法成為(wèi)最主要的統計研究方法,使得我們能(néng)夠從足夠多的個(gè)體(tǐ)信息中歸納出關(guān)于總體(tǐ)的特征。當然,歸納推斷的依據通常是樣本數據,即在歸納出樣本特征的基礎上(shàng)再推斷總體(tǐ)。對于大數據,我們依然要從中去發現(xiàn)新(xīn)的知識,依然要通過具體(tǐ)的個(gè)體(tǐ)信息去歸納出一(yī)般的總體(tǐ)特征,因此歸納法依然是大數據分(fēn)析的主要方法。正如(rú)C.R.勞指出:“‘從數據中提取一(yī)切信息’或者‘歸納和揭示’作(zuò)為(wèi)統計分(fēn)析的目的一(yī)直沒有改變。”但(dàn)是,大數據是一(yī)個(gè)信息寶庫,光重視(shì)一(yī)般特征的歸納與概括是不夠的,還需要分(fēn)析研究子(zǐ)類信息乃至個(gè)體(tǐ)信息,以及某些(xiē)特殊的、異常的信息———或許它(們)代表着一(yī)種新(xīn)生(shēng)事(shì)物或未來(lái)的發展方向,還需要通過已掌握的分(fēn)布特征和相關(guān)知識與經驗去推理(lǐ)分(fēn)析其他更多、更具體(tǐ)的規律,去發現(xiàn)更深層次的關(guān)聯關(guān)系,去對某些(xiē)結論做出判斷,這(zhè)就(jiù)需要運用演繹推理(lǐ)法。演繹法可以幫助我們充分(fēn)利用已有的知識去認識更具體(tǐ)、細小的特征,形成更多有用的結論。隻要歸納法與演繹法結合得好(hǎo)(hǎo),我們就(jiù)既可以從大數據的偶然性中發現(xiàn)必然性,又可以利用全面數據的必然性去觀察偶然性、認識偶然性、甚至利用偶然性,從而提高駕馭偶然性的能(néng)力。

  (七)需要相關(guān)分(fēn)析與因果分(fēn)析并重

  《大數據時(shí)代》認為(wèi),我們隻須從大數據中知道“是什(shén)麽”就(jiù)夠了(le),沒必要知道“為(wèi)什(shén)麽”,并且指出“通過給我們找到一(yī)個(gè)現(xiàn)象的良好(hǎo)(hǎo)的關(guān)聯物,相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預測未來(lái)”以及“建立在相關(guān)關(guān)系分(fēn)析法基礎上(shàng)的預測是大數據的核心”。毫無疑問,從超大量數據中發現(xiàn)各種真實存在的相關(guān)關(guān)系,是人(rén)們認識和掌控事(shì)物、繼而做出預測判斷的重要途徑,而大數據時(shí)代新(xīn)的分(fēn)析工具和思路(lù)可以讓我們發現(xiàn)很多以前難以發現(xiàn)或不曾注意的事(shì)物之間(jiān)的聯系,因此大力開展相關(guān)分(fēn)析是大數據時(shí)代的重要任務(wù)。但(dàn)是,我們僅僅停留于知道“是什(shén)麽”是不夠的,還必須知道“為(wèi)什(shén)麽”,正所謂“既要知其然,更要知其所以然”,隻有這(zhè)樣才能(néng)更好(hǎo)(hǎo)地理(lǐ)解“是什(shén)麽”———為(wèi)什(shén)麽需要把手電筒與蛋撻放(fàng)在一(yī)起。隻有知道原因、背景的數據才是真正的數據。因此探求“是什(shén)麽”背後的原因始終是人(rén)類探索世界的動力,因果分(fēn)析是人(rén)類永恒的使命。哲學家德谟克利特早就(jiù)指出:“與其做波斯國王,還不如(rú)找到一(yī)種因果關(guān)系。”如(rú)果我們隻知道相關(guān)關(guān)系而不知道因果關(guān)系,那麽數據分(fēn)析的深度隻有一(yī)半,一(yī)旦出現(xiàn)問題或疑問就(jiù)無從下(xià)手。而如(rú)果我們知道了(le)因果關(guān)系,就(jiù)可以更好(hǎo)(hǎo)地利用相關(guān)關(guān)系,就(jiù)可以更好(hǎo)(hǎo)地掌握預測未來(lái)的主動權,就(jiù)可以幫助我們更科學地進行決策。當然,因果分(fēn)析是困難的,正因為(wèi)困難,所以要以相關(guān)分(fēn)析為(wèi)基礎,要更進一(yī)步利用好(hǎo)(hǎo)大數據。相關(guān)分(fēn)析與因果分(fēn)析不是互相對立的,而是互補的,兩者必須并重。

  (八)需要統計技術與雲計算(suàn)技術融合

  盡管用于收集和分(fēn)析數據的統計技術已相對成熟、自成體(tǐ)系,但(dàn)其所能(néng)處理(lǐ)的數據量是有限的,面對不可同日而語的大數據、特别是其中大量的非結構化(huà)數據,恐怕單憑一(yī)己之力是難以勝任的,隻能(néng)望“數”興歎。首先遇到的問題就(jiù)是計算(suàn)能(néng)力問題,這(zhè)就(jiù)要求我們在不斷創新(xīn)與發展統計技術的同時(shí),還要緊緊依靠現(xiàn)代信息技術、特别是雲計算(suàn)技術。雲計算(suàn)技術主要包括虛拟化(huà)、分(fēn)布式處理(lǐ)、雲終端、雲管理(lǐ)、雲安全等技術,或者說(shuō)以編程模型、數據存儲、數據管理(lǐ)、虛拟化(huà)、雲計算(suàn)平台管理(lǐ)等技術最為(wèi)關(guān)鍵。借助雲計算(suàn)技術可以将網格計算(suàn)、分(fēn)布式計算(suàn)、并行計算(suàn)、效用計算(suàn)、網絡存儲、虛拟化(huà)、負載均衡等傳統計算(suàn)機技術與現(xiàn)代網絡技術融合起來(lái),把多個(gè)計算(suàn)實體(tǐ)整合成一(yī)個(gè)具有強大計算(suàn)能(néng)力的系統,并借助SaaS、PaaS、IaaS、MSP等商(shāng)業模式把它分(fēn)布到終端用戶手中。雲計算(suàn)的核心理(lǐ)念就(jiù)是不斷提高“雲”處理(lǐ)能(néng)力來(lái)減少用戶終端的處理(lǐ)負擔,使用戶終端簡化(huà)成一(yī)個(gè)單純的輸入輸出設備,并能(néng)按需享受強大的“雲”計算(suàn)處理(lǐ)能(néng)力。可見,統計技術與雲計算(suàn)技術的融合是一(yī)種優勢互補,隻有這(zhè)樣統計技術才能(néng)在大數據時(shí)代一(yī)展身(shēn)手、有所作(zuò)為(wèi),才能(néng)真正把統計思想在數據分(fēn)析中得到體(tǐ)現(xiàn),實現(xiàn)統計分(fēn)析研究的目的。

  數據創造統計,流量創新(xīn)分(fēn)析。由于各個(gè)應用領域的不斷變化(huà),特别是數據來(lái)源與類型的不斷變化(huà),使得統計學還難以成為(wèi)一(yī)門真正成熟的科學。因此,在數據分(fēn)析的世界裏,不斷提高駕馭數據的能(néng)力是統計學發展的終身(shēn)動力。

微信掃一(yī)掃

關(guān)注昊雲訂閱号

獲取更多專業資訊

服務(wù)項目

維保運維服務(wù)

信息系統集成服務(wù)

機房(fáng)搬遷服務(wù)

 
 
 
QQ 在線客服
QQ 在線客服
 
電話(huà):
0531-88818533
客服QQ
2061058957
1905215487