大數據與統計新(xīn)思維

作(zuò)者：admin 來(lái)源： 36大數據發表時(shí)間(jiān)：2016-6-21 點擊：3507

譯着《大數據時(shí)代》(英國ViktorMayer-Schǒnberger，KennethCukier着)和《駕馭大數據》(美國BillFranks着)，以及我國學者塗子(zǐ)沛、郭曉科的《大數據》等幾本書引起了(le)廣泛的關(guān)注，其他各種媒體(tǐ)關(guān)于大數據的討(tǎo)論也(yě)層出不窮，大數據已成為(wèi)流行語。有人(rén)認為(wèi)，大數據是一(yī)場(chǎng)新(xīn)的革命，将橫掃一(yī)切領域，重構世界。不少國家已将大數據作(zuò)為(wèi)國家發展戰略，而商(shāng)業領域更是将其視(shì)為(wèi)下(xià)一(yī)個(gè)投資的寶庫。毫無疑問，大數據時(shí)代已經來(lái)臨，它正在悄悄地改變着人(rén)們的行為(wèi)與思維，難以阻擋，無法抗拒。在計算(suàn)機科學、電子(zǐ)商(shāng)務(wù)等領域已率先在大數據技術開發與應用方面做出不俗成就(jiù)的時(shí)候，以數據為(wèi)研究對象的統計學該如(rú)何應對?無動于衷還是盲目追從?正确的态度應該是理(lǐ)性對待、積極跟進、改變思維、謀求發展。

一(yī)：對大數據的初步認識

　　到底什(shén)麽是大數據，不同的學科領域、不同行業的從業人(rén)員(yuán)肯定會有不同的理(lǐ)解。與傳統意義上(shàng)的數據相比，大數據的“大”與“數據”都有了(le)新(xīn)的含義，絕不僅僅是體(tǐ)量的問題，更重要的是數據的内涵問題。或許，“大”與“數據”根本就(jiù)不能(néng)分(fēn)開，隻有把“大數據”當作(zuò)一(yī)個(gè)整體(tǐ)概念來(lái)理(lǐ)解才有意義。那麽從統計學的角度，我們該如(rú)何來(lái)理(lǐ)解大數據?筆者認為(wèi)大數據不是基于人(rén)工設計、借助傳統方法而獲得的有限、固定、不連續、不可擴充的結構型數據，而是基于現(xiàn)代信息技術與工具可以自動記錄、儲存和連續擴充的、大大超出傳統統計記錄與儲存能(néng)力的一(yī)切類型的數據。有人(rén)用4V(Volume，Variety、Velocity和Value)來(lái)形容大數據的特征，最根本之處就(jiù)是數字化(huà)基礎上(shàng)的數據化(huà)。通俗地說(shuō)，大數據就(jiù)是一(yī)切可記錄信号的集合。

　　如(rú)果說(shuō)，傳統統計研究的數據是有意收集的結構化(huà)的樣本數據，那麽現(xiàn)在我們面對的數據則是一(yī)切可以記錄和存儲、源源不斷擴充、超大容量的各種類型的數據。樣本數據與大數據的這(zhè)種區别，具有什(shén)麽樣的統計學意義?我們知道，樣本數據是按照特定研究目的、依據抽樣方案獲得的格式化(huà)的數據，不僅數據量有限，而且如(rú)果過程偏離方案，數據就(jiù)不能(néng)滿足要求。基于樣本數據所進行的分(fēn)析，其空間(jiān)十分(fēn)有限———通常無法滿足多層次、多角度的需要，若遇到抽樣方案事(shì)先未曾考慮到的問題，數據的不可擴充性缺點就(jiù)暴露無疑。而大數據是一(yī)切可以通過現(xiàn)代信息技術記錄和量化(huà)的數據，不僅所蘊含的信息量巨大，而且不受各種框框的限制———任何種類的數據都來(lái)者不拒、也(yě)無法抵拒。不難發現(xiàn)，大數據相比于樣本數據的最大優點是，具有巨大的數據選擇空間(jiān)，可以進行多維、多角度的數據分(fēn)析。更為(wèi)重要的是，由于大數據的大體(tǐ)量與多樣性，樣本不足以呈現(xiàn)的某些(xiē)規律，大數據可以體(tǐ)現(xiàn);樣本不足以捕捉的某些(xiē)弱小信息，大數據可以覆蓋;樣本中被認為(wèi)異常的值，大數據得以認可。這(zhè)将極大地提高我們認識現(xiàn)象的能(néng)力，避免丢失很多重要的信息，避免失去很多決策選擇的機會。

　　這(zhè)裏，我們自然就(jiù)想到了(le)大量觀察與大數據這(zhè)兩個(gè)概念中的“大”的區别。對于傳統的統計研究方法而言，大量觀察法是基礎，是收集數據的基本理(lǐ)論依據，其主要思想是要對足夠量的個(gè)體(tǐ)進行調查觀察，以确保有足夠的微觀基礎來(lái)消除或削弱個(gè)體(tǐ)差異對整體(tǐ)特征的影響，足以歸納出關(guān)于總體(tǐ)的數量規律。所以，這(zhè)裏的“大”是足夠的意思。大量觀察法的極端情況就(jiù)是普查，但(dàn)限于各種因素不能(néng)經常進行，所以一(yī)般情況下(xià)隻能(néng)進行抽樣調查，這(zhè)就(jiù)需要精确計算(suàn)最小的樣本量。基于大量觀察法獲得的樣本數據才符合大數法則或大數定律，才能(néng)用以推斷總體(tǐ)。而大數據則指不限量的數據，是基于現(xiàn)代信息技術的一(yī)切可以記錄的全體(tǐ)數據，其特征之一(yī)就(jiù)是盡量多地包含數據，它與樣本容量無關(guān)，隻與信息來(lái)源的數量與儲存容量有關(guān)。因此，這(zhè)裏的“大”是全體(tǐ)的意思。

　　可見，統計學的研究對象沒有變，變的是數據的來(lái)源、體(tǐ)量、類型、速度與量化(huà)的方式。這(zhè)種變化(huà)對統計研究帶來(lái)了(le)什(shén)麽樣的挑戰?《大數據時(shí)代》提出了(le)三個(gè)最顯着的變化(huà):一(yī)是樣本等于總體(tǐ)，二是不再追求精确性，三是相關(guān)分(fēn)析比因果分(fēn)析更重要。這(zhè)些(xiē)觀點具有很強的震撼力，迫使我們對現(xiàn)有的統計研究思維進行反思。盡管這(zhè)些(xiē)觀點值得進一(yī)步商(shāng)榷，但(dàn)至少告訴我們這(zhè)樣一(yī)個(gè)道理(lǐ):統計研究對象的基礎變了(le)，統計思維也(yě)要跟着變化(huà)，否則統計研究的對象隻是全部數據的5%，而且越來(lái)越少，那又怎麽能(néng)說(shuō)統計學是一(yī)門關(guān)于數據的科學呢(ne)?又怎麽去完善和發展開展數據分(fēn)析研究的統計方法論呢(ne)?

二：統計思維的變化(huà)

　　改變統計思維，是大數據時(shí)代的必然要求。否則，統計學科就(jiù)有可能(néng)被大數據的潮流所吞沒，至少會被邊緣化(huà)，失去一(yī)次重要的參與推動曆史變革的機遇。當然，統計思維的變化(huà)應該以一(yī)個(gè)永恒不變的主題為(wèi)前提，那就(jiù)是通過數據分(fēn)析去揭示事(shì)物的真相，這(zhè)個(gè)真相就(jiù)是事(shì)物的生(shēng)存規律、聯系規律和發展規律。也(yě)就(jiù)是說(shuō)，數據分(fēn)析要以數據背後的數據去還原事(shì)物的本來(lái)面目，以達到求真的目的。如(rú)果說(shuō)，我們原來(lái)限于各種條件隻能(néng)根據有限的樣本數據去實現(xiàn)這(zhè)個(gè)目的，那麽現(xiàn)在我們則可以在很多方面借助大數據去實現(xiàn)這(zhè)個(gè)目的，關(guān)鍵就(jiù)看我們開展數據分(fēn)析的能(néng)力有多大，或者說(shuō)利用大數據、從一(yī)切數據中提取有價值信息的能(néng)力有多大———因為(wèi)大數據無疑增加了(le)統計分(fēn)析的難度，而這(zhè)又首先取決于我們統計思維能(néng)否适應大數據時(shí)代的變化(huà)。正如(rú)邁爾–舍恩伯格所說(shuō):大數據發展的核心動力就(jiù)是人(rén)類測量、記錄和分(fēn)析世界的渴望。

　　那麽，統計思維應該發生(shēng)怎樣的變化(huà)?筆者認為(wèi)主要要有如(rú)下(xià)三大變化(huà):

　　(一(yī))認識數據的思維要變化(huà)

　　前面已經提到，與傳統數據相比，大數據不僅體(tǐ)量大、變化(huà)快(kuài)，而且其來(lái)源、類型和量化(huà)方式都發生(shēng)了(le)根本性的變化(huà)，使得數據雜亂、多樣、不規整。

　　首先，從來(lái)源上(shàng)看，傳統的數據收集因為(wèi)具有很強的針對性，因此數據的提供者大多是确定的，身(shēn)份特征是可識别的，有的還可以進行事(shì)後核對。但(dàn)大數據通常來(lái)源于物聯網，不是為(wèi)了(le)特定的數據收集目的而産生(shēng)，而是人(rén)們一(yī)切可記錄的信号(當然，任何信号的産生(shēng)都有其目的，但(dàn)它們是發散的)，并且身(shēn)份識别十分(fēn)困難。從某種意義上(shàng)講，大數據來(lái)源的微觀基礎是很難追溯的。

　　其次，從類型上(shàng)看，傳統數據基本上(shàng)是結構型數據，即定量數據加上(shàng)少量專門設計的定性數據，格式化(huà)，有标準，可以用常規的統計指标或統計圖表加以表現(xiàn)。但(dàn)大數據更多的是非結構型數據、半結構型數據或異構數據，包括了(le)一(yī)切可記錄、可存儲的信号，多樣化(huà)、無标準、難以用傳統的統計指标或統計圖表加以表現(xiàn)。同時(shí)，不同的網絡信息系統有不同的數據識别方式，相互之間(jiān)也(yě)沒用統一(yī)的數據分(fēn)類标準。再者，現(xiàn)在有的數據庫是非關(guān)系型的數據庫，不需要預先設定記錄結構即可自動包容大量各種各樣的數據。

　　第三，從量化(huà)方式上(shàng)看，傳統數據的量化(huà)處理(lǐ)已經有一(yī)整套較為(wèi)完整的方式與過程，量化(huà)的結果可直接用于各種運算(suàn)與分(fēn)析。但(dàn)大數據中大量的非結構化(huà)數據如(rú)何量化(huà)(結構化(huà))、如(rú)何從中提取信息、如(rú)何與結構化(huà)數據對接是一(yī)個(gè)嶄新(xīn)的問題。正如(rú)Franks所說(shuō):“幾乎沒有哪種分(fēn)析過程能(néng)夠直接對非結構化(huà)數據進行分(fēn)析，也(yě)無法直接從非結構化(huà)的數據中得出結論。”更為(wèi)重要的是，“量化(huà)”的含義恐怕也(yě)不一(yī)樣了(le)，即此“量化(huà)”不一(yī)定等同于彼“量化(huà)”，量化(huà)結果的表現(xiàn)形式自然也(yě)不相同。顯然，我們不能(néng)套用已有的方式去量化(huà)非結構化(huà)數據。

　　可以說(shuō)，大數據是雜亂、不規整、良莠不齊的，但(dàn)我們不能(néng)因此而回避它、拒絕它，隻能(néng)接納它、包容它。我們需要将統計研究的對象範圍從結構型數據擴展到一(yī)切數據，需要重新(xīn)思考數據的定義和分(fēn)類方法，并以此為(wèi)基礎發展和創新(xīn)統計分(fēn)析方法。從某種意義上(shàng)講，沒有無用的數據，隻有未被欣賞的數據，關(guān)鍵是我們從哪個(gè)角度看數據。

　　(二)收集數據的思維要變化(huà)

　　收集數據是開展統計分(fēn)析的前提，“沒有黏土(tǔ)，如(rú)何做磚?”以往，收集統計數據的思維是先确定統計分(fēn)析研究的目的，然後需要什(shén)麽數據就(jiù)收集什(shén)麽數據，所以要精心設計調查方案，嚴格執行每個(gè)流程，但(dàn)往往是投入大而數據量有限。現(xiàn)在，我們擁有了(le)大數據，就(jiù)等于擁有了(le)超大量可選擇的數據———備選“黏土(tǔ)”的體(tǐ)量與種類都極大地增加了(le)，所要做的最重要的工作(zuò)就(jiù)是比較與選擇，因此我們的思維應該是如(rú)何充分(fēn)利用大數據，凡是大數據源中能(néng)找到的數據就(jiù)不再需要進行專門的調查。

　　但(dàn)是，由于大數據來(lái)源與種類的多樣性，以及數據增加的快(kuài)速性，我們在享受數據的豐富性的同時(shí)也(yě)不得不面臨這(zhè)樣一(yī)些(xiē)困境:存儲能(néng)力夠不夠，分(fēn)析能(néng)力夠不夠(是否及時(shí)、充分(fēn))，如(rú)何甄别數據的真僞，如(rú)何選擇關(guān)聯物，如(rú)何提煉和利用數據，如(rú)何确定分(fēn)析節點?現(xiàn)在TB級的數據庫已經很多，PB級的數據庫也(yě)不少見，以後還會出現(xiàn)EB、甚至ZB、YB級的數據庫。今天的大數據，明天就(jiù)不再是大數據。這(zhè)樣一(yī)來(lái)，電子(zǐ)存儲能(néng)力能(néng)否跟得上(shàng)數據增加的速度就(jiù)成為(wèi)首要的問題。如(rú)果讓數據庫自動更新(xīn)就(jiù)有可能(néng)失去一(yī)些(xiē)寶貴的數據信息，而到了(le)一(yī)定級别以後擴充存儲容量或對數據進行拷貝，其代價是十分(fēn)巨大的，因此我們不得不對數據進行分(fēn)類、篩選，有針對地删除那些(xiē)垃圾數據、不重要或次重要的數據。如(rú)果說(shuō)以前有針對地獲得數據叫做收集，那麽今後有選擇地删除數據就(jiù)意味着收集。也(yě)就(jiù)是說(shuō)，大數據時(shí)代的數據收集将更多的是從已有的超大量數據中進行再過濾、再選擇。因此，我們要做好(hǎo)(hǎo)丢棄一(yī)部分(fēn)數據的準備。

　　當然，并不是任何數據都可以從現(xiàn)成的大數據中獲得，這(zhè)裏存在一(yī)個(gè)針對性、安全性和成本比較問題。因此，我們既要繼續采用傳統的方式方法去收集特定需要的數據，又要善于利用現(xiàn)代網絡信息技術和各種數據源去收集一(yī)切相關(guān)的數據，并善于從大數據中進行再過濾、再選擇。問題在于什(shén)麽是無用的或不重要的數據?該如(rú)何過濾與選擇數據?這(zhè)就(jiù)需要對已經存在的數據進行重要性分(fēn)析、真僞别和關(guān)聯物定位。

　　此外，大的數據庫可能(néng)需要将信息分(fēn)散在不同的硬盤或電腦上(shàng)，這(zhè)樣一(yī)來(lái)，在不能(néng)同步更新(xīn)數據信息的情況下(xià)如(rú)何選擇、調用和匹配數據又是一(yī)個(gè)問題。因此從某種意義上(shàng)講，從大數據中收集數據就(jiù)是識别、整理(lǐ)、提煉、汲取(删除)、分(fēn)配和存儲元數據的過程。

　　(三)分(fēn)析數據的思維要變化(huà)

　　基于上(shàng)述兩個(gè)變化(huà)，數據分(fēn)析的思維必然要跟着變化(huà)，那就(jiù)是要主動利用現(xiàn)代信息技術與各種軟件工具從大數據中挖掘出有價值的信息，并在這(zhè)個(gè)過程中豐富和發展統計分(fēn)析方法。

　　關(guān)于數據分(fēn)析思維的變化(huà)，特别需要強調三點:

　　第一(yī)，傳統的統計分(fēn)析過程是“定性—定量—再定性”，第一(yī)個(gè)定性是為(wèi)了(le)找準定量分(fēn)析的方向，主要靠經驗判斷，這(zhè)在數據短缺、分(fēn)析運算(suàn)手段有限的情況下(xià)很重要。現(xiàn)在我們是在大數據中找礦，直接依賴數據分(fēn)析做出判斷，因此基礎性的工作(zuò)就(jiù)是找到“定量的回應”，這(zhè)在存儲能(néng)力大為(wèi)增強、分(fēn)析技術與分(fēn)析速度大為(wèi)提高的今天，探測“定量的回應”變得越來(lái)越簡單，所要做的就(jiù)是直接從各種“定量的回應”中找出那些(xiē)真正的、重要的數量特征和數量關(guān)系，得出可以作(zuò)為(wèi)判斷或決策依據的結論，因此統計分(fēn)析的過程可以簡化(huà)為(wèi)“定量—定性”，從而大大提高得到新(xīn)的定性結論的可能(néng)性。

　　第二，傳統的統計實證分(fēn)析，一(yī)般都要先根據研究目的提出某種假設，然後通過數據的收集與分(fēn)析去驗證該假設是否成立，其分(fēn)析思路(lù)是“假設—驗證”，但(dàn)這(zhè)種驗證往往由于受到假設的局限、指标選擇的失當、所需數據的缺失而得不出真正的結論。特别是，一(yī)旦假設本身(shēn)不科學、不符合實際，那麽分(fēn)析結論就(jiù)毫無用處、甚至扭曲事(shì)實真相。事(shì)實證明，很多這(zhè)樣的實證分(fēn)析純粹是為(wèi)了(le)湊合假設。現(xiàn)在，我們有了(le)大數據，可以不受任何假設的限制而從中去尋找關(guān)系、發現(xiàn)規律，然後再加以總結、形成結論。也(yě)就(jiù)是說(shuō)，分(fēn)析的思路(lù)是“發現(xiàn)—總結”。這(zhè)将極大地豐富統計分(fēn)析的資源與空間(jiān)，有助于發現(xiàn)更多意外的“發現(xiàn)”。

　　第三，傳統的統計推斷分(fēn)析，通常是基于分(fēn)布理(lǐ)論，以一(yī)定的概率為(wèi)保證，根據樣本特征去推斷總體(tǐ)特征，其邏輯關(guān)系是“分(fēn)布理(lǐ)論—概率保證—總體(tǐ)推斷”，推斷的評判标準與具體(tǐ)樣本無關(guān)，但(dàn)推斷是否正确卻取決于樣本的好(hǎo)(hǎo)壞。現(xiàn)在，大數據強調的是全體(tǐ)數據，總體(tǐ)特征不再需要根據分(fēn)布理(lǐ)論進行推斷，隻需進行計數或計量處理(lǐ)即可。不僅如(rú)此，還可以根據全面數據和實際分(fēn)布來(lái)判斷其中出現(xiàn)某類情況的可能(néng)性有多大，其邏輯關(guān)系變成了(le)“實際分(fēn)布—總體(tǐ)特征—概率判斷”，也(yě)即概率不再是事(shì)先預設，而是基于實際分(fēn)布得出的判斷。按照邁爾-舍恩伯格的觀點，這(zhè)個(gè)概率判斷就(jiù)可用于預測了(le)。

　　伴随着上(shàng)述三大變化(huà)，統計分(fēn)析評價的标準又該如(rú)何變化(huà)?傳統統計分(fēn)析的評價标準無非兩個(gè)方面，一(yī)是可靠性評價，二是有效性評價，而這(zhè)兩種評價都因抽樣而生(shēng)。所謂可靠性評價是指用樣本去推斷總體(tǐ)有多大的把握程度，是以概率來(lái)度量的———有時(shí)表現(xiàn)為(wèi)置信水平，有時(shí)表現(xiàn)為(wèi)顯着性水平。特别是在假設檢驗和模型拟合度評價中，顯着性水平怎麽定是一(yī)個(gè)難題，一(yī)直存在争議(yì)，因為(wèi)所參照的分(fēn)布類型不同其統計量就(jiù)不同，顯着性評價的臨界值就(jiù)不同，而臨界值又與顯着性水平的高低(dī)直接相關(guān)。然而在大數據的背景下(xià)，大數據在一(yī)定程度上(shàng)就(jiù)是全體(tǐ)數據，我們可以對全體(tǐ)數據進行計數或計量分(fēn)析，這(zhè)就(jiù)不存在以樣本推斷總體(tǐ)的問題了(le)，那麽這(zhè)時(shí)還有沒有可靠性的問題?還要不要确定置信水平?怎麽确定?依據是什(shén)麽?如(rú)何比較來(lái)自不同容量數據庫的分(fēn)析結論的可靠性?

　　所謂有效性評價指的是真實性，即誤差大小。這(zhè)裏又有兩個(gè)相關(guān)的概念:準确性與精确性。準确性一(yī)般是指一(yī)個(gè)觀察值與真實值的吻合程度，通常情況下(xià)是無法做出測度的;而精确性一(yī)般指樣本統計量分(fēn)布的離散程度，以抽樣分(fēn)布的标準差來(lái)衡量。很顯然，精确性是針對樣本數據而言的。也(yě)就(jiù)是說(shuō)樣本數據既有精确性問題又有準确性問題，樣本數據中的誤差既包括抽樣誤差也(yě)可能(néng)包括非抽樣誤差。抽樣誤差可以基于抽樣分(fēn)布理(lǐ)論進行計算(suàn)和控制，而非抽樣誤差隻能(néng)通過各種方式加以識别或判斷，但(dàn)多數情況下(xià)由于樣本量不是太大而可以得到較好(hǎo)(hǎo)的防範。但(dàn)對于大數據，由于它是全體(tǐ)數據，因而不再有抽樣誤差問題，隻有非抽樣誤差問題，也(yě)就(jiù)是說(shuō)大數據的真實性隻表現(xiàn)為(wèi)準确性而非精确性。然而由于大數據是超大量數據，再加上(shàng)混雜性與多樣性，因此其非抽樣誤差很難防範與控制，這(zhè)就(jiù)使得準确性評價問題變得更為(wèi)困難———如(rú)何測度?标準怎樣?

三：積極應對大數據

　　面對大數據，我們唯有積極應對，别無選擇。如(rú)何應對，需要考慮以下(xià)幾個(gè)方面:

　　(一(yī))需要改變總體(tǐ)、個(gè)體(tǐ)乃至樣本的定義方式

　　傳統的統計分(fēn)析，是先有總體(tǐ)，再有數據，即必須先确定總體(tǐ)範圍和個(gè)體(tǐ)單位，再收集個(gè)體(tǐ)數據，分(fēn)析總體(tǐ)。但(dàn)對大數據來(lái)說(shuō)，情況完全不同了(le)，是先有數據，再有總體(tǐ)。從某種意義上(shàng)說(shuō)，大數據的産生(shēng)系統多數是非總體(tǐ)式的，即無事(shì)先定義的目标總體(tǐ)，隻有與各個(gè)時(shí)點相對應的事(shì)後總體(tǐ)，原因就(jiù)在于個(gè)體(tǐ)是不确定的，是變化(huà)着的，是無法事(shì)先編制名錄庫的，這(zhè)與傳統的總體(tǐ)與個(gè)體(tǐ)有很大的不同。更為(wèi)複雜的是，事(shì)後個(gè)體(tǐ)的識别也(yě)很困難，因為(wèi)同一(yī)個(gè)個(gè)體(tǐ)可能(néng)有多個(gè)不同的網絡符号或稱謂，而不同網絡系統的相同符号(稱謂)也(yě)未必就(jiù)是同一(yī)個(gè)個(gè)體(tǐ)，而且還經常存在個(gè)體(tǐ)異位的情況(即某一(yī)個(gè)體(tǐ)利用另一(yī)個(gè)體(tǐ)的符号完成某種行為(wèi))，因此我們對于大數據往往是隻見“數據”的外形而不見“個(gè)體(tǐ)”的真容。但(dàn)對大數據的分(fēn)析，仍然有一(yī)個(gè)總體(tǐ)口徑問題，依然需要識别個(gè)體(tǐ)身(shēn)份。這(zhè)就(jiù)需要我們改變總體(tǐ)與個(gè)體(tǐ)的定義方式———盡管它們的内涵沒有變。與此對應，如(rú)果要從大數據庫中提取樣本數據，那麽樣本的定義方式也(yě)需要改變。當然，考慮到大數據的流動變化(huà)性，任何時(shí)點的總體(tǐ)都可以被理(lǐ)解為(wèi)一(yī)個(gè)截面樣本。

　　(二)需要改變對不确定性的認識

　　衆所周知，統計學是為(wèi)了(le)認識和研究事(shì)物的不确定性而産生(shēng)的，因為(wèi)無論是自然現(xiàn)象還是社會經濟現(xiàn)象，都時(shí)時(shí)處處充滿着因個(gè)體(tǐ)的差異性而引起的不确定性，因為(wèi)在大多數情況下(xià)我們缺乏足夠的信息或缺乏足夠的知識去利用有效信息，而人(rén)們總是期望通過量化(huà)事(shì)物的不确定性去發現(xiàn)規律、揭示真相，認識不确定性背後的必然性。要研究不确定性就(jiù)需要收集數據，在隻能(néng)進行抽樣觀測的情況下(xià)，這(zhè)種不确定性就(jiù)表現(xiàn)為(wèi)如(rú)何獲得樣本、如(rú)何推斷總體(tǐ)(包括估計與檢驗)和如(rú)何構建模型等方面。對于大數據，仍然存在着個(gè)體(tǐ)的差異性，區别隻在于它包括了(le)一(yī)定條件下(xià)的所有個(gè)體(tǐ)，而不是随機獲得的一(yī)個(gè)樣本。這(zhè)樣，大數據的不确定性就(jiù)不再是樣本的獲取與總體(tǐ)的推斷，而是數據的來(lái)源、個(gè)體(tǐ)的識别、信息的量化(huà)、數據的分(fēn)類、關(guān)聯物的選擇、節點的确定，以及結論的可能(néng)性判斷等方面。可以說(shuō)，大數據的不确定性隻來(lái)自于其來(lái)源的多樣性與混雜性，以及由于個(gè)體(tǐ)的可變性所引起的總體(tǐ)多變性，而不是同類個(gè)體(tǐ)之間(jiān)的差異性———因為(wèi)我們已經掌握了(le)一(yī)定條件下(xià)的完全信息。

　　(三)需要建立新(xīn)的數據梳理(lǐ)與分(fēn)類方法

　　大數據的多樣性與混雜性，以及先有數據、後有總體(tǐ)的特點，原有的數據梳理(lǐ)與分(fēn)類方法将受到諸多的限制。傳統的數據梳理(lǐ)與分(fēn)類是按照預先設定的方案進行的，标志與指标的關(guān)系、分(fēn)類标識與分(fēn)組規則等都是結構化(huà)的，既是對有針對性地收集的數據的加工，也(yě)是統計分(fēn)析的組成部分(fēn)。但(dàn)對于大數據，由于新(xīn)的網絡語言、新(xīn)的信息内容、新(xīn)的數據表現(xiàn)形式不斷出現(xiàn)，使得會産生(shēng)哪些(xiē)種類的信息、有哪些(xiē)可以利用的分(fēn)類标識、不同标識之間(jiān)是什(shén)麽關(guān)系、類與類之間(jiān)的識别度有多大、信息與個(gè)體(tǐ)之間(jiān)的對應關(guān)系如(rú)何等，都無法事(shì)先加以嚴格設定或控制，往往需要事(shì)後進行補充或完善。面對超大量的數據，我們從何下(xià)手?隻能(néng)從數據本身(shēn)入手，從觀察數據分(fēn)布特征入手。這(zhè)就(jiù)需要采用不同的數據梳理(lǐ)與分(fēn)類方法。否則，要想尋找到能(néng)有效開展數據分(fēn)析的路(lù)徑是不可能(néng)的。因此根據大數據的特點，創新(xīn)與發展數據的梳理(lǐ)與分(fēn)類方法，是有效開展大數據分(fēn)析的重要前提。這(zhè)裏需要強調的是，能(néng)否建立起能(néng)自動進行初步的數據梳理(lǐ)與分(fēn)類的簡單模型?因為(wèi)從技術上(shàng)講，我們已經具備了(le)一(yī)定的對大數據進行多次叠代建模的算(suàn)法。

　　(四)需要強化(huà)結構化(huà)數據與非結構化(huà)數據的對接研究

　　有效實現(xiàn)結構化(huà)數據與非結構化(huà)數據的對接，是數據概念拓展的必然結果。盡管大數據是超大量數據，但(dàn)大數據不能(néng)涵蓋所有的數據，因此傳統意義上(shàng)的結構化(huà)數據與大數據中的非結構化(huà)數據必将長期并存。大數據時(shí)代的來(lái)臨，使得數據收集、存儲與分(fēn)析的能(néng)力大為(wèi)增強，而且步伐越來(lái)越快(kuài)，但(dàn)出于針對性與安全性考慮，總有一(yī)些(xiē)結構化(huà)數據要通過專門的方式去收集而不能(néng)依賴于公共網絡系統(例如(rú)政府統計數據，專題研究數據)。這(zhè)樣，如(rú)何既能(néng)有針對性地收集所需的結構化(huà)數據，又能(néng)從大量非結構化(huà)數據中挖掘出有價值的信息，使兩者相輔相成、有機結合，就(jiù)成了(le)一(yī)個(gè)新(xīn)的課題，值得探討(tǎo)的問題包括非結構化(huà)數據如(rú)何結構化(huà)或結構化(huà)數據能(néng)否采用非結構化(huà)的表現(xiàn)形式等。通過特定的方法，實現(xiàn)結構化(huà)數據與非結構化(huà)數據的轉化(huà)與對接是完全可能(néng)的。但(dàn)要實現(xiàn)這(zhè)種對接，必須要增強對各種類型數據進行測度與描述的能(néng)力，否則大數據分(fēn)析就(jiù)沒有全面牢固的基礎。如(rú)果說(shuō)傳統的基于樣本數據的統計分(fēn)析側重于推斷，那麽基于大數據的統計分(fēn)析需要更加關(guān)注描述。

　　(五)需要轉變抽樣調查的功能(néng)

　　對于傳統的數據收集而言，抽樣調查是最重要的方式。盡管樣本隻是總體(tǐ)中的很小一(yī)部分(fēn)，但(dàn)由于依據科學的抽樣理(lǐ)論，科學設計的抽樣調查能(néng)夠确保數據的精确度和可靠性。但(dàn)抽樣調查畢竟存在着信息量有限、不可連續擴充、前期準備工作(zuò)要求高等缺陷，很難滿足日益增長的數據需求。現(xiàn)在有了(le)大數據，我們應該利用一(yī)切可以利用的、盡量多的數據來(lái)進行分(fēn)析而不是僅局限于樣本數據。但(dàn)這(zhè)是否意味着抽樣調查可以退出曆史舞台呢(ne)?筆者認為(wèi)還為(wèi)時(shí)過早，在信息化(huà)、數字化(huà)、物聯網還不能(néng)全覆蓋的情況下(xià)，仍然還有很多數據信息需要通過抽樣調查的方式去獲取。與此同時(shí)，盡管我們可以對大數據進行全體(tǐ)分(fēn)析，但(dàn)考慮到成本與效率因素，在很多情況下(xià)抽樣分(fēn)析仍然是不錯的或明智的選擇。當然，抽樣調查也(yě)要适當轉變其功能(néng)以便進一(yī)步拓展其應用空間(jiān):一(yī)是可以把抽樣調查獲得的數據作(zuò)為(wèi)大數據分(fēn)析的對照基礎與驗證依據;二是可以把抽樣調查作(zuò)為(wèi)數據挖掘、快(kuài)速進行探測性分(fēn)析的工具———從混雜的數據中尋找規律或關(guān)系的線索。

　　(六)需要歸納推斷法與演繹推理(lǐ)法并用

　　哲人(rén)培根說(shuō)過“知識就(jiù)是力量”。統計研究的任務(wù)就(jiù)是為(wèi)了(le)發現(xiàn)新(xīn)的知識，歸納法則是發現(xiàn)新(xīn)知識的基本方法。因此，歸納推斷法成為(wèi)最主要的統計研究方法，使得我們能(néng)夠從足夠多的個(gè)體(tǐ)信息中歸納出關(guān)于總體(tǐ)的特征。當然，歸納推斷的依據通常是樣本數據，即在歸納出樣本特征的基礎上(shàng)再推斷總體(tǐ)。對于大數據，我們依然要從中去發現(xiàn)新(xīn)的知識，依然要通過具體(tǐ)的個(gè)體(tǐ)信息去歸納出一(yī)般的總體(tǐ)特征，因此歸納法依然是大數據分(fēn)析的主要方法。正如(rú)C.R.勞指出:“‘從數據中提取一(yī)切信息’或者‘歸納和揭示’作(zuò)為(wèi)統計分(fēn)析的目的一(yī)直沒有改變。”但(dàn)是，大數據是一(yī)個(gè)信息寶庫，光重視(shì)一(yī)般特征的歸納與概括是不夠的，還需要分(fēn)析研究子(zǐ)類信息乃至個(gè)體(tǐ)信息，以及某些(xiē)特殊的、異常的信息———或許它(們)代表着一(yī)種新(xīn)生(shēng)事(shì)物或未來(lái)的發展方向，還需要通過已掌握的分(fēn)布特征和相關(guān)知識與經驗去推理(lǐ)分(fēn)析其他更多、更具體(tǐ)的規律，去發現(xiàn)更深層次的關(guān)聯關(guān)系，去對某些(xiē)結論做出判斷，這(zhè)就(jiù)需要運用演繹推理(lǐ)法。演繹法可以幫助我們充分(fēn)利用已有的知識去認識更具體(tǐ)、細小的特征，形成更多有用的結論。隻要歸納法與演繹法結合得好(hǎo)(hǎo)，我們就(jiù)既可以從大數據的偶然性中發現(xiàn)必然性，又可以利用全面數據的必然性去觀察偶然性、認識偶然性、甚至利用偶然性，從而提高駕馭偶然性的能(néng)力。

　　(七)需要相關(guān)分(fēn)析與因果分(fēn)析并重

　　《大數據時(shí)代》認為(wèi)，我們隻須從大數據中知道“是什(shén)麽”就(jiù)夠了(le)，沒必要知道“為(wèi)什(shén)麽”，并且指出“通過給我們找到一(yī)個(gè)現(xiàn)象的良好(hǎo)(hǎo)的關(guān)聯物，相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預測未來(lái)”以及“建立在相關(guān)關(guān)系分(fēn)析法基礎上(shàng)的預測是大數據的核心”。毫無疑問，從超大量數據中發現(xiàn)各種真實存在的相關(guān)關(guān)系，是人(rén)們認識和掌控事(shì)物、繼而做出預測判斷的重要途徑，而大數據時(shí)代新(xīn)的分(fēn)析工具和思路(lù)可以讓我們發現(xiàn)很多以前難以發現(xiàn)或不曾注意的事(shì)物之間(jiān)的聯系，因此大力開展相關(guān)分(fēn)析是大數據時(shí)代的重要任務(wù)。但(dàn)是，我們僅僅停留于知道“是什(shén)麽”是不夠的，還必須知道“為(wèi)什(shén)麽”，正所謂“既要知其然，更要知其所以然”，隻有這(zhè)樣才能(néng)更好(hǎo)(hǎo)地理(lǐ)解“是什(shén)麽”———為(wèi)什(shén)麽需要把手電筒與蛋撻放(fàng)在一(yī)起。隻有知道原因、背景的數據才是真正的數據。因此探求“是什(shén)麽”背後的原因始終是人(rén)類探索世界的動力，因果分(fēn)析是人(rén)類永恒的使命。哲學家德谟克利特早就(jiù)指出:“與其做波斯國王，還不如(rú)找到一(yī)種因果關(guān)系。”如(rú)果我們隻知道相關(guān)關(guān)系而不知道因果關(guān)系，那麽數據分(fēn)析的深度隻有一(yī)半，一(yī)旦出現(xiàn)問題或疑問就(jiù)無從下(xià)手。而如(rú)果我們知道了(le)因果關(guān)系，就(jiù)可以更好(hǎo)(hǎo)地利用相關(guān)關(guān)系，就(jiù)可以更好(hǎo)(hǎo)地掌握預測未來(lái)的主動權，就(jiù)可以幫助我們更科學地進行決策。當然，因果分(fēn)析是困難的，正因為(wèi)困難，所以要以相關(guān)分(fēn)析為(wèi)基礎，要更進一(yī)步利用好(hǎo)(hǎo)大數據。相關(guān)分(fēn)析與因果分(fēn)析不是互相對立的，而是互補的，兩者必須并重。

　　(八)需要統計技術與雲計算(suàn)技術融合

　　盡管用于收集和分(fēn)析數據的統計技術已相對成熟、自成體(tǐ)系，但(dàn)其所能(néng)處理(lǐ)的數據量是有限的，面對不可同日而語的大數據、特别是其中大量的非結構化(huà)數據，恐怕單憑一(yī)己之力是難以勝任的，隻能(néng)望“數”興歎。首先遇到的問題就(jiù)是計算(suàn)能(néng)力問題，這(zhè)就(jiù)要求我們在不斷創新(xīn)與發展統計技術的同時(shí)，還要緊緊依靠現(xiàn)代信息技術、特别是雲計算(suàn)技術。雲計算(suàn)技術主要包括虛拟化(huà)、分(fēn)布式處理(lǐ)、雲終端、雲管理(lǐ)、雲安全等技術，或者說(shuō)以編程模型、數據存儲、數據管理(lǐ)、虛拟化(huà)、雲計算(suàn)平台管理(lǐ)等技術最為(wèi)關(guān)鍵。借助雲計算(suàn)技術可以将網格計算(suàn)、分(fēn)布式計算(suàn)、并行計算(suàn)、效用計算(suàn)、網絡存儲、虛拟化(huà)、負載均衡等傳統計算(suàn)機技術與現(xiàn)代網絡技術融合起來(lái)，把多個(gè)計算(suàn)實體(tǐ)整合成一(yī)個(gè)具有強大計算(suàn)能(néng)力的系統，并借助SaaS、PaaS、IaaS、MSP等商(shāng)業模式把它分(fēn)布到終端用戶手中。雲計算(suàn)的核心理(lǐ)念就(jiù)是不斷提高“雲”處理(lǐ)能(néng)力來(lái)減少用戶終端的處理(lǐ)負擔，使用戶終端簡化(huà)成一(yī)個(gè)單純的輸入輸出設備，并能(néng)按需享受強大的“雲”計算(suàn)處理(lǐ)能(néng)力。可見，統計技術與雲計算(suàn)技術的融合是一(yī)種優勢互補，隻有這(zhè)樣統計技術才能(néng)在大數據時(shí)代一(yī)展身(shēn)手、有所作(zuò)為(wèi)，才能(néng)真正把統計思想在數據分(fēn)析中得到體(tǐ)現(xiàn)，實現(xiàn)統計分(fēn)析研究的目的。

　　數據創造統計，流量創新(xīn)分(fēn)析。由于各個(gè)應用領域的不斷變化(huà)，特别是數據來(lái)源與類型的不斷變化(huà)，使得統計學還難以成為(wèi)一(yī)門真正成熟的科學。因此，在數據分(fēn)析的世界裏，不斷提高駕馭數據的能(néng)力是統計學發展的終身(shēn)動力。

微信掃一(yī)掃

關(guān)注昊雲訂閱号

下(xià)條新(xīn)聞：“互聯網+”的數據地圖：溝壑的顯現(xiàn)與超車的可能(néng)

服務(wù)項目

維保運維服務(wù)

信息系統集成服務(wù)

機房(fáng)搬遷服務(wù)