大數據失敗案例提醒:8個(gè)不能(néng)犯的錯誤
作(zuò)者:CIO時(shí)代  來(lái)源:CIO時(shí)代  發表時(shí)間(jiān):2016-12-20  點擊:3494
      近年來(lái),大數據旋風(fēng)以“迅雷不及掩耳之勢”席卷全球,不僅是信息領域,經濟、政治、社會等諸多領域都“磨刀霍霍”向大數據,準備在其中逐得一(yī)席之地。然而,很多公司在邁入大數據領域後遭遇“滑鐵盧”。在此,本文盤點了(le)一(yī)系列大數據失敗項目,深究其原因,具有警示意義。

對數據過于相信


2008年,Google第一(yī)次開始預測流感就(jiù)取得了(le)很好(hǎo)(hǎo)的效果,比美國疾病預防控制中心提前兩禮拜預測到了(le)流感的爆發。但(dàn)是,幾年之後,Google的預測比實際情況(由防控中心根據全美就(jiù)診數據推算(suàn)得出)高出了(le)50%。媒體(tǐ)過于渲染了(le)Google的成功,出于好(hǎo)(hǎo)奇目的而搜索相關(guān)關(guān)鍵詞的人(rén)越來(lái)越多,從而導緻了(le)數據的扭曲。

低(dī)估大數據複雜程度


在美國有幾個(gè)互聯網金(jīn)融公司專做中小企業貸款。但(dàn)是中小企業貸款涉及的數據更複雜,而且中小企業涉及到整個(gè)行業非常特殊的一(yī)些(xiē)數據,比如(rú)非标準的财務(wù)報(bào)表和不同行業、不同範式的合同,他們沒有很專業的知識,是很難理(lǐ)解或者很難有時(shí)間(jiān)把它準确挖掘出來(lái)。

當時(shí)大數據團隊想用一(yī)個(gè)很完美的模型把所有的問題都解決掉,比如(rú)把市(shì)場(chǎng)和信貸的解決方案全部用一(yī)個(gè)模型來(lái)解決,但(dàn)因為(wèi)數據的複雜程度,最後證明這(zhè)種方法是失敗的,而且90%的時(shí)間(jiān)都在做數據清理(lǐ)。這(zhè)就(jiù)說(shuō)明,想通過大數據技術一(yī)下(xià)子(zǐ)解決所有的問題是很難成功的,而是要用抽絲剝繭、循序漸進的方式。

管理(lǐ)層的惰性


某家旅遊公司系統通過web日志數據的挖掘來(lái)提升客戶洞察。結果證明,用戶在浏覽網站(zhàn)之後,随後的消費行為(wèi)模式與管理(lǐ)層所認為(wèi)的不一(yī)緻。當團隊彙報(bào)此事(shì)時(shí),管理(lǐ)層認為(wèi)不值一(yī)提。但(dàn)是,該團隊并沒有放(fàng)棄,并通過嚴密的A/B測試,回擊了(le)管理(lǐ)層的輕視(shì)。

這(zhè)個(gè)案例的最終結果,不是每個(gè)CIO都能(néng)期盼的。但(dàn)是,有一(yī)點是可以确定的:做好(hǎo)(hǎo)和管理(lǐ)層打交道的準備,讓他們充分(fēn)理(lǐ)解大數據是什(shén)麽以及相應的價值。

應用場(chǎng)景選擇錯誤


一(yī)家保險公司想了(le)解日常習慣和購(gòu)買生(shēng)命保險意願之間(jiān)的關(guān)聯性。由于随後覺得習慣太過于寬泛,該公司将調查範疇限定到是否吸煙(yān)上(shàng)。但(dàn)是,工作(zuò)仍然沒有實質進展。不到半年,他們就(jiù)終止了(le)整個(gè)項目,因為(wèi)一(yī)直未能(néng)發現(xiàn)任何有價值的信息。

這(zhè)個(gè)項目的失敗是由于問題的複雜性。在抽煙(yān)與否之間(jiān),該公司沒有注意到還有大片灰色地帶:很多人(rén)是先抽煙(yān)而後又戒煙(yān)了(le)。在将問題簡單化(huà)動機的驅動下(xià),這(zhè)個(gè)部分(fēn)被忽略了(le)。

問題梳理(lǐ)不夠全面


一(yī)家全球性公司的大數據團隊發現(xiàn)了(le)很多深刻的洞察,并且計劃通過雲讓全公司共享。結果這(zhè)個(gè)團隊低(dī)估了(le)效率方面的損耗,由于網絡擁塞的問題,無法滿足全球各個(gè)分(fēn)支順暢提交數據運行分(fēn)析的需求。

該公司應該仔細思考下(xià)如(rú)何支撐大數據項目,梳理(lǐ)所需的技能(néng)并協調各IT分(fēn)支的力量進行支持。由于網絡、安全或基礎設施的問題,已經有太多的大數據項目栽了(le)跟頭。

缺乏大數據分(fēn)析技能(néng)


一(yī)家零售公司的首席執行官不認同亞馬遜規模化(huà)、扁平化(huà)的服務(wù)模式,因此讓CIO構建一(yī)個(gè)客戶推薦引擎。項目最初的規劃是半年為(wèi)期,但(dàn)是團隊很快(kuài)認識到諸如(rú)協同過濾(collaborativefiltering)之類的概念無法實現(xiàn)。為(wèi)此,一(yī)個(gè)團隊成員(yuán)提出做一(yī)個(gè)“假的推薦引擎”,把床單作(zuò)為(wèi)唯一(yī)的推薦産品。這(zhè)個(gè)假引擎的工作(zuò)邏輯是:買攪拌機的人(rén)會買床單,買野營書籍的人(rén)會買床單,買書的人(rén)會買床單。就(jiù)是如(rú)此,床單是唯一(yī)的、默認的推薦品。

盡管可笑(xiào),這(zhè)個(gè)主意其實并不壞,默認的推薦也(yě)能(néng)給企業帶來(lái)銷售上(shàng)的提升。但(dàn)是,由于大數據相關(guān)技能(néng)的缺失,真正意義上(shàng)的引擎未能(néng)實現(xiàn)。

提出了(le)錯誤的問題


一(yī)家全球領先的汽車制造商(shāng)決定開展一(yī)個(gè)情感分(fēn)析項目,為(wèi)期6個(gè)月(yuè)(yuè),耗資1千萬美元。項目結束之後,該廠商(shāng)将結果分(fēn)享給經銷商(shāng)并試圖改變銷售模式。然後,所得出的結果最終被證明是錯誤的。項目團隊沒有花足夠的時(shí)間(jiān)去了(le)解經銷商(shāng)所面臨的問題或業務(wù)建議(yì),從而導緻相關(guān)的分(fēn)析毫無價值。

應用了(le)錯誤的模型。某銀行為(wèi)判斷電信行業的客戶流失情況,從電信業聘請了(le)一(yī)位專家,後者也(yě)很快(kuài)構建了(le)評估用戶是否即将流失的模型。當時(shí)已進入評測驗證的最後階段,模型很快(kuài)就(jiù)将上(shàng)線,而銀行也(yě)開始準備給那些(xiē)被認為(wèi)即将流失的客戶發出信件加以挽留。

但(dàn)是,為(wèi)了(le)保險起見,一(yī)位内部專家被要求對模型進行評估。這(zhè)位銀行業專家很快(kuài)發現(xiàn)了(le)令人(rén)驚奇的事(shì)情:不錯,那些(xiē)客戶的确即将流失,但(dàn)并不是因為(wèi)對銀行的服務(wù)不滿意。他們之所以轉移财産(有時(shí)是悄無聲息的),是因為(wèi)感情問題——正在為(wèi)離婚做準備。

可見,了(le)解模型的适用性、數據抽象的級别以及模型中隐含的細微差别,這(zhè)些(xiē)都是非常具有挑戰性的。

管理(lǐ)層阻力


盡管數據當中包含大量重要信息,但(dàn)FortuneKnowledge公司發現(xiàn)有62%的企業領導者仍然傾向于相信自己的直覺,更有61%的受訪者認為(wèi)領導者的實際洞察力在決策過程中擁有高于數據分(fēn)析結論的優先參考價值。

選擇錯誤的使用方法


企業往往會犯下(xià)兩種錯誤,要麽構建起一(yī)套過分(fēn)激進、自己根本無法駕馭的大數據項目,要麽嘗試利用傳統數據技術處理(lǐ)大數據問題。無論是哪種情況,都很有可能(néng)導緻項目陷入困境。

提出錯誤的問題


數據科學非常複雜,其中包含專業知識門類(需要深入了(le)解銀行、零售或者其它行業的實際業務(wù)狀況);數學與統計學經驗以及編程技能(néng)等等。很多企業所雇用的數據科學家隻了(le)解數學與編程方面的知識,卻欠缺最重要的技能(néng)組成部分(fēn)——對相關(guān)行業的了(le)解,因此最好(hǎo)(hǎo)能(néng)從企業内部出發尋找數據科學家。

缺乏必要的技能(néng)組合


這(zhè)項理(lǐ)由與“提出錯誤的問題”緊密相關(guān)。很多大數據項目之所以陷入困境甚至最終失敗,正是因為(wèi)不具備必要的相關(guān)技能(néng)。通常負責此類項目的都是IT技術人(rén)員(yuán)——而他們往往無法向數據提出足以指導決策的正确問題。

與企業戰略存在沖突


要讓大數據項目獲得成功,大家必須擺脫将其作(zuò)為(wèi)單一(yī)“項目”的思路(lù)、真正把它當成企業使用數據的核心方式。問題在于,其它部門的價值或者戰略目标有可能(néng)在優先級方面高于大數據,這(zhè)種沖突往往會令我們有力無處使。

大數據孤島


大數據供應商(shāng)總愛談論“數據湖”或者“數據中樞”,但(dàn)事(shì)實上(shàng)很多企業建立起來(lái)的隻能(néng)算(suàn)是“數據水坑兒(ér)”,各個(gè)水坑兒(ér)之間(jiān)存在着明顯的邊界——例如(rú)市(shì)場(chǎng)營銷數據水坑兒(ér)與制造數據水坑兒(ér)等等。需要強調的是,隻有盡量緩和不同部門之間(jiān)的隔閡并将各方的數據流彙總起來(lái),大數據才能(néng)真正發揮自身(shēn)價值。

在大數據技術之外遇到了(le)其它意外狀況。數據分(fēn)析僅僅是大數據項目當中的組成部分(fēn)之一(yī),訪問并處理(lǐ)數據的能(néng)力同樣重要。除此之外,常常被忽略的因素還有網絡傳輸能(néng)力限制與人(rén)員(yuán)培訓等等。

回避問題


有時(shí)候我們可以肯定或者懷疑數據會迫使自身(shēn)做出一(yī)些(xiē)原本希望盡量避免的運營舉措,例如(rú)制藥行業之所以如(rú)此排斥情感分(fēn)析機制、是因為(wèi)他們不希望将不良副作(zuò)用報(bào)告給美國食品藥品管理(lǐ)局并承擔随之而來(lái)的法律責任。

在這(zhè)份理(lǐ)由清單中,大家可能(néng)已經發現(xiàn)了(le)一(yī)個(gè)共同的主題:無論我們如(rú)何高度關(guān)注數據本身(shēn),都會有人(rén)為(wèi)因素介入進來(lái)。即使我們努力希望獲取對數據的全面控制權,大數據處理(lǐ)流程最終還是由人(rén)來(lái)打理(lǐ)的,其中包括衆多初始決策——例如(rú)選擇哪些(xiē)數據進行收集與分(fēn)析、向分(fēn)析結論提出哪些(xiē)問題等等。

為(wèi)防止大數據項目遭遇失敗,引入叠代機制是非常必要的。使用靈活而開放(fàng)的數據基礎設施,保證其允許企業員(yuán)工不斷調整實際方案、直到他們的努力獲得理(lǐ)想的回饋,最終以叠代為(wèi)武器(qì)順利邁向大數據有效使用的勝利彼岸。

獲取更多專業資訊

微信掃一(yī)掃

上(shàng)條新(xīn)聞:CIO:IT從運維到運營

服務(wù)項目

維保運維服務(wù)

信息系統集成服務(wù)

機房(fáng)搬遷服務(wù)

 
 
 
QQ 在線客服
QQ 在線客服
 
電話(huà):
0531-88818533
客服QQ
2061058957
1905215487