數據分(fēn)析工作(zuò)常見的七種錯誤及規避技巧
作(zuò)者:admin  來(lái)源: 199it  發表時(shí)間(jiān):2016-3-22  點擊:3240

  商(shāng)業領域的數據科學家和偵探類似:去探索未知的事(shì)物。不過,當他們在這(zhè)個(gè)旅程中冒險的時(shí)候,他們很容易落入陷阱。所以要明白,這(zhè)些(xiē)錯誤是如(rú)何造成的,以及如(rú)何避免。

  “錯誤是發現(xiàn)的入口。”——JamesJoyce(着名的愛爾蘭小說(shuō)家)。

 

  這(zhè)在大多數情況下(xià)是正确的,但(dàn)是對于數據科學家而言,犯錯誤能(néng)夠幫助他們發現(xiàn)新(xīn)的數據發展趨勢和找到數據的更多模式。說(shuō)到這(zhè)兒(ér),有一(yī)點很重要:要明白數據科學家有一(yī)個(gè)非常邊緣的錯誤。數據科學家是經過大量考察後才被錄用的,錄用成本很高。組織是不能(néng)承受和忽視(shì)數據科學家不好(hǎo)(hǎo)的數據實踐和重複錯誤的成本的。數據科學的錯誤和不好(hǎo)(hǎo)的數據實踐會浪費數據科學家的職業生(shēng)涯。數據科學家追蹤所有實驗數據是至關(guān)重要的,從錯誤中吸取教訓,避免在未來(lái)數據科學項目中犯錯。

  福爾摩斯有一(yī)句名言是如(rú)何定義偵探的,而數據科學家在商(shāng)業中的角色就(jiù)類似偵探。

  “我是福爾摩斯,我的工作(zuò)就(jiù)是發現(xiàn)别人(rén)不知道的。”

  企業要想保持競争力,它必須比大數據分(fēn)析做的更多。不去評估他們手中的數據質量,他們想要的結果,他們預計從這(zhè)種數據分(fēn)析中獲得多少利潤,這(zhè)将很難正确地找出哪些(xiē)數據科學項目能(néng)夠盈利,哪些(xiē)不能(néng)。當發生(shēng)數據科學錯誤時(shí),一(yī)次是可以接受的,考慮到有一(yī)個(gè)學習曲線,但(dàn)是如(rú)果這(zhè)些(xiē)錯誤發生(shēng)在兩次以上(shàng),這(zhè)會增加企業成本。

  避免常見的數據科學錯誤:

  1、相關(guān)關(guān)系和因果關(guān)系之間(jiān)的混亂

  對于每個(gè)數據科學家來(lái)說(shuō),相關(guān)性和因果關(guān)系的錯誤會導緻成本事(shì)件,最好(hǎo)(hǎo)的例子(zǐ)是《魔鬼經濟學》的分(fēn)析,關(guān)于因果關(guān)系的相關(guān)性錯誤,導緻伊利諾斯州給本州的學生(shēng)發書,因為(wèi)根據分(fēn)析顯示家裏有書的學生(shēng)在學校(xiào)能(néng)直接考的更高分(fēn)。進一(yī)步分(fēn)析顯示,在家裏有幾本書的學生(shēng)在學業上(shàng)能(néng)表現(xiàn)的更好(hǎo)(hǎo),即使他們從來(lái)沒有讀過這(zhè)些(xiē)書。

  這(zhè)改變了(le)之前的假設和洞察:父母通常買書的家庭,能(néng)營造愉快(kuài)的學習環境。

  大部分(fēn)的數據科學家在處理(lǐ)大數據時(shí)假設相關(guān)關(guān)系直接影響因果關(guān)系。使用大數據來(lái)理(lǐ)解兩個(gè)變量之間(jiān)的相關(guān)性通常是一(yī)個(gè)很好(hǎo)(hǎo)的實踐方法,但(dàn)是,總是使用“因果”類比可能(néng)導緻虛假的預測和無效的決定。要想實現(xiàn)利用大數據的最好(hǎo)(hǎo)效果,數據科學家必須理(lǐ)解相關(guān)關(guān)系和根源的區别。關(guān)聯往往是指同時(shí)觀察X和Y的變化(huà),而因果關(guān)系意味着X導緻Y。在數據科學,這(zhè)是兩個(gè)完全不同的事(shì)情,但(dàn)是許多數據科學家往往忽視(shì)了(le)它們的區别。基于相關(guān)性的決定可能(néng)足以采取行動,我們不需要知道原因,但(dàn)這(zhè)還是完全依賴于數據的類型和要解決的問題。

  每位數據科學家都必須懂得——“數據科學中相關(guān)關(guān)系不是因果關(guān)系”。如(rú)果兩個(gè)關(guān)系出現(xiàn)彼此相關(guān)的情況,也(yě)不意味着是一(yī)個(gè)導緻了(le)另一(yī)個(gè)的産生(shēng)。

  2、沒有選擇合适的可視(shì)化(huà)工具

  大部分(fēn)的數據科學家專心學習于分(fēn)析的技術方面。他們不能(néng)通過使用不同的可視(shì)化(huà)技術理(lǐ)解數據,即那些(xiē)可以令他們更快(kuài)獲得洞察力的技術。如(rú)果數據科學家不能(néng)選擇合适的可視(shì)化(huà)發展模型,監控探索性數據分(fēn)析和表示結果,那麽即使是最好(hǎo)(hǎo)的機器(qì)學習模型,它的價值也(yě)會被稀釋。事(shì)實上(shàng),許多數據科學家根據他們的審美選擇圖表類型,而不是考慮數據集的特征。這(zhè)個(gè)可以通過定義可視(shì)化(huà)的目标避免。

  即使數據科學家開發了(le)一(yī)個(gè)最優秀和最好(hǎo)(hǎo)的機器(qì)學習模型,它也(yě)不會大叫說(shuō)“尤裏卡”——所有這(zhè)些(xiē)所需要的是結果的有效可視(shì)化(huà),可以理(lǐ)解數據模式的不同,和意識到它的存在可以被利用來(lái)獲得商(shāng)業成果。常言道“一(yī)張圖片勝過1000個(gè)單詞。”——數據科學家不僅要熟悉自己常用的數據可視(shì)化(huà)工具,也(yě)要理(lǐ)解數據有效可視(shì)化(huà)的原理(lǐ),用令人(rén)信服的方式獲得結果。

  解決任何數據科學問題的至關(guān)重要一(yī)步,就(jiù)是要獲得該數據是關(guān)于什(shén)麽的洞察力,通過豐富的可視(shì)化(huà)表達,可以形成分(fēn)析基礎和建立相應模型。

  3、沒有選擇适當的模型-驗證周期

  科學家認為(wèi),建立了(le)一(yī)個(gè)成功的機器(qì)學習模型,就(jiù)是獲得了(le)最大程度的成功。但(dàn)是,這(zhè)隻是成功了(le)一(yī)半,它必須要确保模型的預測發揮作(zuò)用。許多數據科學家經常忘記或者傾向性的忽視(shì)這(zhè)樣的事(shì)實,就(jiù)是他們的數據必須在指定的時(shí)間(jiān)間(jiān)隔進行反複驗證。一(yī)些(xiē)數據科學家經常犯的一(yī)個(gè)普遍性錯誤:如(rú)果和觀察到的數據吻合,就(jiù)認為(wèi)預測模型是理(lǐ)想的。已建立的模型的預測效果可以因為(wèi)模型的關(guān)系在不斷變化(huà)而瞬間(jiān)消失。為(wèi)了(le)避免這(zhè)種情況,數據科學家最好(hǎo)(hǎo)的解決方式就(jiù)是每個(gè)小時(shí)都對含有新(xīn)數據的數據模型進行評分(fēn),或者基于模型的關(guān)系變化(huà)快(kuài)慢(màn)逐日逐月(yuè)(yuè)評分(fēn)。

  由于幾個(gè)因素,模型的預測能(néng)力往往會變弱,因此數據科學家需要确定一(yī)個(gè)常數,用以确保模型的預測能(néng)力不能(néng)低(dī)于可接受的水平。有實例即數據科學家可以重建數據模型。能(néng)建立幾個(gè)模型和解釋變量的分(fēn)布總是更好(hǎo)(hǎo)的,而不是考慮單個(gè)模型是最好(hǎo)(hǎo)的。

  為(wèi)了(le)保留已建模型的預測效果和有效性,選擇叠代周期是非常重要的,如(rú)果做不到,可能(néng)會導緻錯誤的結果。

  4、無問題/計劃的分(fēn)析

  數據科學協會主席MichaelWalker說(shuō):“數據科學的最高級用途就(jiù)是設計實驗,提出正确的問題和收集正确的數據集,一(yī)切工作(zuò)都要根據科學的标準。然後你将獲得結果,并解釋它。”

  數據科學是一(yī)個(gè)結構化(huà)的過程,以明确的目标開始,随後出現(xiàn)一(yī)些(xiē)假設的問題,最終實現(xiàn)我們的目标。數據科學家往往站(zhàn)在數據之上(shàng)而不考慮那些(xiē)需要分(fēn)析回答(dá)的問題。數據科學項目必須要有項目目标和完美的建模目标。數據科學家們如(rú)果不知道他們想要什(shén)麽——最終得到的分(fēn)析結果将會是他們不想要的。

  大多數數據科學項目最終是回答(dá)“是什(shén)麽”的問題,這(zhè)是因為(wèi)數據科學家通過手頭的問題作(zuò)分(fēn)析而不遵循做分(fēn)析的理(lǐ)想路(lù)徑。數據科學是使用大數據回答(dá)所有關(guān)于“為(wèi)什(shén)麽”的問題。數據科學家應該通過整合以前未被整合的數據集,主動分(fēn)析給與的數據集,回答(dá)以前沒人(rén)解答(dá)的問題。

  為(wèi)了(le)避免這(zhè)種情況,數據科學家應該集中精力獲得正确的分(fēn)析結果,這(zhè)可以通過明确實驗,變量和數據準确性和清晰明白他們想要從數據中獲得什(shén)麽實現(xiàn)。這(zhè)将簡化(huà)以往通過滿足假設的統計方法來(lái)回答(dá)商(shāng)業問題的過程。引用伏爾泰的一(yī)句話(huà)——“判斷一(yī)個(gè)人(rén),是通過他的問題而不是他的答(dá)案。”——先确定明确的問題是及其重要的,能(néng)夠實現(xiàn)任何企業的數據科學目标。

  5、僅關(guān)心數據

  根據博思艾倫咨詢公司的數據科學家KirkBorne,“人(rén)們忘記在數據的使用,保護以及統計産生(shēng)的問題如(rú)認為(wèi)相關(guān)關(guān)系就(jiù)是因果關(guān)系會産生(shēng)倫理(lǐ)問題。人(rén)們忘記了(le)如(rú)果你處理(lǐ)的數據足夠長,它就(jiù)會告訴你任何事(shì),如(rú)果你有大量的數據,那麽你就(jiù)可以找到相關(guān)關(guān)系。如(rú)果人(rén)們擁有大數據他們會相信他們看到的任何事(shì)情”。

  數據科學家常常因為(wèi)得到來(lái)自多個(gè)數據源的數據而興奮,并開始創建圖表和可視(shì)化(huà)來(lái)做分(fēn)析報(bào)告,忽視(shì)發展所需的商(shāng)業智慧。這(zhè)對任何組織來(lái)說(shuō)都是危險的事(shì)情。數據科學家經常給與數據太多決策制定的權力。他們不夠重視(shì)發展自身(shēn)商(shāng)業智慧,不明白分(fēn)析如(rú)何令企業獲益。數據科學家應該不僅僅讓數據說(shuō)話(huà),而且善于運用自身(shēn)的智慧。數據應該是影響決策的因素而不是數據科學項目決策制定的最終聲音(yīn)。企業雇傭的數據科學家應該是可以将領域知識和技術特長結合起來(lái)的,這(zhè)是避免錯誤的理(lǐ)想情況。

  6、忽視(shì)可能(néng)性

  數據科學家經常傾向性忘記方案的可能(néng)性,這(zhè)将導緻作(zuò)出更多的錯誤決策。數據科學家經常犯錯,因為(wèi)他們經常說(shuō),如(rú)果企業采取了(le)X操作(zuò)一(yī)定會實現(xiàn)Y目标。對于特定的問題這(zhè)沒有唯一(yī)的答(dá)案,因此要确認數據科學家從不同可能(néng)性中所做的選擇。對指定問題存在不止一(yī)個(gè)可能(néng)性,它們在某種程度是不确定的。情景規劃和可能(néng)性理(lǐ)論是數據科學的兩個(gè)基本核心,不應該被忽視(shì),應該用以确認決策制定的準确性頻率。

  7、建立一(yī)個(gè)錯誤人(rén)口數量的模型

  如(rú)果一(yī)個(gè)數據項目的目的是建立一(yī)個(gè)客戶影響力模式的模型,但(dàn)是他們僅僅考慮那些(xiē)具有高度影響力的客戶的行為(wèi)數據,這(zhè)不是對的做法。建立該模型不僅要考慮那些(xiē)具有高度影響力的客戶的行為(wèi)數據,也(yě)要考慮那些(xiē)不怎麽有影響力但(dàn)是具有潛在影響力的客戶的行為(wèi)數據。低(dī)估任何一(yī)邊人(rén)口的預測力量都可能(néng)導緻模型的傾斜或者一(yī)些(xiē)重要變量的重要性下(xià)降。

  這(zhè)些(xiē)都是數據科學家在做數據科學時(shí)常見的錯誤。如(rú)果你能(néng)想到的任何其他常見的數據科學錯誤,我們很樂(yuè)意在下(xià)面的評論聽(tīng)到你的想法。(責編:pingxiaoli)

微信掃一(yī)掃

關(guān)注昊雲訂閱号

服務(wù)項目

維保運維服務(wù)

信息系統集成服務(wù)

機房(fáng)搬遷服務(wù)

 
 
 
QQ 在線客服
QQ 在線客服
 
電話(huà):
0531-88818533
客服QQ
2061058957
1905215487