為(wèi)何企業無法從數據科學中真正獲得價值?
作(zuò)者:九次方大數據  來(lái)源:九次方大數據  發表時(shí)間(jiān):2017-1-10  點擊:3089

當今企業擁有越來(lái)越多的數據,但(dàn)這(zhè)些(xiē)數據并沒有完全被轉化(huà)成可操作(zuò)的信息。在過去的幾年裏,我和我的MIT調查小組一(yī)直在尋找一(yī)個(gè)基本問題的答(dá)案:如(rú)何讓企業通過機器(qì)學習,将蘊藏于其數據儲存内的潛能(néng)全部釋放(fàng)出來(lái)。

當我們與不同行業的合作(zuò)夥伴一(yī)起設計基于機器(qì)學習的解決方案時(shí),我們發現(xiàn)已有的解決方案通常情況下(xià)是不适合的,這(zhè)是為(wèi)什(shén)麽呢(ne)?

  首先,每當我們問到機器(qì)學習專家們(專長于預測模型訓練和測試的數據科學家們),在工作(zuò)中最困難的部分(fēn),被一(yī)次次提及的答(dá)案是——“數據雜亂無章”。一(yī)開始,從字面意思上(shàng)理(lǐ)解,我們認為(wèi)這(zhè)是一(yī)個(gè)經典的數據問題——數據缺失或者數據庫之間(jiān)缺乏一(yī)緻性。随着我們的進一(yī)步挖掘,我們意識到該問題和經典的數據問題略有不同,兩者面臨的數據形式有一(yī)定的區别。企業的原始數據(Rawdata),甚至是幹淨數據(Cleandata:在Rawdata的基礎上(shàng),進一(yī)步處理(lǐ)後得到的數據)量多且複雜,即使是專家,第一(yī)眼也(yě)很難理(lǐ)解這(zhè)些(xiē)數據。因為(wèi)這(zhè)樣的數據有太多的數據表和字段,同時(shí)數據的粒度又非常高(例如(rú),在線點擊流每一(yī)次點擊都會生(shēng)成新(xīn)數據、傳感器(qì)每秒(miǎo)會進行125次的數據收集)。而機器(qì)學習專家們通常習慣使用聚合過後的,有用的數據,例如(rú)一(yī)個(gè)用戶訪問過的網站(zhàn)數目,而不是用戶在某個(gè)網站(zhàn)上(shàng)的行為(wèi)數據表。

  與此同時(shí),我們經常聽(tīng)到商(shāng)業專家抱怨“我們有大量的數據,但(dàn)沒有通過這(zhè)些(xiē)數據做成任何事(shì)”。更深入的調查顯示這(zhè)種說(shuō)法也(yě)不完全對。而這(zhè)種挫敗感主要來(lái)源于兩個(gè)方面。

  一(yī)方面是由于時(shí)間(jiān)問題。由于機器(qì)學習中,理(lǐ)解、規劃及處理(lǐ)數據等一(yī)系列過程所需要花費的時(shí)間(jiān),機器(qì)學習專家常常更加關(guān)注流程的後面部分(fēn)——嘗試不同的模型或者在問題制定完成後,調整模型參數,而不是針對不同的商(shāng)業問題制定新(xīn)的預測模型。因此,當商(shāng)業專家想到某個(gè)新(xīn)的問題時(shí),機器(qì)學習專家無法做到總是及時(shí)跟上(shàng)他們的步伐。

  另一(yī)方面,經常來(lái)說(shuō),機器(qì)學習專家并沒有圍繞着“産生(shēng)商(shāng)業價值”,這(zhè)一(yī)建模的最終目标,來(lái)展開工作(zuò)。在大部分(fēn)情況下(xià),預測模型旨在提高效率、增加收益或者減少支出。但(dàn)實際上(shàng),建立模型的工作(zuò)者卻很少問這(zhè)樣的問題“這(zhè)個(gè)預測模型提供的價值是什(shén)麽?我們又該如(rú)何去量化(huà)其價值?”。思考這(zhè)一(yī)價值導向的問題常常會改變最初的問題規劃(problemformulation),通常情況下(xià)比建模後期再進行過程調整更加有用。最近在一(yī)個(gè)機器(qì)學習愛好(hǎo)(hǎo)者小組中,我向約150名觀衆進行了(le)調查,當問到“有多人(rén)建立過機器(qì)學習模型?”大約有三分(fēn)之一(yī)的人(rén)舉了(le)手。緊接着,當我問到“有多少人(rén)真正應用自己建立的模型産生(shēng)價值,并量化(huà)模型産出價值?”時(shí),所有人(rén)的手都放(fàng)下(xià)了(le)。

  換句話(huà)說(shuō),機器(qì)學習專家更傾向于将時(shí)間(jiān)花在構建模型上(shàng),而不是處理(lǐ)海量數據集或者将商(shāng)業問題轉化(huà)為(wèi)預測問題。無獨有偶,當前的技術環境,無論是商(shāng)業還是學術,關(guān)注點都在實現(xiàn)更加複雜的模型(LVM潛變量模型)、模型學習算(suàn)法(分(fēn)布式計算(suàn)),或者微調(貝葉斯優化(huà))。本質上(shàng),這(zhè)些(xiē)都屬于數據科學項目後期的過程。然而,按照我們的經驗,我們認為(wèi)這(zhè)些(xiē)關(guān)注點并不是最恰當的。

  如(rú)果公司想要從數據中獲得價值,需要将重點放(fàng)在加速對數據的人(rén)為(wèi)理(lǐ)解,在短時(shí)間(jiān)内調整可構建的模型問題數量以及預測這(zhè)些(xiē)模型所的成效。在與公司的合作(zuò)中,我們得出結論,想要通過機器(qì)學習帶來(lái)真正的改變,需要将重點放(fàng)在以下(xià)四個(gè)方面:

  堅持簡單的模型

  簡單的模型,例如(rú)邏輯回歸、基于随機森林或者決策樹的模型。這(zhè)些(xiē)模型已經足夠解決手頭上(shàng)的任務(wù)。關(guān)鍵是減少數據采集時(shí)間(jiān),盡早進行第一(yī)個(gè)簡單預測模型的開發。

  探索更多的問題

  數據科學家需要有能(néng)夠快(kuài)速而簡單的定義和探索多個(gè)預測模型的能(néng)力。公司應該探索更多的商(shāng)業問題,為(wèi)每一(yī)個(gè)商(shāng)業問題建立一(yī)個(gè)簡單的預測模型,并評估其價值,而不是用超級複雜的機器(qì)學習模型去探索僅僅一(yī)個(gè)商(shāng)業問題。

  從數據樣本中而不是全部的數據中學習

  不要過多的關(guān)注如(rú)何使用分(fēn)布式計算(suàn)讓任何一(yī)個(gè)處理(lǐ)模型都能(néng)進行大數據處理(lǐ),而是在能(néng)夠從子(zǐ)樣本數據中導出相似結論的技術上(shàng)進行投資。規避大量計算(suàn)資源的使用,将會給予我們更多的空間(jiān)去探索更多的假設。

  關(guān)注自動化(huà)

  為(wèi)減少第一(yī)個(gè)預測模型産生(shēng)的時(shí)間(jiān)和加快(kuài)探索的速度,公司必須能(néng)夠自動化(huà)處理(lǐ)在正常情況下(xià)需要人(rén)工完成的過程。通過在不同數據問題上(shàng)的反複探索,我們發現(xiàn)很多時(shí)候都在使用相似的數據處理(lǐ)技術,無論是将數據轉化(huà)為(wèi)有用的聚合數據,還是為(wèi)預測模型準備數據。是時(shí)候流水線化(huà)這(zhè)些(xiē)任務(wù),開發算(suàn)法和軟件,使這(zhè)些(xiē)過程能(néng)夠自動化(huà)完成。

  專注于上(shàng)述四個(gè)目标,準确理(lǐ)解數據科學家如(rú)何與數據交互,以及項目瓶頸之所在,幫助我們成功啓動了(le)MIT的“TheHuman-DataInteractionProject”項目。

  我們的目标是快(kuài)速探索預測模型,并将這(zhè)些(xiē)模型應用于解決真實企業中的實際問題。這(zhè)些(xiē)模型簡單,同時(shí)自動化(huà)讓非專業的用戶也(yě)能(néng)夠在幾個(gè)小時(shí)内建立成百甚至上(shàng)千個(gè)預測模型。而這(zhè)在今天,通常需要花費專家們一(yī)整個(gè)月(yuè)(yuè)的時(shí)間(jiān)才能(néng)做到。文章來(lái)源于網絡,版權歸原作(zuò)者所有.如(rú)果侵犯了(le)您的權益,請來(lái)信告知,我們會盡快(kuài)處理(lǐ))

獲取更多專業資訊

微信掃一(yī)掃

服務(wù)項目

維保運維服務(wù)

信息系統集成服務(wù)

機房(fáng)搬遷服務(wù)

 
 
 
QQ 在線客服
QQ 在線客服
 
電話(huà):
0531-88818533
客服QQ
2061058957
1905215487