為(wèi)何企業無法從數據科學中真正獲得價值？

作(zuò)者：九次方大數據來(lái)源：九次方大數據發表時(shí)間(jiān)：2017-1-10 點擊：3089

當今企業擁有越來(lái)越多的數據，但(dàn)這(zhè)些(xiē)數據并沒有完全被轉化(huà)成可操作(zuò)的信息。在過去的幾年裏，我和我的MIT調查小組一(yī)直在尋找一(yī)個(gè)基本問題的答(dá)案：如(rú)何讓企業通過機器(qì)學習，将蘊藏于其數據儲存内的潛能(néng)全部釋放(fàng)出來(lái)。

當我們與不同行業的合作(zuò)夥伴一(yī)起設計基于機器(qì)學習的解決方案時(shí)，我們發現(xiàn)已有的解決方案通常情況下(xià)是不适合的，這(zhè)是為(wèi)什(shén)麽呢(ne)?

　　首先，每當我們問到機器(qì)學習專家們(專長于預測模型訓練和測試的數據科學家們)，在工作(zuò)中最困難的部分(fēn)，被一(yī)次次提及的答(dá)案是——“數據雜亂無章”。一(yī)開始，從字面意思上(shàng)理(lǐ)解，我們認為(wèi)這(zhè)是一(yī)個(gè)經典的數據問題——數據缺失或者數據庫之間(jiān)缺乏一(yī)緻性。随着我們的進一(yī)步挖掘，我們意識到該問題和經典的數據問題略有不同，兩者面臨的數據形式有一(yī)定的區别。企業的原始數據(Rawdata)，甚至是幹淨數據(Cleandata：在Rawdata的基礎上(shàng)，進一(yī)步處理(lǐ)後得到的數據)量多且複雜，即使是專家，第一(yī)眼也(yě)很難理(lǐ)解這(zhè)些(xiē)數據。因為(wèi)這(zhè)樣的數據有太多的數據表和字段，同時(shí)數據的粒度又非常高(例如(rú)，在線點擊流每一(yī)次點擊都會生(shēng)成新(xīn)數據、傳感器(qì)每秒(miǎo)會進行125次的數據收集)。而機器(qì)學習專家們通常習慣使用聚合過後的，有用的數據，例如(rú)一(yī)個(gè)用戶訪問過的網站(zhàn)數目，而不是用戶在某個(gè)網站(zhàn)上(shàng)的行為(wèi)數據表。

　　與此同時(shí)，我們經常聽(tīng)到商(shāng)業專家抱怨“我們有大量的數據，但(dàn)沒有通過這(zhè)些(xiē)數據做成任何事(shì)”。更深入的調查顯示這(zhè)種說(shuō)法也(yě)不完全對。而這(zhè)種挫敗感主要來(lái)源于兩個(gè)方面。

　　一(yī)方面是由于時(shí)間(jiān)問題。由于機器(qì)學習中，理(lǐ)解、規劃及處理(lǐ)數據等一(yī)系列過程所需要花費的時(shí)間(jiān)，機器(qì)學習專家常常更加關(guān)注流程的後面部分(fēn)——嘗試不同的模型或者在問題制定完成後，調整模型參數，而不是針對不同的商(shāng)業問題制定新(xīn)的預測模型。因此，當商(shāng)業專家想到某個(gè)新(xīn)的問題時(shí)，機器(qì)學習專家無法做到總是及時(shí)跟上(shàng)他們的步伐。

　　另一(yī)方面，經常來(lái)說(shuō)，機器(qì)學習專家并沒有圍繞着“産生(shēng)商(shāng)業價值”，這(zhè)一(yī)建模的最終目标，來(lái)展開工作(zuò)。在大部分(fēn)情況下(xià)，預測模型旨在提高效率、增加收益或者減少支出。但(dàn)實際上(shàng)，建立模型的工作(zuò)者卻很少問這(zhè)樣的問題“這(zhè)個(gè)預測模型提供的價值是什(shén)麽?我們又該如(rú)何去量化(huà)其價值?”。思考這(zhè)一(yī)價值導向的問題常常會改變最初的問題規劃(problemformulation)，通常情況下(xià)比建模後期再進行過程調整更加有用。最近在一(yī)個(gè)機器(qì)學習愛好(hǎo)(hǎo)者小組中，我向約150名觀衆進行了(le)調查，當問到“有多人(rén)建立過機器(qì)學習模型?”大約有三分(fēn)之一(yī)的人(rén)舉了(le)手。緊接着，當我問到“有多少人(rén)真正應用自己建立的模型産生(shēng)價值，并量化(huà)模型産出價值?”時(shí)，所有人(rén)的手都放(fàng)下(xià)了(le)。

　　換句話(huà)說(shuō)，機器(qì)學習專家更傾向于将時(shí)間(jiān)花在構建模型上(shàng)，而不是處理(lǐ)海量數據集或者将商(shāng)業問題轉化(huà)為(wèi)預測問題。無獨有偶，當前的技術環境，無論是商(shāng)業還是學術，關(guān)注點都在實現(xiàn)更加複雜的模型(LVM潛變量模型)、模型學習算(suàn)法(分(fēn)布式計算(suàn))，或者微調(貝葉斯優化(huà))。本質上(shàng)，這(zhè)些(xiē)都屬于數據科學項目後期的過程。然而，按照我們的經驗，我們認為(wèi)這(zhè)些(xiē)關(guān)注點并不是最恰當的。

　　如(rú)果公司想要從數據中獲得價值，需要将重點放(fàng)在加速對數據的人(rén)為(wèi)理(lǐ)解，在短時(shí)間(jiān)内調整可構建的模型問題數量以及預測這(zhè)些(xiē)模型所的成效。在與公司的合作(zuò)中，我們得出結論，想要通過機器(qì)學習帶來(lái)真正的改變，需要将重點放(fàng)在以下(xià)四個(gè)方面：

　　堅持簡單的模型

　　簡單的模型，例如(rú)邏輯回歸、基于随機森林或者決策樹的模型。這(zhè)些(xiē)模型已經足夠解決手頭上(shàng)的任務(wù)。關(guān)鍵是減少數據采集時(shí)間(jiān)，盡早進行第一(yī)個(gè)簡單預測模型的開發。

　　探索更多的問題

　　數據科學家需要有能(néng)夠快(kuài)速而簡單的定義和探索多個(gè)預測模型的能(néng)力。公司應該探索更多的商(shāng)業問題，為(wèi)每一(yī)個(gè)商(shāng)業問題建立一(yī)個(gè)簡單的預測模型，并評估其價值，而不是用超級複雜的機器(qì)學習模型去探索僅僅一(yī)個(gè)商(shāng)業問題。

　　從數據樣本中而不是全部的數據中學習

　　不要過多的關(guān)注如(rú)何使用分(fēn)布式計算(suàn)讓任何一(yī)個(gè)處理(lǐ)模型都能(néng)進行大數據處理(lǐ)，而是在能(néng)夠從子(zǐ)樣本數據中導出相似結論的技術上(shàng)進行投資。規避大量計算(suàn)資源的使用，将會給予我們更多的空間(jiān)去探索更多的假設。

　　關(guān)注自動化(huà)

　　為(wèi)減少第一(yī)個(gè)預測模型産生(shēng)的時(shí)間(jiān)和加快(kuài)探索的速度，公司必須能(néng)夠自動化(huà)處理(lǐ)在正常情況下(xià)需要人(rén)工完成的過程。通過在不同數據問題上(shàng)的反複探索，我們發現(xiàn)很多時(shí)候都在使用相似的數據處理(lǐ)技術，無論是将數據轉化(huà)為(wèi)有用的聚合數據，還是為(wèi)預測模型準備數據。是時(shí)候流水線化(huà)這(zhè)些(xiē)任務(wù)，開發算(suàn)法和軟件，使這(zhè)些(xiē)過程能(néng)夠自動化(huà)完成。

　　專注于上(shàng)述四個(gè)目标，準确理(lǐ)解數據科學家如(rú)何與數據交互，以及項目瓶頸之所在，幫助我們成功啓動了(le)MIT的“TheHuman-DataInteractionProject”項目。

　　我們的目标是快(kuài)速探索預測模型，并将這(zhè)些(xiē)模型應用于解決真實企業中的實際問題。這(zhè)些(xiē)模型簡單，同時(shí)自動化(huà)讓非專業的用戶也(yě)能(néng)夠在幾個(gè)小時(shí)内建立成百甚至上(shàng)千個(gè)預測模型。而這(zhè)在今天，通常需要花費專家們一(yī)整個(gè)月(yuè)(yuè)的時(shí)間(jiān)才能(néng)做到。（文章來(lái)源于網絡,版權歸原作(zuò)者所有.如(rú)果侵犯了(le)您的權益,請來(lái)信告知,我們會盡快(kuài)處理(lǐ)）

獲取更多專業資訊

微信掃一(yī)掃

上(shàng)條新(xīn)聞：雲災難恢複服務(wù)：客戶想要“DR即服務(wù)”

下(xià)條新(xīn)聞：這(zhè)是網絡安全的基石：密碼學2016大盤點

服務(wù)項目

維保運維服務(wù)

信息系統集成服務(wù)

機房(fáng)搬遷服務(wù)