這(zhè)些(xiē)數據科學技能(néng)，才是老闆們最想要的

作(zuò)者：來(lái)源：雪晴數據網發表時(shí)間(jiān)：2016-3-15 點擊：3857

這(zhè)是一(yī)個(gè)好(hǎo)(hǎo)消息，如(rú)果你希望在2016年找一(yī)份數據科學的工作(zuò)—在該領域職位空缺的數量正在不斷增加，企業希望利用大數據來(lái)獲得競争優勢。但(dàn)事(shì)實上(shàng)，找一(yī)份夢寐以求的數據科學工作(zuò)就(jiù)意味着你要具備一(yī)些(xiē)技能(néng)的組合，你可能(néng)會驚訝學習哪些(xiē)技能(néng)是雇主所最需要的。

　　最近，人(rén)們在CrowdFlower上(shàng)針對Linkedin的3490個(gè)數據科學職位做了(le)分(fēn)析，并對最常出現(xiàn)的21個(gè)技能(néng)進行了(le)排序。有些(xiē)結果并不那麽令人(rén)驚訝—SQL排在最前，而其它的結果可能(néng)是數據科學領域不斷發展的領先指标。

　　如(rú)上(shàng)所述，SQL是最常見的技能(néng)，在Linkedin發布的所有數據科學工作(zuò)中占比達到了(le)57%。Hadoop排在第二，占比49%。這(zhè)并不出乎CrowdFlower公司CEO和創始人(rén)LukasBiewald的意料。CrowdFlower是美國矽谷一(yī)家從事(shì)衆包數據處理(lǐ)的公司。

　　“SQL和Hadoop排在前兩位并沒什(shén)麽驚訝的，因為(wèi)它們本身(shēn)就(jiù)是存儲數據的技術”Biewald告訴Datanami(本文轉譯自該網站(zhàn))。“每個(gè)數據科學家必須知道如(rú)何獲取數據。如(rú)果你不知如(rú)何獲取數據，那你什(shén)麽都做不了(le)。”

　　在所有數據科學的招聘信息中，python是排在第三名的技能(néng)。在CrowdFlower去年關(guān)于數據科學家哪些(xiē)技能(néng)是最重要的調查中，python排在R的後面。但(dàn)在本次招聘信息的調查中(這(zhè)無疑是更具有前瞻性的範圍)，python作(zuò)為(wèi)數據科學的一(yī)項關(guān)鍵性技能(néng)占比達到了(le)39%。相比之下(xià)，R是32%。

　　相比R來(lái)說(shuō)，為(wèi)什(shén)麽現(xiàn)在越來(lái)越多的雇主正在尋找具備python技能(néng)的數據科學家?Biewald提出了(le)自己的看法：“python的工具集越來(lái)越好(hǎo)(hǎo)。已經有很多基于python的統計工具”。“還有一(yī)個(gè)認識是數據科學不僅僅是統計學”。

　　設想一(yī)下(xià)，數據科學家80%的時(shí)間(jiān)花費在數據清理(lǐ)和數據準備上(shàng)，而隻有20%的時(shí)間(jiān)是用來(lái)做分(fēn)析。這(zhè)或許可以解釋python突然出現(xiàn)的原因。

　　“我認為(wèi)Python是做數據清理(lǐ)的語言，而R是做分(fēn)析的”，Biewald說(shuō)到。在創辦CrowdFlower之前，他負責領導Yahoo的搜索相關(guān)團隊。“由于數據科學更多的是做數據清洗和準備，python正變得越來(lái)越重要。它無疑是将數據整理(lǐ)成适合做分(fēn)析的數據格式最好(hǎo)(hǎo)的語言”。

　　事(shì)實上(shàng)，Java排在第四位讓人(rén)有點摸不着頭腦。因為(wèi)Java本身(shēn)不是數據科學所要求的掌握一(yī)門語言，當你在java中寫Hadoop的時(shí)候，它的高配就(jiù)顯得有道理(lǐ)了(le)。其它跟Hadoop相關(guān)的工具都排在前10，包括Hive(31%)，MapReduce(22%)和Pig(16%)。

　　對于這(zhè)份CrowdFlower從Linkedin編輯過來(lái)的職位列表，多少有些(xiē)遺漏。ApacheSpark，在上(shàng)面給出的數據科學技能(néng)要求中沒有出現(xiàn)過。Scala也(yě)沒有出現(xiàn)過，它是在Spark框架内處理(lǐ)數據的主要途徑之一(yī)。

　　這(zhè)可能(néng)是因為(wèi)Spark還比較前沿，大家對它知之甚少。“現(xiàn)在周圍對它有很多炒作(zuò)，但(dàn)可能(néng)還是太早了(le)”Biewald說(shuō)到。“在CrowdFlower，我們已經開始使用它了(le)。我認為(wèi)這(zhè)門技術很棒，但(dàn)在企業真正使用它的時(shí)候會有些(xiē)滞後”。

　　Spark和Scala可能(néng)是數據科學的未來(lái)(它們在Alphabet[NASDAQ:GOOGL]公司中得到大力支持，矽谷的許多高科技公司也(yě)在廣泛的使用它們)。但(dàn)不是每個(gè)數據科學項目或團隊都需要走在技術的最前沿才能(néng)實現(xiàn)他們的大數據成果。“令人(rén)驚訝的是現(xiàn)在很多人(rén)都在尋找數據科學家，但(dàn)是我認為(wèi)他們中的很多人(rén)是不想走在最前沿的”Biewald說(shuō)到。

　　這(zhè)份CrowdFlower列表中包含了(le)許多知名的數據分(fēn)析工具，包括SAS(占比16%)，SPSS(10%)，Matlab(10%)和Stata(占比3%)。Biewald認為(wèi)這(zhè)些(xiē)工具仍是有價值的并且在未來(lái)一(yī)段時(shí)間(jiān)内還會繼續使用。但(dàn)是他希望它們的市(shì)場(chǎng)份額逐漸被那些(xiē)專門為(wèi)大數據設計的新(xīn)工具所奪走。

　　“數據科學的角色大于統計學家”他說(shuō)。“在我們的腦海裏，這(zhè)些(xiē)舊的語言更多的是建立在統計學家的基礎上(shàng)，它們隻是對少量的數據進行分(fēn)析。而排名在前的Hadoop，python和Java則可以運行TB級的數據。你可以用SAS，SPSS，Matlab來(lái)做大數據分(fēn)析，但(dàn)這(zhè)不是它們設計的目的”。

　　不是每個(gè)人(rén)都同意“數據科學”或“數據科學家”應該做什(shén)麽以及應該掌握什(shén)麽樣技能(néng)的定義。事(shì)實上(shàng)，一(yī)些(xiē)人(rén)反對使用術語“科學”，而甯願用諸如(rú)“應用統計”的短語。(想起了(le)哈佛商(shāng)業評論稱應用統計學家是21世紀最性感的職業)但(dàn)在Biewald和其他人(rén)眼中，處理(lǐ)數據的能(néng)力和統計分(fēn)析的能(néng)力同等重要。這(zhè)就(jiù)是他對數據科學家進一(yī)步給出的定義。

　　“在過去，我們處理(lǐ)幾千條記錄的時(shí)候不是特别難。但(dàn)是，當數據量達到數十億條記錄的時(shí)候我們就(jiù)需要真本事(shì)來(lái)得到一(yī)個(gè)規範的格式，以便我們進一(yī)步做回歸或機器(qì)學習”他說(shuō)。“對于這(zhè)種情況，我想要聘請的是一(yī)名掌握python或者是C、Perl、Ruby亦或是一(yī)門更多做數據處理(lǐ)而不是做數據分(fēn)析的語言的數據科學家”。

上(shàng)條新(xīn)聞：職業生(shēng)涯提升計劃：邁入數據科學新(xīn)世界

下(xià)條新(xīn)聞：分(fēn)析信息化(huà)現(xiàn)狀企業IT規劃成關(guān)鍵

服務(wù)項目

維保運維服務(wù)

信息系統集成服務(wù)

機房(fáng)搬遷服務(wù)