“數(shu)(shu)(shu)據(ju)(ju)科學(xue)(xue)(xue)家(jia)(jia)(jia)”在2009年由Natahn Yau首(shou)次提(ti)出,其概念是(shi)采用(yong)(yong)科學(xue)(xue)(xue)方(fang)法、運用(yong)(yong)數(shu)(shu)(shu)據(ju)(ju)挖掘工(gong)具尋(xun)找(zhao)新的(de)(de)數(shu)(shu)(shu)據(ju)(ju)洞察的(de)(de)工(gong)程師(shi)(shi)。數(shu)(shu)(shu)據(ju)(ju)科學(xue)(xue)(xue)家(jia)(jia)(jia)集(ji)技術專(zhuan)家(jia)(jia)(jia)與數(shu)(shu)(shu)量分(fen)析(xi)師(shi)(shi)的(de)(de)角色于一身,與傳統數(shu)(shu)(shu)量分(fen)析(xi)師(shi)(shi)相比:后者通常(chang)利(li)用(yong)(yong)企(qi)業的(de)(de)內部數(shu)(shu)(shu)據(ju)(ju)進行分(fen)析(xi),以支持領導層的(de)(de)決策(ce);而前(qian)者更多的(de)(de)是(shi)通過關注面向(xiang)用(yong)(yong)戶(hu)的(de)(de)數(shu)(shu)(shu)據(ju)(ju)來創(chuang)造不同特性的(de)(de)產品和(he)流程,為客戶(hu)提(ti)供(gong)有意(yi)義(yi)的(de)(de)增值服務。
面(mian)向客戶的性質決(jue)定了(le)大部(bu)分數(shu)據科(ke)學(xue)家(jia)擔任公(gong)司產(chan)品開發或(huo)(huo)營(ying)銷(xiao)部(bu)門的職(zhi)位,或(huo)(huo)是效力于首席技術官(guan)。那么數(shu)據科(ke)學(xue)家(jia)需(xu)要具備哪些核心能(neng)力呢?科(ke)技記者Derrick Harris在其文章中介紹了(le)數(shu)據科(ke)學(xue)家(jia)應具備的一些技能(neng)。
他表示,在(zai)你詢(xun)問別人什么是(shi)數(shu)(shu)據(ju)科學家,或者數(shu)(shu)據(ju)科學家是(shi)做什么的(de)(de)(de)時候,很(hen)(hen)容(rong)易(yi)發現(xian):“數(shu)(shu)據(ju)科學家”其實是(shi)從(cong)“大數(shu)(shu)據(ju)”引發的(de)(de)(de)術語混亂中形(xing)成(cheng)的(de)(de)(de)。數(shu)(shu)據(ju)科學的(de)(de)(de)核(he)心(xin)能(neng)力被定(ding)義為:SQL、統(tong)計、預測建(jian)模和編程、Python等,這些(xie)聽起來很(hen)(hen)合理。但(dan)是(shi)很(hen)(hen)快就(jiu)有(you)更多名詞(ci)添(tian)加到其中:Hadoop/MapReduce、機器學習、可視化,甚至還有(you)傳統(tong)的(de)(de)(de)數(shu)(shu)學、物理、計算(suan)機科學等類似(si)能(neng)力。
許多人(ren)呼(hu)吁(yu)專業(ye)領域、商業(ye)智慧、創(chuang)造力及(ji)表達能力也是(shi)同樣重要(yao)的(de)(de)(de)。一(yi)個(ge)數(shu)(shu)據(ju)科學(xue)家(jia)不能只(zhi)擅長數(shu)(shu)字(這(zhe)種人(ren)被稱為統計(ji)學(xue)家(jia)或(huo)分析師(shi)),也要(yao)能夠理解業(ye)務:什么樣的(de)(de)(de)數(shu)(shu)據(ju)或(huo)結(jie)果才是(shi)有參考性的(de)(de)(de);能夠找到新(xin)的(de)(de)(de)數(shu)(shu)據(ju)集并(bing)為其創(chuang)造新(xin)產品;然(ran)后(hou)能夠讓CEO們理解這(zhe)一(yi)切。這(zhe)是(shi)一(yi)個(ge)艱巨的(de)(de)(de)任(ren)務,這(zhe)個(ge)世(shi)界上(shang)這(zhe)類(lei)人(ren)是(shi)很少的(de)(de)(de)。作為頂尖的(de)(de)(de)數(shu)(shu)據(ju)科學(xue)家(jia),不要(yao)求他們對環境做出(chu)什么積(ji)極的(de)(de)(de)改變,但(dan)是(shi)需要(yao)他們嘗試做一(yi)些(xie)真正先進(jin)的(de)(de)(de)東西(xi),幫助大家(jia)更好的(de)(de)(de)解決業(ye)務上(shang)的(de)(de)(de)問題。
數據(ju)科學家的(de)六種(zhong)能力:
1.對數據的提取與綜合能力;
2.統計分(fen)析能力;
3.數據洞察與(yu)信息挖(wa)掘能力;
4.開(kai)發軟(ruan)件能力;
5.網絡編程能力;
6.數據的可視化表示能力(li)。
數據科學(xue)家涉及學(xue)科:
1.計算機科學:數據(ju)獲(huo)取(qu)、數據(ju)解析、數據(ju)存放、和數據(ju)安全
2.數理統計學:數據分析(xi)、數據過(guo)濾(lv)、數據挖掘、和數據優(you)化(hua)
3.圖形設(she)計學(xue):顯示(shi)數據(ju)(ju)結果,比如將(jiang)數據(ju)(ju)表達(da)成三維圖形,以便更好地(di)理(li)解和(he)利(li)用
4.人機(ji)交互學(xue):在用(yong)戶和數據之間建立有機(ji)聯系,使(shi)得人對數據的使(shi)用(yong)更方便