江湖傳言,很多跨國公司以及國內的大型互聯(lián)網(wǎng)企業(yè)等都設立了數(shù)據(jù)科學家這個崗位,與一般意義上的大數(shù)據(jù)或商業(yè)分析師不同,這個崗位的職責要求掌握多種技能集。
天下大勢,分久必合,合久必分。數(shù)據(jù)科學家無非就是一名特種兵,在大數(shù)據(jù)時代,經濟學家亞當.斯密提出的專業(yè)分工模式轉變成綜合多專業(yè)的全面手、特種兵,起了個時髦的名字“數(shù)據(jù)科學家”。盡管數(shù)據(jù)科學家的角色與傳統(tǒng)意義上的數(shù)據(jù)分析崗位有重合之處,但二者還是有明顯區(qū)別的。一名數(shù)據(jù)分析師能夠從歷史數(shù)據(jù)中提取出有用的信息并表達出來,供各層級領導決策使用。而數(shù)據(jù)科學家必須具備深入洞察,可以借助對大數(shù)據(jù)技術和機器學習等新技術挖掘出數(shù)據(jù)中隱藏的模式,挖掘出更深的洞見。他們擺脫了這些傳統(tǒng)數(shù)據(jù)處理模式的束縛。
簡而言之,數(shù)據(jù)科學家=業(yè)務分析師+數(shù)據(jù)工程師,需要具備如下技能:
1.對業(yè)務的深刻理解。對于挖掘數(shù)據(jù)價值來說,必須首先對企業(yè)業(yè)務流程有充分的了解,這些理解不止建立在業(yè)務部門的痛點上,還應該以發(fā)展的視角看待業(yè)務部門的需求,這樣才能發(fā)揮數(shù)據(jù)的真實價值。
2.以數(shù)學思維看待數(shù)據(jù)。學習諸如機器學習、數(shù)據(jù)挖掘、數(shù)據(jù)分析和統(tǒng)計學等技能十分重要。數(shù)據(jù)科學家需要從數(shù)學的角度對數(shù)據(jù)進行解釋和分析。
3.熟悉常用工具和技術。不僅是Excel、Tableau這樣的工具軟件,還要對R、Python等語言甚至類似SQL等數(shù)據(jù)庫查詢語言均要有所了解。數(shù)據(jù)提取、探索和假設檢驗是數(shù)據(jù)科學實踐的核心。
4.具備很強的計算機科學和軟件工程背景。這需要掌握包括Java、C 或算法知識和Hadoop。這些技能將用于利用數(shù)據(jù)來設計系統(tǒng)架構。