用大數(shù)據(jù)分析大數(shù)據(jù)市場
Hadoop作為一個整體來說仍然是采用量多,討論火爆的大數(shù)據(jù)技術。
然而通過我們的數(shù)據(jù)分析發(fā)現(xiàn)在世界上前50萬個公司中,只有很少的一部分真正的使用了Hadoop技術。有人會說我們仍然處在這個技術被大眾所接受初始的階段。我們假設用Hadoop的實用情況來代表整個大數(shù)據(jù)的發(fā)展現(xiàn)狀,通過數(shù)據(jù)分析我們發(fā)現(xiàn)了一些很有意思的市場現(xiàn)狀。
當剛看到這些原始數(shù)據(jù)的時候,我們會發(fā)現(xiàn)大數(shù)據(jù)市場還有非常大的潛在空間。但是現(xiàn)在真正的使用者非常少,而這方面的公司又多如牛毛,意味著大數(shù)據(jù)科技公司中會被并購。簡單地講,大數(shù)據(jù)市場會慢慢的變得更加成熟。
現(xiàn)況一覽
我們分析了幾十億條網(wǎng)上公布的信息,包括新聞稿、論壇帖子、招聘啟事、微博和等等。我們用這些大量的文檔進行機器學習,從而得到一些關于大公司都技術采用情況的非常的信息。
我們想通過分析了解什么樣的趨勢呢?舉個例子,通過統(tǒng)計公司員工的技能就可以了解他們所在的公司這正在使用什么樣的技術;有哪些公司在找會Spark的人;哪些公司在招數(shù)據(jù)科學家,招多少個。如果把關注點放在Hadoop上我們可以找到一個公司或者組織的人有沒有在討論Hadoop相關問題,有沒有需要Hadoop的職位正在招聘,都有誰去了當?shù)仃P于Hadoop的興趣小組,還有網(wǎng)上誰在問關于Hadoop的技術問題。我們甚至用了關于Hadoop的每一條微博,博客和展示稿。
總的來說,我們發(fā)現(xiàn)只有2680個公司在某種程度上使用Hadoop,在這些公司里面,1636個的技術采用成熟度是非常低的,這些人只是剛剛開始嘗試新技術,參加興趣小組和技術會議來學習大數(shù)據(jù)或者嘗試做一些入門探索性的項目。另外552個在更高的一個級別,他們已經開始在內部比較小型的項目中用Hadoop(部門的項目或者公司本身就是一個初創(chuàng)公司)。只有492個是在進階的技術狀態(tài),這些公司有一個比較大型的項目投入產品并且有員工對Hadoop有一定的經驗。
我們驚訝的發(fā)現(xiàn),大型公司(5000人以上)開始使用大數(shù)據(jù)技術的速度要遠遠高于小型公司。一般人很可能會猜小型或者歷史比較短的公司會更愿意采用新技術。但是對于大數(shù)據(jù),現(xiàn)實情況正好相反。我們發(fā)現(xiàn)大型公司中有300個對于Hadoop非常重視已經進行了技術投資,而相對比之下只有300個5000人以下的公司是Hadoop用戶??紤]到中小公司的總數(shù)目是大公司的10倍,這也就是說Hadoop在大公司市場的占有率是中小型公司市場的10倍。
大多數(shù)用Hadoop的公司自己就是高科技數(shù)據(jù)導向的公司。但是我們不知道為什么小公司遲遲沒有迎頭趕上。這是因為他們買不起大數(shù)據(jù)軟件支持嗎?還是因為他們請不起高薪的數(shù)據(jù)科學家和工程師?還是他們根本就沒有太多的數(shù)據(jù)?
石油和醫(yī)藥行業(yè)落后 金融行業(yè)
油氣公司和醫(yī)藥公司一般來說都有非常多的數(shù)據(jù)集,但是我們的分析表明他們并沒有很多在使用Hadoop。然而金融行業(yè)雖然傳統(tǒng)上并不是可以快速采用新技術的行業(yè),卻很快地使用了大數(shù)據(jù)技術。
這也許是因為金融行業(yè)受到了一些早期使用者(比如美國運通公司)的影響?;蛘呤且驗樗麄冎苯訌腎BM大型計算機飛躍到Hadoop,中間直接跳過了好幾代的技術更迭。甚至現(xiàn)在已經出現(xiàn)了專門提供這種技術升級服務的創(chuàng)業(yè)公司(比如Paxata和Syncsort)。
實時分析也不能阻擋 Hadoop的腳步
令人不解的是,一些需要實時分析的行業(yè)更快的采用了Hadoop技術。這些行業(yè)包括零售行業(yè)、IT安全、電信和保險。這個非常讓人困惑,因為Hadoop開始的基礎MapReduce(映射-歸納)模型采用的是批量處理,這種方法在實時數(shù)據(jù)分析和處理中非常低效。為了解決這個問題,市場中已經出現(xiàn)了一些實時處理Hadoop的公司(比如Datatorrent、VoltDB和SpliceMachine)。
未來展望
即使是那些準備好了進入Hadoop的公司也要面臨人才的缺失的問題。在撰寫文章的這天光美國就有1萬6千個需要Hadoop經驗的崗位在招人。如果Hadoop市場走向成熟,那業(yè)界需要找到一個可以利用那些沒有Hadoop技術經驗人才的方法。那些了解SQL的人才數(shù)目要比懂Hadoop的多100倍。類似SpliceMachne,Presto,IBM大數(shù)據(jù),甲骨文大數(shù)據(jù)SQL之類(這些公司都提供用SQL來查詢大數(shù)據(jù)的方法)的解決方案將會因為相關人才的數(shù)量而更加有吸引力。
即便人才問題可以得到解決,技術本身仍然存在著實用和維護成本非常昂貴的問題。雖然使用了免費開源的Hadoop系統(tǒng),你仍然需要找到非常開價很高的系統(tǒng)管理員。另外雖然在備份,恢復和高使用性方面的解決方案越來越多,但是管理Hadoop系統(tǒng)仍然比SQL數(shù)據(jù)庫要復雜的多得多。
當今的Hadoop市場可以說是比較小的,并容不下這么多的創(chuàng)業(yè)公司在里面競爭。我們的分析表明真正在為大數(shù)據(jù)買單的公司集中在少量的大型公司中,所以后勝出的應該會是那些在市場中已經站穩(wěn)腳跟的技術。我們從近Hortonworks在股市中的表現(xiàn)也可以看到這一點(注:目前股價$11,市值自上市以來已經蒸發(fā)了一半還多)。
這會直接導致一些Hadoop公司被收購或者合并。后并購的公司如果不僅可以支持基本的MapReduce,還可以采用公有云定價模式,事務,純內存處理,實時分析和SQL等等,那么客戶可以不再為了有很多不同的一次性系統(tǒng)而煩惱。終就像是以前的關系型數(shù)據(jù)庫公司那樣被應用型公司所取代(比如甲骨文),這些公司直接提供一些大數(shù)據(jù)驅動的解決方案,可以直接應用在物聯(lián)網(wǎng)、客戶關系管理、供應鏈甚至一些行業(yè)特定的應用上,比如物流管理甚至金融欺詐檢測。
前路漫漫
如你所見,大數(shù)據(jù)市場還有非常多增長和改變的空間。我們的分析表明下面的幾個方面可以幫助這些增長成為現(xiàn)實。首先Hadoop可以進軍更多的垂直市場和中型公司,其次Hadoop方面人才的數(shù)量需要增長,然后通過改善分析系統(tǒng)可以讓更多已經了解SQL的人更好地使用Hadoop工具。后是并購之后的公司如果可以轉型成為應用為主體產品的公司應該會是笑到后的贏家。