數(shù)據(jù)湖
“我們的目標(biāo)是盡可能快的將數(shù)據(jù)植入我們的業(yè)務(wù),使得我們能夠不斷發(fā)掘出新的業(yè)務(wù)機(jī)會。”The Weather Company的執(zhí)行副總裁技術(shù)官兼信息官布萊森•克勒表示說。在任何一個(gè)項(xiàng)目中,花費(fèi)較長的時(shí)間,卻只是為了清理數(shù)據(jù)是不現(xiàn)實(shí)的。鑒于在如此眾多的新的數(shù)據(jù)來源方面,每天發(fā)生的變化都是如此之大,因此單純的執(zhí)行數(shù)據(jù)整理方面的工作永遠(yuǎn)是都不完整的。”
克勒想把從任何地方的所有數(shù)據(jù)來源所收集到的數(shù)據(jù)都整合起來,這其中包括了個(gè)別氣象站點(diǎn)的數(shù)據(jù)和物聯(lián)網(wǎng)傳感器所收集的數(shù)據(jù),以便能夠進(jìn)行大量的數(shù)據(jù)分析工作。而如果要借助傳統(tǒng)的數(shù)據(jù)倉庫,這項(xiàng)工作幾乎是不可能的,因?yàn)樾碌臄?shù)據(jù)的屬性大多都是非結(jié)構(gòu)化的、而且其數(shù)量龐大,同時(shí)其任務(wù)的驗(yàn)證和開發(fā)過程往往需要花費(fèi)漫長的時(shí)間。
“我們從很多初創(chuàng)公司那里獲得了大量的數(shù)據(jù),當(dāng)然我不能要求這些公司專門為我們創(chuàng)建一種專門的數(shù)據(jù)格式。這將削弱他們的競爭優(yōu)勢,否則他們就會選擇別的合作伙伴了。”克勒說。
而為了避免這種潛在的麻煩,兩年前,The Weather Company成為了數(shù)據(jù)湖的早期采用者。這種方法允許該企業(yè)能夠以一種不可知的方式獲取、分析和存儲非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化的數(shù)據(jù),該方法比傳統(tǒng)的數(shù)據(jù)倉庫提供了更為靈活的存儲。
今天的許多數(shù)據(jù)湖都能夠與Apache的Hadoop開源分布式框架進(jìn)行兼容,以用來存儲和處理數(shù)據(jù)。EMC、IBM、微軟、惠普企業(yè)和Informatica公司均提供運(yùn)行Hadoop的數(shù)據(jù)湖平臺。(IBM近從The Weather Company采購了一些數(shù)字資產(chǎn)。)
The Weather Company為其數(shù)據(jù)湖使用了AmazonS3,以及Apache的Cassandra數(shù)據(jù)庫和Apache的Spark,以便進(jìn)行實(shí)時(shí)的數(shù)據(jù)分析處理,克勒說。借助其數(shù)據(jù)湖戰(zhàn)略,The Weather Company可以接受來自135000個(gè)世界各地的愛好者的獨(dú)立的個(gè)人氣象站的數(shù)據(jù)。這些數(shù)據(jù)信息匯集到數(shù)據(jù)湖,并與其它諸如雷擊和湍流事件的關(guān)鍵數(shù)據(jù)信息整合,得以能夠?yàn)樵摴镜奶鞖鈹?shù)據(jù)科學(xué)家和業(yè)務(wù)專家提供相關(guān)的洞察見解。
自從該數(shù)據(jù)湖項(xiàng)目啟動(dòng)以來,The Weather Company已經(jīng)能夠?qū)⑵錅囟阮A(yù)測的準(zhǔn)確性提高了2度。“而在天氣預(yù)測領(lǐng)域,2度的意義無疑是相當(dāng)重大的。”克勒說。
數(shù)據(jù)湖在哪些領(lǐng)域奏效,哪些領(lǐng)域不起作用
普華永道分析實(shí)踐的合伙人Oliver Halter表示說,企業(yè)所收集的數(shù)據(jù)量及其速度正在發(fā)生變化,而更多數(shù)據(jù)來源的獲得將引導(dǎo)更多的企業(yè)考慮采用數(shù)據(jù)湖。
如果一家企業(yè)試圖采用數(shù)據(jù)倉庫來完全整合15個(gè)不同數(shù)據(jù)源的數(shù)據(jù),那么,在同一時(shí)間,“另外50個(gè)可用的數(shù)據(jù)來源的數(shù)據(jù),也是有價(jià)值的。”Halter說。
咨詢公司Hurwitz&Associates的總裁兼執(zhí)行官朱迪斯•赫維茨表示認(rèn)可這兩個(gè)不同的服務(wù)目的。“當(dāng)您想要了解您企業(yè)的競爭對手,和您企業(yè)的藍(lán)色襯衫的銷售情況、以及大家都是如何在網(wǎng)上談?wù)撍{(lán)色襯衫時(shí),您就可以抓取一切關(guān)于藍(lán)襯衫的數(shù)據(jù)信息,并將這些數(shù)據(jù)信息匯集到您企業(yè)的數(shù)據(jù)湖。”她說。
當(dāng)涉及到數(shù)據(jù)倉庫或數(shù)據(jù)湖時(shí),“這不是一個(gè)成本問題”,她解釋說。如果您真的把數(shù)據(jù)分析與您企業(yè)的商業(yè)決策結(jié)合起來,并同時(shí)希望您所依靠的這些數(shù)據(jù)信息必須好是干凈的和完全可靠的,那么您可能不會選擇使用數(shù)據(jù)湖了。”
因?yàn)槿绻腔阱e(cuò)誤的原因、以錯(cuò)誤的方式實(shí)施了數(shù)據(jù)湖,其是有可能導(dǎo)致項(xiàng)目失敗的。”如果您需要做的是財(cái)務(wù)報(bào)告或一項(xiàng)政府機(jī)構(gòu)的政令文件,那么您所依靠的數(shù)據(jù)信息必須是盡可能干凈的,此時(shí),數(shù)據(jù)倉庫或許才是合適的解決方案。”Halter說。
“因?yàn)楫?dāng)您在執(zhí)行相對原始的數(shù)據(jù)分析時(shí),采用的是非標(biāo)準(zhǔn)化的數(shù)據(jù),就可能會在這過程中產(chǎn)生較多的誤解的機(jī)會,或根本是匹配了不完善的數(shù)據(jù),可能會導(dǎo)致分析結(jié)果不夠準(zhǔn)確精密,也就無法生成準(zhǔn)確的財(cái)務(wù)報(bào)表或交易報(bào)告了。”她解釋說。數(shù)據(jù)湖中的數(shù)據(jù)科學(xué)更傾向于進(jìn)行趨勢的分析預(yù)測和大方向的正確性,而不是提供的結(jié)果。
Halter建議廣大讀者可以采用另一種方式來理解數(shù)據(jù)湖和數(shù)據(jù)倉庫間的差異化關(guān)系。“如果您需要一組事實(shí)數(shù)據(jù),將這些數(shù)據(jù)結(jié)合起來,并且需要對其進(jìn)行嚴(yán)格的審查——例如,’我們在3月31日的未付的應(yīng)收賬款是3567444556元’——那么您所需要的是數(shù)據(jù)倉庫的方法。”她說。“而如果您所需要的是提供方向性指導(dǎo)——例如,’我們認(rèn)為,某某市場將增長60%至80%’或’客戶有35%的更高的可能性購買A產(chǎn)品而非B產(chǎn)品’——那么此時(shí),數(shù)據(jù)湖的方法便是更為適合的方案了。”
在大多數(shù)情況下,一家企業(yè)組織將同時(shí)擁有數(shù)據(jù)倉庫和數(shù)據(jù)湖。“一旦您在數(shù)據(jù)湖中發(fā)現(xiàn)一些對企業(yè)組織是有價(jià)值的東西,可以您希望重復(fù)該情況,那么其就可以被轉(zhuǎn)移到數(shù)據(jù)倉庫,實(shí)現(xiàn)規(guī)范化和統(tǒng)一。”Halter說。
數(shù)據(jù)湖的數(shù)據(jù)并不
Synchrony Financial是一家消費(fèi)者金融服務(wù)公司,與Synchrony銀行共同提供銀行聯(lián)名信用卡及其他私人金融信貸業(yè)務(wù)。該公司目前就同時(shí)運(yùn)行著數(shù)據(jù)倉庫和數(shù)據(jù)湖。盡管該公司的數(shù)據(jù)湖目前還只是在試點(diǎn)模式中,其技術(shù)官格雷格·辛普森希望在不久的將來能夠讓數(shù)據(jù)湖項(xiàng)目派上重點(diǎn)用途。
辛普森表示說,他所在的公司擁有非常良好的數(shù)據(jù)財(cái)富,大部分來自其他金融來源并匯集到該公司數(shù)據(jù)湖的數(shù)據(jù)都是干凈且標(biāo)準(zhǔn)規(guī)范化的,因?yàn)樵撔袠I(yè)是屬于高度管制的行業(yè)。該數(shù)據(jù)湖將有助于幫助該金融服務(wù)公司整合社交媒體的數(shù)據(jù),以幫助他們更好的研究客戶的行為和市場趨勢。
“我傾向于獲得干凈的數(shù)據(jù)信息,但事實(shí)上,我也能夠克服那方面的困難。”他說。“實(shí)際情況是,我們需要能夠進(jìn)行數(shù)據(jù)分析,以優(yōu)化我們目前的業(yè)務(wù),并找到相鄰的業(yè)務(wù)。這意味著,我們不會按照正?;哪J絼?chuàng)造這個(gè)主數(shù)據(jù)模型和數(shù)據(jù)集市。”
例如,在分析客戶的購物習(xí)慣,以制定相應(yīng)的營銷策略的過程中,Synchrony公司并不需要準(zhǔn)確地知道顧客在度日差為78的情況下是否要比度日差為79的情況下會購買更多的東西。“我們只需要知道這是一個(gè)非常好的一天,消費(fèi)者有了購物行為就行了。”辛普森說。有了這個(gè)信息,Synchrony公司就可以決定客戶會希望在什么時(shí)候在他們的智能手機(jī)上看到商店彈出的報(bào)價(jià)促銷了。
Synchrony公司使用Hadoop作為其框架,并采用SQL進(jìn)行數(shù)據(jù)分析,作為其從公司的系統(tǒng)以及外部資源獲得數(shù)據(jù)的接口。“Hadoop已經(jīng)成為商業(yè)化的工具集,可輕松實(shí)現(xiàn)部署。”辛普森說。
現(xiàn)在,隨著所需數(shù)據(jù)的增加,數(shù)據(jù)湖也將隨著項(xiàng)目的增多而進(jìn)一步擴(kuò)大。然而,終,數(shù)據(jù)湖將會有足夠的數(shù)據(jù),而數(shù)據(jù)科學(xué)家們可以將其作為一個(gè)整體進(jìn)行研究,并找到更多的價(jià)值。
例如,項(xiàng)目A的重點(diǎn)是Synchrony公司將如何定位目標(biāo)客戶,并對消費(fèi)者實(shí)施有針對性的市場營銷;而項(xiàng)目B的重點(diǎn)則是分析呼叫中心的數(shù)據(jù),并對其實(shí)施優(yōu)化。“而對于我們甚至沒有想到的項(xiàng)目C,其可能會伴隨著前兩個(gè)項(xiàng)目的不斷推進(jìn)而衍生出來;或者是源于數(shù)據(jù)湖中有了來自其它數(shù)據(jù)來源的數(shù)據(jù)。”他說。
辛普森是數(shù)據(jù)湖這一概念的粉絲,因?yàn)槠淇梢詭椭摴颈苊鉅砍兜綌?shù)據(jù)倉庫的更復(fù)雜和長期的任務(wù)。“我們的數(shù)據(jù)倉庫通常用于處理高度重復(fù)的,且不太頻繁的事情,如每月的財(cái)務(wù)報(bào)告。這些都是時(shí)間點(diǎn)的問題,我們不會再回到過去了。”他說。“如果您需要花費(fèi)六周時(shí)間去做那些工作,那么您將失去您的業(yè)務(wù)。”
了解數(shù)據(jù)湖的環(huán)境和元數(shù)據(jù)
一個(gè)令辛普森困擾的問題是:一旦數(shù)據(jù)被匯集到數(shù)據(jù)湖之后,其要如何理解數(shù)據(jù)湖的環(huán)境。比如說,如果他收集了來自Facebook的相關(guān)帖子的數(shù)據(jù),然后想評估這些帖子中關(guān)于他們公司的負(fù)面情緒的評論,他會想知道這些帖子中,10個(gè)中有一個(gè)是負(fù)面的;或是1000個(gè)中有一個(gè)是負(fù)面的,以及這些負(fù)面的帖子都被發(fā)布在哪里了。
非營利環(huán)保保護(hù)組織的技術(shù)總監(jiān)兼對外關(guān)系主管Eric Fegraus對于元數(shù)據(jù)也有類似的的擔(dān)憂,現(xiàn)在他正打算創(chuàng)建一個(gè)數(shù)據(jù)湖。
目前被孤立在政府機(jī)構(gòu)、大學(xué)和非營利組織機(jī)構(gòu)的數(shù)據(jù)將在數(shù)據(jù)湖共享。“在傳統(tǒng)的包括了林業(yè)資源、生物多樣性、生態(tài)和海洋生態(tài)系統(tǒng)的自然資源世界,對于數(shù)據(jù)存在著巨大的缺乏。”Fegraus表示說。而由于傳感器、攝像頭和其他物聯(lián)網(wǎng)設(shè)備的廣泛普及,使得數(shù)據(jù)可以被捕獲收集并遠(yuǎn)程傳輸?shù)揭粋€(gè)中央存儲庫。上述這一狀況正在開始發(fā)生改變。
Fegraus希望能夠盡快開發(fā)和實(shí)施數(shù)據(jù)捕獲的佳實(shí)踐方案,以便使得科學(xué)家們所收集的數(shù)據(jù)信息不會因?yàn)樗麄兊馁Y助結(jié)束或他們轉(zhuǎn)移到別的項(xiàng)目就消失。“我們正在積極構(gòu)建一個(gè)系統(tǒng),將使數(shù)據(jù)存儲庫能夠共享和集成數(shù)據(jù)。其功能將像一個(gè)湖,但具有許多相互連接的節(jié)點(diǎn)。”他說。
對于其試點(diǎn)項(xiàng)目,F(xiàn)egraus打算在其數(shù)據(jù)湖填充一些初始節(jié)點(diǎn),具有圖像、聲音及該組織設(shè)置在野外的數(shù)千臺相機(jī)所收集的元數(shù)據(jù)。“這些數(shù)據(jù)使我們能夠理解正在野生動(dòng)物種群身上發(fā)生的事情,為土地管理人員提供了數(shù)據(jù)驅(qū)動(dòng)的見解,幫助他們了解野生動(dòng)物的現(xiàn)狀和在陸地上生長的趨勢。”他解釋說。
“我們也可以開始梳理可以推動(dòng)我們發(fā)現(xiàn)相關(guān)趨勢的數(shù)據(jù)信息。”Fegraus說。例如,在烏干達(dá)的一處野生動(dòng)物園,在設(shè)置好了攝像頭之后,工作人員開始注意到金貓的物種的下降。
他解釋說:“我們也可以說,有一個(gè)強(qiáng)烈的信號,預(yù)示了人類的活動(dòng)可能會影響到了這一特殊種類的貓的生存。”由于該處野生動(dòng)物公園主要游覽主題是大猩猩生態(tài)旅游和游客徒步旅行去看大猩猩。他們把金貓數(shù)量下降的變化與公園里允許游客徒步參觀的范圍相聯(lián)系,從而已經(jīng)了解了如何更好地管理公園,而不會影響到金貓的生存。
不僅他的團(tuán)隊(duì)將能夠使用來自他們項(xiàng)目所收集的數(shù)據(jù),其他組織也將能夠訪問相同的數(shù)據(jù)集。
但是,與辛普森一樣,F(xiàn)egraus也同樣感覺到元數(shù)據(jù)的處理是相當(dāng)棘手的。在參與組織之間規(guī)定數(shù)據(jù)使用的協(xié)議有可能會使用元數(shù)據(jù)來維護(hù)數(shù)據(jù)的完整性。例如,科學(xué)家在收集拍照過程中,是否使用誘餌或相機(jī)的閃光燈是否打開是非常必要的信息,其可能會影響結(jié)果,但保持原始數(shù)據(jù)可能是相當(dāng)具有挑戰(zhàn)性的。
處理“無底洞”的概念
這方面的另一個(gè)障礙是:需要收集哪些數(shù)據(jù)信息,同時(shí)需要將這些數(shù)據(jù)信息保存多久。“您可以收集如此眾多的數(shù)據(jù)信息,其會使您耗盡存儲空間,而且這也是有成本代價(jià)的。”Fegraus說。因此,數(shù)據(jù)湖中所存儲的應(yīng)該是那些項(xiàng)目驅(qū)動(dòng)的數(shù)據(jù),而不是任何可用的數(shù)據(jù)。
雖然數(shù)據(jù)湖似乎是深不見底的,但其實(shí)并不是的。據(jù)市場調(diào)研機(jī)構(gòu)Gartner公司的數(shù)據(jù)管理策略研究總監(jiān)Svetlana Sicular介紹說。“人們總是對于可能會失去一些東西感到緊張,所以他們會盡一切可能的收集一切可以獲得的數(shù)據(jù)信息。然后,他們又會變得非常緊張,因?yàn)樗麄冃枰故境鲅杆僭鲩L的數(shù)據(jù)湖的價(jià)值。但價(jià)值是通過數(shù)據(jù)分析而獲得的。”她說。而那些僅僅只是把數(shù)據(jù)湖視為“只寫”的公司也會失敗;換句話說,人們需要讀取和寫入信息,以便充分利用這些數(shù)據(jù)信息。
“有一個(gè)普遍存在的概念,即數(shù)據(jù)倉庫將很快會消失,您企業(yè)將會在數(shù)據(jù)湖中執(zhí)行所有的一切數(shù)據(jù)分析處理工作。”Sicular說。“這是一個(gè)謬誤。為什么要采用一些并非專門為其設(shè)計(jì)的技術(shù)來執(zhí)行一些工作任務(wù)呢?”她補(bǔ)充說,只有當(dāng)以正確的方式被使用時(shí),數(shù)據(jù)湖才是符合成本效益的。
她提醒企業(yè)組織要更仔細(xì)地審視自己的數(shù)據(jù)倉庫,并要在開始部署采用數(shù)據(jù)湖的路線之前,確保其到底是不是正確的工具。很多人對于數(shù)據(jù)倉庫的理解還停留在五年前,Sicular說,但是現(xiàn)在的很多數(shù)據(jù)倉庫均已經(jīng)具備處理非結(jié)構(gòu)化數(shù)據(jù)的能力了。此外,她還建議企業(yè)必須考慮他們要分析的數(shù)據(jù)中有多少數(shù)據(jù)其實(shí)是非結(jié)構(gòu)化的。
保持企業(yè)組織的競爭優(yōu)勢
那么,企業(yè)組織到底應(yīng)該在何時(shí)使用數(shù)據(jù)湖呢?”如果您企業(yè)組織需要分析各種類型的數(shù)據(jù)、而這些數(shù)據(jù)存儲在數(shù)據(jù)倉庫中又不會有多大意義時(shí),便可采用數(shù)據(jù)湖。”Sicular說。另一種應(yīng)用案例是:“如果花時(shí)間去清洗數(shù)據(jù)會使您企業(yè)失去競爭優(yōu)勢的話,那么,數(shù)據(jù)湖將會是一個(gè)的使用案例。”她補(bǔ)充說。
而這正是推動(dòng)卡車公司(International Trucks)使用數(shù)據(jù)湖的基本原因了。Navistar控股的這家卡車制造商的物聯(lián)網(wǎng)分析和機(jī)器學(xué)習(xí)負(fù)責(zé)人Andy Minteer表示說,該公司所收集到的進(jìn)入其基于Hadoop的數(shù)據(jù)湖的數(shù)據(jù)流使得改公司保持了始終對于其競爭對手一步。
卡車公司有超過160000輛汽車參加了該公司的On Command連接項(xiàng)目計(jì)劃,該項(xiàng)目計(jì)劃使用來自安裝在車輛上的傳感器的數(shù)據(jù)流,包括該公司的卡車和校車,每隔15到20秒來評估一次車隊(duì)的運(yùn)輸健康狀況。
例如,通過分析數(shù)據(jù)湖的原始數(shù)據(jù),該公司能夠幫助一只校車車隊(duì)的經(jīng)理確定電池的閾值電壓,這樣就使得巴士不回在寒冷的接送孩子的途中出現(xiàn)故障,讓孩子們滯留在外。
他的團(tuán)隊(duì)還開發(fā)了一種算法,通過結(jié)合超過40000輛車輛的組合類型和故障代碼(非結(jié)構(gòu)化數(shù)據(jù))來梳理數(shù)據(jù)信息,以協(xié)助更小的車隊(duì)制定車輛的預(yù)防性維護(hù)時(shí)間表。Minteer研究了這些公路車隊(duì)的原始數(shù)據(jù),其往往會有較高的行駛里程數(shù),并發(fā)現(xiàn)可能出現(xiàn)的問題,這樣他們就可以及時(shí)安排車輛的維修,避免出現(xiàn)車輛的停運(yùn)。
他說:“這是一場獲取價(jià)值和機(jī)會的競爭,而借助數(shù)據(jù)湖工具,我們現(xiàn)在可以很容易且成本有效地參與市場競爭了。”他說?,F(xiàn)在,我們知道,數(shù)據(jù)的可用要比其以一種特定的格式存儲在某個(gè)地方更為重要。”