開(kāi)源與閉源的融合有利于構(gòu)建大數(shù)據(jù)分析生態(tài)
但目前B2B數(shù)據(jù)分析整個(gè)市場(chǎng)總量還很小,而且對(duì)數(shù)據(jù)分析的要求更高。因?yàn)閱我黄脚_(tái)不能解決大數(shù)據(jù)的所有問(wèn)題,這也有了開(kāi)源與閉源技術(shù)的混合需求,構(gòu)建大數(shù)據(jù)分析的生態(tài)系統(tǒng),在IoT數(shù)據(jù)大量爆發(fā)的時(shí)代為各行各業(yè)提供對(duì)應(yīng)的分析能力。
IoT數(shù)據(jù)分析需要7大支撐
IoT的快速發(fā)展讓數(shù)據(jù)分析也要更進(jìn)一步,因?yàn)镮oT的數(shù)據(jù)量是傳統(tǒng)數(shù)據(jù)的100倍,這就需要強(qiáng)大可擴(kuò)展的數(shù)據(jù)平臺(tái)來(lái)存儲(chǔ)和處理這些數(shù)據(jù);IoT的地理空間數(shù)據(jù)比例非常大,需要擁有先進(jìn)的地理空間分析能力;IoT中有大量基于時(shí)間序列的時(shí)間數(shù)據(jù)需要分析,傳統(tǒng)SQL并不善于處理。
數(shù)據(jù)量、地理空間數(shù)據(jù)、時(shí)間序列數(shù)據(jù)三方面都是IoT數(shù)據(jù)相比于傳統(tǒng)數(shù)據(jù)的不同之處。Teradata天睿公司技術(shù)官寶立明提到,隨著IoT數(shù)據(jù)的可分析也標(biāo)志著我們已經(jīng)真的進(jìn)入了“萬(wàn)物皆可分析”的時(shí)代,通過(guò)傳感器采集到的數(shù)據(jù)終于可以發(fā)揮其價(jià)值。
構(gòu)建大數(shù)據(jù)分析生態(tài)實(shí)現(xiàn)開(kāi)源與閉源的融合
其實(shí)在2015年TeradataPartners大會(huì)上,Teradata就提出了“萬(wàn)物皆可分析”的概念。但基于傳感器的數(shù)據(jù)應(yīng)用更多集中在制造業(yè)層面,所以Teradata的一個(gè)業(yè)務(wù)重點(diǎn)便是要向制造業(yè)轉(zhuǎn)移。當(dāng)然萬(wàn)物皆可分析也包含了來(lái)自各行各業(yè)的數(shù)據(jù),如電信行業(yè)收集手機(jī)的地理位置信息,醫(yī)療行業(yè)醫(yī)療設(shè)備收集的身體指標(biāo)數(shù)據(jù)等等。
在Teradata提供的產(chǎn)品中對(duì)于IoT數(shù)據(jù)的分析可以分為七類(lèi),、TeradataListener框架,以實(shí)時(shí)的方式把海量的數(shù)據(jù)導(dǎo)入到Teradata系統(tǒng);第二、利用RESTfulAPI實(shí)現(xiàn)各種技術(shù)平臺(tái)的對(duì)接;第三、可靠、高可伸縮的數(shù)據(jù)傳輸技術(shù);第四、存儲(chǔ)技術(shù);第五、可兼容技術(shù);第六、壓縮技術(shù);第七、即將推出TeradataIntelliFlex一體機(jī)產(chǎn)品,采用下一代海量并行處理(MPP)架構(gòu),能以非常高的經(jīng)濟(jì)性,有效地進(jìn)行海量數(shù)據(jù)的處理。
除了剛剛說(shuō)到的七部分,Teradata實(shí)現(xiàn)萬(wàn)物皆可分析的基礎(chǔ)還是統(tǒng)一數(shù)據(jù)架構(gòu)(UDA),其結(jié)合了Teradata的技術(shù)、開(kāi)源技術(shù)、數(shù)據(jù)湖等技術(shù)。
“我們可以將數(shù)據(jù)先放到數(shù)據(jù)湖中存儲(chǔ),經(jīng)過(guò)Aster進(jìn)一步處理,導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)為BI使用。”寶立明說(shuō)道,UDA中的Aster是一個(gè)非常適合處理傳感器數(shù)據(jù)的平臺(tái),而且已經(jīng)被移植到Hadoop上,既可以在文件系統(tǒng)上去執(zhí)行,也可以在開(kāi)源的數(shù)據(jù)庫(kù)上應(yīng)用。
從跳高演變看技術(shù)整合
正如UDA的架構(gòu),開(kāi)源和閉源已經(jīng)實(shí)現(xiàn)融合,而這在之前是不可想象的。寶立明用跳高姿勢(shì)的演變舉例,在之前跳高的姿勢(shì)都是剪刀腿,而到了80年代跳高遇到了一個(gè)轉(zhuǎn)型期,背越式的出現(xiàn)比剪刀腿能取得更好的成績(jī)。
這也使得越來(lái)越多的選手開(kāi)始采用背越式,當(dāng)然選手可以依然待在安全區(qū),但你終不會(huì)成為贏家。通過(guò)12年的發(fā)展背越式完全取代了剪刀腿,這就如同采用新技術(shù)也是一個(gè)痛苦的過(guò)程一樣,企業(yè)需要實(shí)現(xiàn)商業(yè)技術(shù)和開(kāi)源技術(shù)的整合。
在15年前,Teradata就已經(jīng)把數(shù)據(jù)庫(kù)產(chǎn)品跑在Unix、Linux開(kāi)源的版本之上,一直到今天也是如此。
在UDA的組合中不僅有開(kāi)源Hadoop,寶立明還特別提到同F(xiàn)acebook合作研發(fā)的開(kāi)源分布式SQL查詢引擎Presto,以及運(yùn)行在Presto上面的QueryGrid,其可以在Hadoop平臺(tái)發(fā)起并完成跨平臺(tái)查詢,所以UDA已經(jīng)是一個(gè)商業(yè)技術(shù)和開(kāi)源技術(shù)融合的開(kāi)放架構(gòu)。
同時(shí)Teradata也為機(jī)器學(xué)習(xí)提供一個(gè)具有高可延展性的大數(shù)據(jù)平臺(tái),把機(jī)器學(xué)習(xí)的算法,像R、Ruby內(nèi)嵌到平臺(tái)之上,供Teradata的數(shù)據(jù)科學(xué)家做各種各樣的實(shí)驗(yàn)和探索,更好地找到一些成熟可商用的技術(shù),整合到解決方案中。
在云計(jì)算戰(zhàn)略上,為了和企業(yè)的應(yīng)用趨勢(shì)匹配,數(shù)據(jù)分析的重心也正在向云中轉(zhuǎn)移,尤其是現(xiàn)在企業(yè)的業(yè)務(wù)系統(tǒng)逐漸前移到云端,分析也將轉(zhuǎn)移到云端。
Teradata的原則是給客戶提供同類(lèi)佳技術(shù)的選擇,AWS是目前宣布的家公有云合作伙伴,未來(lái)在MicrosoftAzure、谷歌云上都會(huì)提供服務(wù),目標(biāo)是在不同云平臺(tái)上都可以提供同樣的數(shù)據(jù)分析能力。