正因?yàn)檫@種行業(yè)變革的應(yīng)用,各個領(lǐng)域開始了腦洞大開的暢想:智能手環(huán)檢測到你的體脂率近期呈上升趨勢,健身中心主動聯(lián)系你并推薦降脂訓(xùn)練,生鮮電商平臺發(fā)送低脂、健康食譜到你的手機(jī);你有3天小長假,系統(tǒng)自動匹配你過去的行程信息、喜好、消費(fèi)水平,推薦旅游方式、目的地,并將目的地相關(guān)的近期狀況、游客點(diǎn)評等信息呈現(xiàn)給你……似乎無限的商業(yè)模式擺在眼前,只等你開始開采金礦。
大數(shù)據(jù)之采集分析,你了解多少?
有人曾說,大數(shù)據(jù)像地底下的石油資源,數(shù)據(jù)采集就相當(dāng)于發(fā)現(xiàn)原油。大數(shù)據(jù)采集的對象不僅僅包含人們在上網(wǎng)過程中瀏覽或產(chǎn)生的信息數(shù)據(jù),從移動互聯(lián)演進(jìn)到萬物互聯(lián)的時代更是包含了全世界的家電、工業(yè)設(shè)備、監(jiān)控儀器、汽車及可穿戴設(shè)備等等裝備終端傳感設(shè)備所產(chǎn)生的運(yùn)行數(shù)據(jù)、環(huán)境數(shù)據(jù)、監(jiān)控視頻圖像數(shù)據(jù)等等,所產(chǎn)生的數(shù)據(jù)將會是指數(shù)級爆炸式增長。IBM的研究稱,整個人類文明所獲得的全部數(shù)據(jù)中,有95%是過去幾年內(nèi)產(chǎn)生的,而到了2020年,全世界聯(lián)網(wǎng)設(shè)備可達(dá)200~500億的數(shù)量,所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到今天的40倍以上。
數(shù)據(jù)的產(chǎn)生過程可以大致分為兩類:一類是通過社交網(wǎng)絡(luò)、電商平臺、APP應(yīng)用等消費(fèi)者領(lǐng)域產(chǎn)生的數(shù)據(jù),如社交、購物、出行等數(shù)據(jù);另一類是各種智能設(shè)備、監(jiān)控設(shè)備、傳感設(shè)備等自主采集上傳的數(shù)據(jù),如人/物的狀態(tài)信息、運(yùn)行數(shù)據(jù)、地理位置、溫濕度等環(huán)境數(shù)據(jù)。這些數(shù)據(jù)不僅來源十分廣泛,數(shù)據(jù)類型更是紛繁復(fù)雜,加上各種工業(yè)PLC、不同通訊協(xié)議的傳感終端帶來多源數(shù)據(jù)的問題,這些都需要大數(shù)據(jù)采集層面實(shí)現(xiàn)智能感知識別、信號轉(zhuǎn)換、適配、數(shù)據(jù)傳輸?shù)燃夹g(shù)的支持。
大數(shù)據(jù)技術(shù)下的系統(tǒng)平臺通常以云存儲方式進(jìn)行數(shù)據(jù)存儲,且隨著企業(yè)信息化的加深呈現(xiàn)數(shù)據(jù)融合、加工再增值的趨勢。但是,原本割裂、各自存在的系統(tǒng)平臺數(shù)據(jù)存儲格式千差萬別,如傳統(tǒng)的財(cái)務(wù)、辦公、人力、采購等系統(tǒng)采用外部供應(yīng)商提供,而核心業(yè)務(wù)系統(tǒng)自行開發(fā)管理,所導(dǎo)致的不同應(yīng)用間數(shù)據(jù)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化(如語音、圖片、視頻)等不同形態(tài)帶來異構(gòu)數(shù)據(jù)存儲的難題。傳統(tǒng)針對關(guān)系型數(shù)據(jù)的數(shù)據(jù)挖掘、分析處理方法在異構(gòu)的大數(shù)據(jù)處理要求面前顯得過于乏力,需要創(chuàng)新研究新型大數(shù)據(jù)分析和數(shù)據(jù)挖掘處理方法。
此外,大數(shù)據(jù)呈現(xiàn)著數(shù)據(jù)價值密度較低的特性,且數(shù)據(jù)價值隱藏較深,對數(shù)據(jù)的抽取及分析帶來不小的挑戰(zhàn),出于對后服務(wù)應(yīng)用質(zhì)量的保障,必須使用多種復(fù)雜的分析算法對原始的累積數(shù)據(jù)進(jìn)行轉(zhuǎn)換及清洗。以車聯(lián)網(wǎng)為例,車輛運(yùn)行狀態(tài)數(shù)據(jù)實(shí)時上傳,每天單部車輛所產(chǎn)生的不間斷的數(shù)據(jù)中,可能有用的僅為幾個關(guān)鍵數(shù)據(jù),如果沒有進(jìn)行數(shù)據(jù)“提純”,再多的數(shù)據(jù)也只是一堆數(shù)據(jù)垃圾。
大數(shù)據(jù)服務(wù)離我們還多遠(yuǎn)?
服務(wù)應(yīng)用體現(xiàn)著大數(shù)據(jù)變現(xiàn)的至關(guān)重要一個環(huán)節(jié),也是體現(xiàn)商務(wù)模式的核心環(huán)節(jié)。沒有真正的服務(wù)應(yīng)用,大數(shù)據(jù)只能叫“海量數(shù)據(jù)”,或者說“BigData”只能叫“ManyData”,因此,在海量數(shù)據(jù)中淘金才是大數(shù)據(jù)的真諦所在。但是,現(xiàn)在國內(nèi)大部分公司對于大數(shù)據(jù)的應(yīng)用僅僅停留在數(shù)據(jù)圖表展示、淺層分析,至于數(shù)據(jù)下一步怎么用,沒幾個人搞的明白。
在工業(yè)制造領(lǐng)域,依靠工業(yè)制造的各個環(huán)節(jié)傳感終端累積的數(shù)據(jù)可以為制造企業(yè)帶來制造效率的提高、產(chǎn)品質(zhì)量的改善、生產(chǎn)成本和資源消耗降低等轉(zhuǎn)變;通過大數(shù)據(jù)的高速分析可以計(jì)算著每個生產(chǎn)步驟和節(jié)拍,這些都終為企業(yè)管理者打造一座透明的智能車間、智能工廠。在農(nóng)業(yè)生產(chǎn)領(lǐng)域,通過農(nóng)田種植、果園花卉、畜禽水產(chǎn)養(yǎng)殖等領(lǐng)域大量的終端感知數(shù)據(jù)采集,并結(jié)合農(nóng)業(yè)生產(chǎn)豐富的歷史數(shù)據(jù)資源,進(jìn)行農(nóng)情監(jiān)測、重大災(zāi)害預(yù)警,從而進(jìn)一步預(yù)測農(nóng)產(chǎn)品產(chǎn)量、價格波動趨勢等,打造智慧農(nóng)業(yè)園的農(nóng)業(yè)愿景。
這些都是大數(shù)據(jù)服務(wù)于具體行業(yè)應(yīng)用的例子,但是離行業(yè)廣泛應(yīng)用還尚待時日。此外,大數(shù)據(jù)涉及的數(shù)據(jù)安全問題還亟需解決,需要服務(wù)提供商對數(shù)據(jù)資源進(jìn)行切割、隔離,一方面保障用戶的數(shù)據(jù)對于其他用戶是不可見的,另一方面需要確保單個用戶的不良數(shù)據(jù)操作對整個大數(shù)據(jù)平臺的整體和服務(wù)不會產(chǎn)生影響。同時,電信、能源、金融、醫(yī)療、教育、政務(wù)、工業(yè)及農(nóng)業(yè)等各個領(lǐng)域?qū)?shù)據(jù)應(yīng)用均有不同程度的需求,部分行業(yè)對基于大數(shù)據(jù)的平臺服務(wù)有著高實(shí)時性的要求,如設(shè)備故障預(yù)測預(yù)警、生產(chǎn)決策支持等業(yè)務(wù),部分行業(yè)需要涉及高并發(fā)數(shù)訪問及操作,比如電信、金融平臺等,這些都對數(shù)據(jù)的算法提出了非常高的要求。
開放、共贏,勿讓大數(shù)據(jù)成為“鏡中花”
大數(shù)據(jù)能夠帶來巨大的商業(yè)價值已經(jīng)毋庸置疑,各行各業(yè)均已開展了一場無形的較量,數(shù)據(jù)提供商、服務(wù)提供商都想在這片藍(lán)海強(qiáng)占先機(jī)。但是,應(yīng)該清醒的是,大數(shù)據(jù)之所以稱之為”大“,更多體現(xiàn)的是數(shù)據(jù)資源的整合、業(yè)務(wù)的合作,否則,大數(shù)據(jù)之“大”,只會生成一堆泛濫的數(shù)據(jù),并跟垃圾一樣,成為另外一種放錯地方的寶藏。建設(shè)一種共贏、開放的形式來讓企業(yè)、硬件廠商、服務(wù)提供商、產(chǎn)品使用者共享數(shù)據(jù)價值,讓未來的生活越發(fā)智慧便捷,這才是大數(shù)據(jù)不會淪為“鏡中花,水中月”的途徑。