如何利用大數(shù)據(jù)挖掘幫助企業(yè)實(shí)現(xiàn)創(chuàng)新經(jīng)營?
自從人類發(fā)明了紙和筆,創(chuàng)造了數(shù)字、文字、幾何技術(shù)后,數(shù)據(jù)有了更的描述和記錄的方法,在此基礎(chǔ)上催生出了數(shù)字、物理、化學(xué),以及文學(xué)、藝術(shù)、管理等學(xué)科,我們今天所享受的現(xiàn)代文明,都深深的植根于數(shù)據(jù)技術(shù)。
隨著互聯(lián)網(wǎng)時(shí)代的大發(fā)展,數(shù)據(jù)記錄逐步脫離了紙筆的限制,人類發(fā)明了廉價(jià)的硅晶半導(dǎo)體所蘊(yùn)藏的秘密,大量的數(shù)據(jù)可以按0或1的二進(jìn)制方式存儲(chǔ)半導(dǎo)體材料內(nèi),它們的存儲(chǔ)能力如此巨大,成本如此低廉,以至于以往被輕易忽略的數(shù)據(jù)都能被忠實(shí)的保存下來:我們每一下輕微的呼吸、每一次心臟的跳動(dòng)、每一下鼠標(biāo)的點(diǎn)擊,企業(yè)里員工的每一次出勤、財(cái)務(wù)的每一筆賬單、客戶的每一個(gè)評(píng)論,包羅萬象都能一一記錄。
與此同時(shí),數(shù)據(jù)的概念也在進(jìn)一步拓寬。傳統(tǒng)的數(shù)據(jù)是指用數(shù)字或文字描述的內(nèi)容,通稱為結(jié)構(gòu)化數(shù)據(jù),而大數(shù)據(jù)時(shí)代涌現(xiàn)出了大量新型數(shù)據(jù)的、非結(jié)構(gòu)化的數(shù)據(jù)。例如人群之間看不見的社交關(guān)系,移動(dòng)設(shè)備發(fā)射的GPS位置,網(wǎng)絡(luò)傳播的圖像、視頻信號(hào),可穿戴設(shè)備采集的健康數(shù)據(jù)等。對(duì)這些各種各樣的數(shù)據(jù)的采集、挖掘、運(yùn)用,也是現(xiàn)代大數(shù)據(jù)挖掘的重要研究課題。
正在發(fā)生的大數(shù)據(jù)變革,恐怕是人類技術(shù)發(fā)展中重要的話題之一,它沖擊著許多主要的行業(yè),包括零售業(yè)、服務(wù)業(yè)、電子商務(wù)和金融領(lǐng)域等,同時(shí)大數(shù)據(jù)技術(shù)也正在徹底的改變我們的日常生活。如果把數(shù)據(jù)比作是礦石的話,大數(shù)據(jù)挖掘技術(shù)就是要從礦石中提煉出黃金,并形成各種精致的制成品發(fā)揮作用的過程。它既能夠通過移動(dòng)應(yīng)用和云服務(wù)追蹤和提升個(gè)人的生活品質(zhì),也能為現(xiàn)代企業(yè)帶來更和穩(wěn)健的管理方式。小到個(gè)人,大到企業(yè)和國家,大數(shù)據(jù)均是極度重要的一個(gè)議題,需要我們真正的深入理解它,因此本文將對(duì)大數(shù)據(jù)挖掘技術(shù)給出全景式的介紹,首先給出大數(shù)據(jù)的背景、原理和概念,然后闡述大數(shù)據(jù)挖掘的方法和步驟,再講解大數(shù)據(jù)在企業(yè)應(yīng)用中的方式和收益,后分享大數(shù)據(jù)時(shí)代的產(chǎn)業(yè)狀況,和我們面臨的挑戰(zhàn)與機(jī)遇。
大數(shù)據(jù)技術(shù)的背景、概念和意義
1.大數(shù)據(jù)的產(chǎn)生背景
大數(shù)據(jù)熱潮誕生的先決條件是計(jì)算機(jī)存儲(chǔ)能力的迅速擴(kuò)大和成本的一再降低。得益于半導(dǎo)體技術(shù)在過去20年里持續(xù)快速的發(fā)展,今天我們用500元人民幣就能輕松買到一塊能裝得下63萬本《紅樓夢(mèng)》的1T容量的移動(dòng)硬盤;價(jià)值2000元的一塊PC硬盤甚至能存儲(chǔ)下全世界迄今為止所有的音樂內(nèi)容。在很多大型互聯(lián)網(wǎng)公司里,拿一臺(tái)較好配置的服務(wù)器,就可以一舉裝下美國國家圖書館里所有紙質(zhì)書的內(nèi)容——縱觀整個(gè)人類文明發(fā)展史,今天人類擁有了的海量信息的存儲(chǔ)能力,并且這個(gè)能力仍然在日新月異的向前發(fā)展著。
與此同時(shí),人類創(chuàng)造數(shù)據(jù)的能力也同樣在高速增長(zhǎng)。傳統(tǒng)社會(huì)只有文人墨客、達(dá)官顯貴才能青史上留下只言片語,而互聯(lián)網(wǎng)時(shí)代里所有人都能輕松成為數(shù)據(jù)的生產(chǎn)者,例如Facebook上每月被用戶分享500億條新信息,的社交網(wǎng)絡(luò)每天產(chǎn)生1億張新照片。能夠產(chǎn)生和采集數(shù)據(jù)的方式也越來越多——電腦、手機(jī)、電視、汽車……一切都在大踏步的向“智能化”邁進(jìn)。
我們對(duì)數(shù)據(jù)進(jìn)行挖掘和處理的能力也遵照著“摩爾定律”在飛速的發(fā)展。這些IT技術(shù)在數(shù)據(jù)產(chǎn)生、存儲(chǔ)、挖掘、運(yùn)用方面的逐步成熟,讓數(shù)據(jù)驅(qū)動(dòng)產(chǎn)生價(jià)值的門檻越來越低,終于大數(shù)據(jù)時(shí)代的腳步匆匆到來了。
2.大數(shù)據(jù)的“4V”要素
大數(shù)據(jù)(BigData)概念早的提出者是麥肯森咨詢公司和IBM公司的科學(xué)家們。在大數(shù)據(jù)的定義中,有如下“4V”要素是必須的:Volume,Variety,Velocity,Value,具體含義如下:
Volume:具備超出典型數(shù)據(jù)庫軟件收集、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集;
Variety:具備多樣性的,結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等多種類型的數(shù)據(jù)形式;
Velocity:具備快速、實(shí)時(shí)的數(shù)據(jù)處理能力;
Value:具備從稀疏的數(shù)據(jù)中挖掘高價(jià)值內(nèi)容的意義。
4V要素之間存在密切的關(guān)聯(lián)關(guān)系:Volume是所有工作的基礎(chǔ),構(gòu)建一個(gè)容量足夠巨大的數(shù)據(jù)處理平臺(tái)才能保證其上的應(yīng)用;基于Volume進(jìn)一步有Variety,用于多樣化數(shù)據(jù)的處理;Velocity保證了系統(tǒng)有實(shí)時(shí)數(shù)據(jù)處理的能力;終的Value體現(xiàn)了數(shù)據(jù)所能發(fā)揮的價(jià)值,大數(shù)據(jù)重要的并非“大”,也并非“數(shù)據(jù)”本身,而是人們?nèi)绾握J(rèn)識(shí)和使用它,盡大可能挖掘出其中價(jià)值,正所謂吹盡黃沙始見金。
3.大數(shù)據(jù)價(jià)值和企業(yè)信息化
數(shù)據(jù)價(jià)值的直觀應(yīng)用就是在企業(yè)管理里,這個(gè)過程和企業(yè)信息化的發(fā)展往往交織在一起。在1980s年代及以前,企業(yè)的各類業(yè)務(wù)、財(cái)務(wù)數(shù)據(jù)都是通過賬簿記錄,這種方式查閱和統(tǒng)計(jì)的效率都很低,可靠性也不高。從1990s年代末開始,金融業(yè)、電信業(yè)、大型零售等行業(yè)企業(yè)將核心交易數(shù)據(jù)電子化,2000年以后隨著IT技術(shù)的進(jìn)步,越來越多的企業(yè)將信息化納入議程,ERP、MIS系統(tǒng)蓬勃發(fā)展,設(shè)計(jì)、制造、進(jìn)存銷等業(yè)務(wù)管理逐步數(shù)據(jù)化,這些數(shù)據(jù)被大家意識(shí)到是企業(yè)寶貴的資產(chǎn),隨之而起的統(tǒng)計(jì)報(bào)表技術(shù)也漸漸完善。2010年以后,更多種類的數(shù)據(jù),包括客戶的瀏覽數(shù)據(jù)、反饋數(shù)據(jù)等在一些企業(yè)中也都開始記錄并逐步進(jìn)行個(gè)性化建模和分析,數(shù)據(jù)驅(qū)動(dòng)的CRM客戶關(guān)系管理開始在運(yùn)營和個(gè)性化服務(wù)方面嶄露頭角,基于數(shù)據(jù)分析的預(yù)測(cè)技術(shù)也逐步開始出現(xiàn)。
從過去到未來,數(shù)據(jù)的價(jià)值在一點(diǎn)一滴的凸顯,注意這個(gè)過程是動(dòng)態(tài)變化的,十年以前的大數(shù)據(jù)在如今看來根本不算很大;而同樣的,今天的大數(shù)據(jù)在若干年后也將不再被認(rèn)為是大數(shù)據(jù)。數(shù)據(jù)容量、速度、多樣性、復(fù)雜度方面在今天來看無法想象的事情,幾年之后都將完全被顛覆;不變的,是對(duì)數(shù)據(jù)的思考和分析的方法,和利用數(shù)據(jù)來產(chǎn)生附加價(jià)值的出發(fā)點(diǎn)。
大數(shù)據(jù)挖掘的方法、流程和場(chǎng)景
1.大數(shù)據(jù)采集的特點(diǎn)
大數(shù)據(jù)應(yīng)用的步就是采集數(shù)據(jù)。巧婦難為無米之炊,數(shù)據(jù)采集的完整性、準(zhǔn)確性,決定了數(shù)據(jù)應(yīng)用是否能真實(shí)可靠的發(fā)揮作用。大數(shù)據(jù)時(shí)代的數(shù)據(jù)采集有如下三個(gè)特點(diǎn):
1)數(shù)據(jù)采集以自動(dòng)化手段為主,要盡量擺脫人工錄入的方式;
2)采集內(nèi)容以全量采集為主,要擺脫對(duì)數(shù)據(jù)進(jìn)行采樣的方式;
3)采集方式多樣化、內(nèi)容豐富化,擺脫以往只采集基本數(shù)據(jù)的方式。
從采集數(shù)據(jù)的類型上看,不僅要涵蓋基礎(chǔ)的結(jié)構(gòu)化交易數(shù)據(jù),還將逐步包括半結(jié)構(gòu)化的用戶行為數(shù)據(jù),網(wǎng)狀的社交關(guān)系數(shù)據(jù),文本或音頻類型的用戶意見和反饋數(shù)據(jù),設(shè)備和傳感器采集的周期性數(shù)據(jù),網(wǎng)絡(luò)爬蟲獲取的互聯(lián)網(wǎng)數(shù)據(jù),以及未來越來越多有潛在意義的各類數(shù)據(jù)。
2.常見數(shù)據(jù)采集技術(shù)
傳統(tǒng)的數(shù)據(jù)采集方法包括人工錄入、調(diào)查問卷、電話隨訪等方式,大數(shù)據(jù)時(shí)代到來后,一個(gè)突出的變化是數(shù)據(jù)采集的方法有了質(zhì)的飛躍,下面所介紹的數(shù)據(jù)采集方式的突破直接改變著大數(shù)據(jù)應(yīng)用的場(chǎng)景。
移動(dòng)互聯(lián)網(wǎng)的興起讓面向移動(dòng)設(shè)備的數(shù)據(jù)采集技術(shù)有了迅速發(fā)展,目前使用多的常稱為Android或iOS的采集SDK,這種技術(shù)能幫助統(tǒng)計(jì)APP的基礎(chǔ)數(shù)據(jù),包括用戶數(shù)、活躍情況、流失比例、使用時(shí)長(zhǎng)等;用戶的位置、安裝列表、通訊情況等通過授權(quán)也可以采集。網(wǎng)絡(luò)爬蟲是另一類廣泛使用的互聯(lián)網(wǎng)采集技術(shù),常被用于進(jìn)行大規(guī)模全網(wǎng)信息采集、輿情監(jiān)控、競(jìng)品分析等領(lǐng)域。
物聯(lián)網(wǎng)也和大數(shù)據(jù)息息相關(guān),因?yàn)槲锫?lián)網(wǎng)的關(guān)鍵技術(shù)之一是無線射頻標(biāo)簽:當(dāng)安裝有RFID微型標(biāo)簽的讀卡器在近距離發(fā)出信號(hào)時(shí),帶有RFID的物品能自動(dòng)返回其的序列號(hào),這樣就能實(shí)現(xiàn)自動(dòng)大批量辨識(shí)物品信息的工作。RFID技術(shù)解決了物品信息與互聯(lián)網(wǎng)實(shí)現(xiàn)自動(dòng)連接的問題,結(jié)合后續(xù)的大數(shù)據(jù)挖掘工作,能發(fā)揮其強(qiáng)大的威力。
在工業(yè)制造業(yè)里,傳感器是另一類常見的大數(shù)據(jù)采集裝置,它能將測(cè)量到的信息按一定規(guī)律變換為電信號(hào)輸出,通常用于自動(dòng)檢測(cè)和控制等環(huán)節(jié)。傳感器的種類極為豐富:大到機(jī)械設(shè)備、汽車、飛機(jī)、建筑物,小到一部智能手機(jī)、一個(gè)智能設(shè)備,都可以安裝很多種傳感器,傳遞溫度、壓力、位置、位移、光敏、距離、化學(xué)感應(yīng)、生物、磁場(chǎng)等各類信號(hào)。未來攜帶傳感器 大數(shù)據(jù)平臺(tái)的智能設(shè)備將越來越多,基于傳感器數(shù)據(jù)的大數(shù)據(jù)應(yīng)用才剛剛起步,如智能醫(yī)療,智慧城市等,這方面有著廣闊的前景。
3.數(shù)據(jù)存儲(chǔ)技術(shù)的發(fā)展和演進(jìn)
傳統(tǒng)企業(yè)信息化系統(tǒng)采用關(guān)系數(shù)據(jù)庫來進(jìn)行數(shù)據(jù)存儲(chǔ),其中規(guī)模較大的通常被稱為“數(shù)據(jù)集市”。隨著采集數(shù)據(jù)的種類越來越多,部分行業(yè)的公司看到了把不同數(shù)據(jù)集市集中到一個(gè)大系統(tǒng)中的價(jià)值,這個(gè)大系統(tǒng)稱為企業(yè)級(jí)數(shù)據(jù)倉庫,由專門的數(shù)據(jù)團(tuán)隊(duì)(或稱為數(shù)據(jù)中心)負(fù)責(zé)集中式的數(shù)據(jù)管理和維護(hù)。
隨著數(shù)據(jù)量的驚人增長(zhǎng),已經(jīng)使用了20余年的傳統(tǒng)數(shù)據(jù)庫再也無法支撐起新的存儲(chǔ)需求了,所以被Google稱為BigTable和GFS的新型存儲(chǔ)技術(shù)在過去的幾年里被發(fā)明出來,并在行業(yè)中廣泛應(yīng)用,這些技術(shù)通過自動(dòng)調(diào)配上萬臺(tái)服務(wù)器協(xié)同工作,能完成高性能和高可靠的數(shù)據(jù)存儲(chǔ)任務(wù),為大數(shù)據(jù)的運(yùn)用鋪平了道路。