電信行業(yè)大數據發(fā)展及平臺技術演進分析
魏進武的演講主要分為兩部分,部分介紹中國聯(lián)通的大數據平臺技術和下一步演進思路。另一部分介紹聯(lián)通圍繞平臺開放合作的想法。
以下是演講實錄:
共有三個方面,一個是我們圍繞大數據的一些思考,確定發(fā)展目標。另外一塊就是圍繞這個目標,我們當前發(fā)展到了什么地步。第三塊就是一個開放合作的想法。從這個背景上來講,目前配合咱們大會的主題和產業(yè)的發(fā)展來看,開放和合作也是整個大數據產業(yè)化發(fā)展的一個基礎,從開放這一塊,我們13年就已經定了開放和合作的想法。我們把它分為三個圈來看,內部可能是一個大數據的核心圈,主要是由擁有大數據的人來主持,主要這一塊有內層的數據的基礎平臺,還有一些開放的能力來構成。中間這一塊可能是我們一些結果數據,或者能夠開放給行業(yè),供行業(yè)融合數據的一個供給圈。外層也就是輻射出去之后,能夠向產業(yè)融合之后,提供圍繞著數據增值化這一塊的數據增值圈,大數據產業(yè)要有基于開放 合作,大數據整個產業(yè)經歷這么一個過程。
前幾年大家集中做核心圈這種事情,都在建自己大數據平臺的能力,做各種各樣的數據采集工作?,F在也在做一些數據能力的開放,下一步我認為在開放和共享這個環(huán)節(jié)上,可能會重點促進供給圈的工作,把擁有數據的,以能力的方式,以結構數據的方式,脫敏數據的方式開放出來,尋求面向各個行業(yè)和產業(yè)增值化的服務,可能是我們下一個階段主要的任務。在這個過程當中,我們發(fā)現整個通訊行業(yè)也在發(fā)生變化。搞通訊的都知道,我們通訊基本上過程是這樣的,我們有網源設備,完成了端到端的信息交互。隨著OTT技術的發(fā)展,隨著3G、4G的技術,可能不是端到端了,而是從端到數據中心,就完成了這種交換。也就是說把整個端到端的通信劈成了兩塊,先由端到數據中心,再由數據中心到另外一個端,在這種情況下,我們認為以端到端的管道化的通信模式,可能在向以IDC數據中心為核心的方式來轉變。云計算和大數據也是我們IDC的一個主要承載的內容,在這種模式之下,IDC以大數據和云計算為核心的,可能會支撐下一步整個通信網絡的變革。這是兩個背景。
在這兩個背景的考量之下,我們要圍繞這個來考慮我們大數據平臺整個開放合作的體系。我們聯(lián)通這一塊有四種大數據合作模式,其中一種就是大數據創(chuàng)新實驗室的合作模式。在這個體系里面,我們首先要構建為滿足未來兩級IDC核心的一個基礎框架下的大數據能力開放,我們這一塊是把大數據和云計算整合起來發(fā)展。一級這一塊重點是提供能力和資源,二級這一塊重點是提供應用和能力接入的,這么一個思路在做開放的基礎創(chuàng)新體系。
在這個體系里面,我們希望和產業(yè)界的合作伙伴形成一個開放的,架構新的,技術全的,樣本數據維度全的一個開放創(chuàng)新的孵化環(huán)境,能夠在孵化這個環(huán)節(jié)上盡可能促進整個跨行業(yè)的樣本數據的融合和場景的融合。這是我們圍繞創(chuàng)新體系這一塊,我們平臺想支撐起來的一件事情。另外一塊就是圍繞應用這一塊,我們目前已經做到的有這么一些應用體系。比如面向征信的,面向金融營銷的,面向各種行業(yè)發(fā)展指數的,還有就是能力開放的四個產品體系。經過前兩年的探索,我們也發(fā)展了一些合作對象,合作內容。圍繞這四類,基本涵蓋了整個互聯(lián)網金融,涵蓋了我們一些政府,涵蓋了一些銀行、保險這樣一些行業(yè),在做這個數據能力的開放的嘗試。
從開放的模式上來說,從我們生產開放模式這塊主要有四類模式,一類模式就是數據特區(qū)的這種模式。就是我們提供一個資源和數據的特區(qū),大家來加工。另外一塊可能就是實時接口的模式,第三塊就是提供營銷服務的模式,還有一塊就是共建實驗室的模式。下面我們給大家重點講的是共建實驗室的模式,要支持這種共建實驗室的模式,又要考慮到支撐未來通信行業(yè)IDC的變革,我們平臺這一塊也要向兩極化發(fā)展。一級重點是提供大數據基礎能力的,目前我們能提供的資源的供給能力、數據的存儲能力、數據的加工能力還有數據開放挖掘能力,以及合規(guī)審核能力這么五大類基本的能力。在二級這一塊,可能要完成一個大數據的產品化運營管理平臺的東西,由平臺能力提供變成產品的制作,大數據產品的制作和大數據產品的運營計量,而且這一塊要實現一個異地的接入和物理分散的一個部署。在這個大規(guī)模部署的情況下,再開展更廣域的合作應用,這是我們圍繞開放創(chuàng)新平臺的一個目標架構。
圍繞這個,我們聯(lián)通做到什么程度呢?聯(lián)通從2000年就開始在做數據,真正大數據時代從2001年來做。經歷的過程來看,一開始我們做的全網全域的數據集中,目前聯(lián)通已經做到了全網全域的數據一點集中,這是區(qū)別于其他地方的一個基礎。目前這一塊數據規(guī)模上已經達到了21個PB以上,兩千多臺節(jié)點的處理,大概月增量在600個TB以上。還有日處理的上網記錄、通話記錄大概都是上億條,千億條。從服務能力這塊來講,截止去年12月份的數據,我們現在支持一萬個以上的數據并發(fā),自然利用率達到30%以上,能識別八萬多個終端型號,APP識別率也達到了90%以上,這是我們目前大數據能達到的規(guī)模和能力。
平臺這一塊,我們大數據在集團內部也不是孤立存在的,我們是放在一個大的IT架構里面來考量這件事情的。底層我們有統(tǒng)一的系統(tǒng)來保障,中間是一個基礎的數據加工的平臺,上面是一個數據的能力開放平臺,是這么一個方式,來構建我們聯(lián)通的一級大數據能力平臺。開放技術架構這一塊,面向五層的開放,包括底層數據的存儲加工,中間的數據建模,上層的數據應用。數據加工這一塊包括了我們的建模,包括多租戶的管理,包括數據的挖掘,包括我們結果數據的輸出和行業(yè)應用融合的合規(guī)審核這種基礎。這是目前已經具備這方面的能力了,所以總結一下,從聯(lián)通大數據來看,我們可能有這么幾個優(yōu)勢。
個優(yōu)勢,全網全域,數據是一點集中的,另外一個優(yōu)勢,就是數據加工是由統(tǒng)一平臺來承載一體化加工。第三從運營這塊,經過兩年的嘗試,這塊積累了一定產品化運營的經驗。第四個,就是數據質量和數據管控體系上來看,從12年開始,我們就在做全集團的統(tǒng)一的原數據和數據質量的管控體系。這是聯(lián)通大數據平臺,我認為相對于其他的基本的四個優(yōu)勢。
圍繞這一塊已經取得的成果和下一步能支撐數據通信網絡的變遷,以及開放創(chuàng)新體系這一塊來說,下一步這個平臺還要朝四個方面來做繼續(xù)的演進。個,剛才IBM的專家也講了,我們這一塊也要充分引進和運用微服務架構,能夠實現我們大數據平臺應用能力在物理上的一個分布,能力實現一個集中的運營,滿足兩級數據開放運營體系。聯(lián)通雖然我們數據是一點集中的,全部物理集中在北京,但是集中起來之后,發(fā)現我們的開放成了一個難題。我們數據在集中了之后,能力怎么開放出來,讓全國的或者不同地域的專屬應用能夠訪問得到,這是我們現在面臨的一個問題。第二個,也要構建基于容器 資源和能力兩層調度的新的體系,促進云和大數據的融合。在2.0的框架之下,實現能力訪問的跨域接入,實現能力的集中運營,從而在屬地化運營和我們統(tǒng)一運營上實現協(xié)同化的發(fā)展,這是第二塊。
第三塊,從數據本質上來說,也會引入認知計算,使得計算能夠滲透在大數據應用當中各個環(huán)節(jié)。為什么這么講?因為現在我們的數據分析或者數據應用大部分還停留在可視化這個環(huán)節(jié),停留在知道這個環(huán)節(jié)。但是我們可能對數據的期望不僅僅是知道,而是知道了,你下一步該干什么,或者在知道它有問題的情況下,提前采取什么樣的措施來規(guī)避不好的情況出現,這可能是我們想引入過程計算的一個思想和出發(fā)點。
第四就是充分利用機器學習,來開發(fā)非傳統(tǒng)經驗的算法。為什么這么講?因為原來我們在玩數據游戲,我們都從概念模型出發(fā),后通過數據來證實了一下這個概念模式。非傳統(tǒng)經驗,我們希望從數據事實來出發(fā),通過數據的事實,通過算法的計算,發(fā)現某些事實。有些事實用物理概念能解釋,有些事實用物理概念解釋不了,我們在現有的基礎上,在平臺和數據本身上進一步發(fā)展演進的方向。
圍繞開放合作,我們現在會以聯(lián)通的樣本數據或者聯(lián)通的自有數據開放出來,和各個行業(yè)來實現國內的跨行業(yè)的合作。從模式上來說,剛才有四種模式,圍繞著開放創(chuàng)新實驗室這種模式,可能會圍繞三方面來做合作。一個就是平臺技術,第二個就是應用孵化,第三就是具體的建模算法。深度的一個合作,也希望和大家能聯(lián)合起來做合作研發(fā)的工作。