【中國(guó)智能制造網(wǎng) 論壇會(huì)議】現(xiàn)如今,隨著信息技術(shù)的不斷發(fā)展和AI數(shù)據(jù)分析能力的飛速提升,大數(shù)據(jù)在今后可以創(chuàng)造出什么樣的奇跡呢?
2017中國(guó)大數(shù)據(jù)技術(shù)大會(huì)在京召開
1844年,莫爾斯發(fā)出人類歷史上的份電報(bào):“上帝創(chuàng)造了何等的奇跡!”電報(bào)的發(fā)明,揭開了電信史上的頁(yè)?,F(xiàn)如今,隨著信息技術(shù)的不斷發(fā)展和AI數(shù)據(jù)分析能力的飛速提升,大數(shù)據(jù)在今后可以創(chuàng)造出什么樣的奇跡呢?在2017中國(guó)大數(shù)據(jù)技術(shù)大會(huì)(BDTC2017)的媒體群訪中,澳洲昆士蘭大學(xué)教授周曉方、微軟亞洲研究院副院長(zhǎng)研究員劉鐵巖、華東師范大學(xué)教授錢衛(wèi)寧、滴滴出行副總裁章文嵩與大家共同探討了大數(shù)據(jù)的未來(lái)應(yīng)用問(wèn)題。
大數(shù)據(jù),不是為了數(shù)據(jù)而數(shù)據(jù)
如今企業(yè)實(shí)施的大數(shù)據(jù)系統(tǒng),大多展現(xiàn)的是一個(gè)非常炫酷的面板和一些看上去很吸引眼球的數(shù)據(jù)分析,但數(shù)據(jù)的實(shí)際應(yīng)用價(jià)值并沒(méi)有什么確切的體現(xiàn)。就這個(gè)問(wèn)題,四位專家分別表達(dá)了自身對(duì)目前大數(shù)據(jù)的觀點(diǎn):
章文嵩總裁首先闡述了自己的觀點(diǎn):“不是為了數(shù)據(jù)而數(shù)據(jù),首先要了解需要用大數(shù)據(jù)解決的問(wèn)題是什么?怎么來(lái)定義這些問(wèn)題?如果把問(wèn)題梳理清楚然后基于這些問(wèn)題,看看在數(shù)據(jù)上能不能做很多的啟示,真正要解決問(wèn)題出發(fā)而不是為了數(shù)據(jù)而數(shù)據(jù)。”
隨后周曉方教授對(duì)這個(gè)問(wèn)題進(jìn)行了深入分析:個(gè)方面是剛才說(shuō)的,我們有一個(gè)問(wèn)題,然后看需要什么樣的數(shù)據(jù),用這些數(shù)據(jù)如何來(lái)解決我們的問(wèn)題。第二個(gè)方面,我們現(xiàn)在有了數(shù)據(jù)以后,怎么樣去解放思想,創(chuàng)造新的應(yīng)用價(jià)值。企業(yè)界和科研界可以合作解決這個(gè)問(wèn)題。大數(shù)據(jù)的話,前面剛才大會(huì)的主席發(fā)言也都說(shuō)了,是我們時(shí)代的特征。大數(shù)據(jù)已經(jīng)是事實(shí)的存在,而且數(shù)據(jù)應(yīng)用的技術(shù)在那里,各種應(yīng)用場(chǎng)景現(xiàn)在也都落地了。因此,CRO們不能為了大數(shù)據(jù)而大數(shù)據(jù),而是你到底應(yīng)該做什么事情,你有什么樣的數(shù)據(jù),需要什么數(shù)據(jù),用這些數(shù)據(jù)怎么樣把我們已有的工作做的更好,用這些數(shù)據(jù)怎么樣能夠把我們一些新的應(yīng)用推動(dòng)起來(lái)。
劉鐵巖院長(zhǎng):數(shù)據(jù)是我們擁有的一部分,我們拿到數(shù)據(jù)是一個(gè)基礎(chǔ),我們一定要從過(guò)程中找到價(jià)值,過(guò)程是我們做機(jī)器學(xué)習(xí)的這個(gè)過(guò)程,我們?cè)僦v大數(shù)據(jù)一定要把數(shù)據(jù)和智能結(jié)合起來(lái),要有全盤的規(guī)劃。在這個(gè)角度來(lái)講我們要拿什么數(shù)據(jù)是為了實(shí)現(xiàn)剛才各位說(shuō)的實(shí)現(xiàn)某種目的我們尋找合適的數(shù)據(jù),而不是拿到所有的數(shù)據(jù)覺得反正是個(gè)寶貝留下來(lái)就好,數(shù)據(jù)大也有很多好的方面,很豐富,也有很多壞的方面,是噪聲,有些可能是錯(cuò)誤的,如果沒(méi)有一個(gè)有效的算法和方法,把噪聲去除掉,把信息挖掘出來(lái),其實(shí)大數(shù)據(jù)不見得是有價(jià)值的。
后錢衛(wèi)寧教授做了對(duì)這個(gè)問(wèn)題進(jìn)行了總結(jié):我們的一個(gè)看法是說(shuō),數(shù)據(jù)其實(shí)很像我們以前的電,有電之前跟有電之后應(yīng)用是不一樣的,如果我有了電我還是在用蒸汽機(jī)會(huì)覺得說(shuō)這個(gè)電沒(méi)有多大的作用,現(xiàn)在又了數(shù)據(jù)之后,我們可能說(shuō)一個(gè)業(yè)務(wù)的模型或者決策的模型都是要變的,所以就是說(shuō)可能你剛才講的有了數(shù)據(jù)之后我只是一個(gè)展示只是出一個(gè)報(bào)表這個(gè)還是屬于傳統(tǒng)的這個(gè)思維模式,但是更多的要講說(shuō)我們有了這個(gè)數(shù)據(jù)之后怎么樣根據(jù)這個(gè)數(shù)據(jù)重構(gòu),去重新來(lái)設(shè)計(jì)我們整個(gè)業(yè)務(wù)的流程,這樣可以把數(shù)據(jù)用的更好。
數(shù)據(jù)清洗,如何區(qū)分沙與金
在上個(gè)問(wèn)題中提到數(shù)據(jù)價(jià)值,數(shù)據(jù)好的方面,也有很多壞的方面,是干擾,是噪聲怎樣才能通過(guò)有效方法,把噪聲去除掉,把信息挖掘出來(lái)?下面幾位專家就數(shù)據(jù)清洗的問(wèn)題又進(jìn)行了更深入的探討。
周曉方教授:數(shù)據(jù)質(zhì)量管理是大數(shù)據(jù)的一個(gè)問(wèn)題,要從數(shù)據(jù)的完整性方面來(lái)看待這個(gè)問(wèn)題。比如網(wǎng)上一部分人的觀點(diǎn)不能代表整個(gè)社會(huì),因?yàn)閿?shù)據(jù)不完整。還有時(shí)效性、準(zhǔn)確性、一致性等等,這個(gè)都是傳統(tǒng)的問(wèn)題。數(shù)據(jù)清洗這個(gè)問(wèn)題已經(jīng)研究了很多年?,F(xiàn)在我們自己的研究團(tuán)隊(duì)也是一直在推這個(gè)數(shù)據(jù)質(zhì)量管理,現(xiàn)在榮耀都被AI拿走了,但是為AI進(jìn)行支撐的數(shù)據(jù)管理、數(shù)據(jù)分析、各種大數(shù)據(jù)的差異都是在后面默默在做的。如果不把這個(gè)底層的數(shù)據(jù)支持做好的話,那么也就是酷炫的都沒(méi)有用。
章文嵩總裁:數(shù)據(jù)質(zhì)量非常關(guān)鍵,如果數(shù)據(jù)不準(zhǔn)你得出的任何結(jié)論都有問(wèn)題。這里面我們面臨的一些問(wèn)題,解決的辦法涉及到數(shù)據(jù)的收集、生產(chǎn)、傳輸整體的這個(gè)過(guò)程,我們對(duì)數(shù)據(jù)肯定是層層要做校驗(yàn),哪些校驗(yàn)有些環(huán)節(jié)數(shù)據(jù)不準(zhǔn)了,或者有些環(huán)節(jié)數(shù)據(jù)丟了。就拿滴滴來(lái)說(shuō)重要的一個(gè)漏洞,用戶進(jìn)來(lái)那個(gè)冒泡表達(dá)了他的這個(gè)目的地,冒泡之后我們有很多的動(dòng)作,然后用戶是個(gè)發(fā)單,平臺(tái)是否派單,派單后執(zhí)行后到完單支付。這個(gè)漏斗模型其實(shí)層層環(huán)節(jié)都要校驗(yàn)。所以這個(gè)數(shù)據(jù),可以幫我們定位哪些買點(diǎn)是對(duì)的,哪些環(huán)節(jié)是我們網(wǎng)絡(luò)傳輸軟件處理的BUG導(dǎo)致數(shù)據(jù)丟失了,這是層層校驗(yàn),就跟財(cái)務(wù)做校驗(yàn)一樣,每個(gè)環(huán)節(jié)都要校驗(yàn),確保數(shù)據(jù)準(zhǔn)確性和軟件的正確性。
劉鐵巖院長(zhǎng):我接觸過(guò)很多傳統(tǒng)企業(yè),在跟我們聊的時(shí)候更多不是講大數(shù)據(jù),是講AI。在深入溝通的時(shí)候,解決問(wèn)題是大數(shù)據(jù)問(wèn)題而不是智能問(wèn)題。他們的愿景是想用智能解決某個(gè)應(yīng)用,實(shí)際上整個(gè)公司里的數(shù)據(jù)根本沒(méi)有管理好組織起來(lái),回到大數(shù)據(jù)真的非常重要。先是數(shù)字化,然后是傳統(tǒng)的管理再是數(shù)字清洗。從做機(jī)器學(xué)習(xí)和AI角度來(lái)看,什么是數(shù)據(jù)清洗什么是數(shù)據(jù)管理,我們希望從原始的數(shù)據(jù)開始出發(fā),然后通過(guò)特別復(fù)雜的鏈路,連到終應(yīng)用上。每個(gè)環(huán)節(jié)可能都提供反饋信息。如果我們不做端到端的處理,割裂開有可能會(huì)出現(xiàn)什么現(xiàn)象?我們?cè)谇捌谧鰯?shù)據(jù)處理的時(shí)候以為是噪聲的問(wèn)題,可能是信號(hào),我們以為是信號(hào)的東西也許是噪聲。那么怎么在整個(gè)數(shù)據(jù)鏈路的智能化的過(guò)程中都給大家一個(gè)機(jī)會(huì),曾經(jīng)當(dāng)成是噪聲清洗掉的東西是有機(jī)會(huì)重新挖掘和反復(fù)匹配的,曾經(jīng)被你認(rèn)為是有用的東西要不斷的甄別里面的寶貝在哪里,問(wèn)題在哪里,這是一個(gè)補(bǔ)充。
數(shù)據(jù)應(yīng)用,資源的分配與民生
在隨后的討論活動(dòng)中,幾位專家還就智能出行的無(wú)人駕駛對(duì)人們生活的改變,通過(guò)大數(shù)據(jù)如何減少東西部貧富差距等問(wèn)題進(jìn)行了深入溝通。將技術(shù)討論提升到了民生問(wèn)題的高度。
我們相信,隨著大數(shù)據(jù)技術(shù)的深入應(yīng)用,未來(lái)緊缺的公共資源應(yīng)該可能得到更加合理的分配。比如春運(yùn)的火車票可以給有切實(shí)回家需求的購(gòu)票者更多的購(gòu)買機(jī)會(huì),急需就醫(yī)的患者可以更方便進(jìn)行掛號(hào),公眾的交通也能得到有針對(duì)性的調(diào)節(jié)。大數(shù)據(jù)的明天將會(huì)令人們的生活更加美好。
(原標(biāo)題:大數(shù)據(jù)的將進(jìn)行清洗 分清沙與金)