【
中國智能制造網(wǎng) 名家論談】北京大數(shù)據(jù)研究院金融研究中心 研究員,美國華盛頓大學(xué)統(tǒng)計學(xué)博士王冉冉:我主要跟大家介紹一下大數(shù)據(jù),和我們現(xiàn)在所說的非常火的人工智能進行一些介紹,以及在金融行業(yè)中的一些創(chuàng)新應(yīng)用。
王冉冉:大數(shù)據(jù)在金融行業(yè)的創(chuàng)新應(yīng)用
首先,說一下大數(shù)據(jù),或者是人工智能這個概念。我比較喜歡用一個,并不是金融行業(yè),是一個老中醫(yī)的概念。人腦在形成知識,或者形成智慧的過程,其實很多都是基于歷史的經(jīng)驗,我們通過人腦來形成規(guī)律,然后歸納總結(jié)。來了一個新的問題,這個問題輸入到我們的人腦里,其實我們就會對它形成一定的認(rèn)知,然后把這些知識都關(guān)聯(lián)起來,然后我們來做出決策。
我們拿一個老中醫(yī)的例子來說,我看了成百上千的病人,通過望聞問切各種方式來采集數(shù)據(jù),然后產(chǎn)生認(rèn)知,來了一個新的病人,我們就可以知道他有沒有生病,或者是得了什么樣的病。對于機器來說,這個認(rèn)知的過程,我們把經(jīng)驗轉(zhuǎn)變成了數(shù)據(jù),也就是說我們會基于歷史數(shù)據(jù),通過計算機的算法語言,我們來形成模型,有新的樣本、數(shù)據(jù)給到我們的時候,我們就可以形成關(guān)聯(lián)、預(yù)測,然后得到我們對未來的認(rèn)知。這個過程也是我們今天說的,大數(shù)據(jù)分析、機器學(xué)習(xí)的模式、過程。
說一個簡單的例子,云計算、大數(shù)據(jù),包括人工智能,對于我們,或者是對于世界的改變,說一個非常有名的公司,也就是谷歌。
谷歌是做搜索引擎的,搜索引擎的模式,其實是通過一種自動加載網(wǎng)頁,然后來抓取鏈接,抓取信息的方式,然后形成一個對于全網(wǎng)數(shù)據(jù)的抓取,之后通過搜索引擎,對關(guān)鍵詞形成檢索。在這個之上,因為需要對全網(wǎng)的數(shù)據(jù)進行檢索,進行抓取,進行存儲,在這個之上,就開始有了新的技術(shù),那就是針對文本的數(shù)據(jù),需要通過分布式、云計算這樣的技術(shù)。因為數(shù)據(jù)量太大了,包括現(xiàn)在互聯(lián)網(wǎng)的數(shù)據(jù),它是一個信息爆炸的時代,數(shù)據(jù)量太大,我們就需要新的存儲的方式來存這些數(shù)據(jù),來處理這些數(shù)據(jù),來解析這些數(shù)據(jù)
現(xiàn)在說的非常多的,比如說Hodoop這個大數(shù)據(jù)分布式的生態(tài)系統(tǒng),開始也是來源于谷歌,在這之上再衍生出來這樣一套存儲和數(shù)據(jù)處理的技術(shù)。這就是云計算。
在這之上,我們需要對信息有所檢索,搜索的技術(shù)得到優(yōu)化。2000年初的時候為什么有很多做搜索引擎的公司脫穎而出?其實就是因為算法。從一篇網(wǎng)頁會關(guān)聯(lián)到下一個網(wǎng)頁,然后形成關(guān)聯(lián)式的快速檢索的機制。這個是通過算法來優(yōu)化它整個的搜索引擎、數(shù)據(jù)處理的機制。這其實就是從大數(shù)據(jù)、云計算的技術(shù)一直到算法,形成了這樣一個非常有效的機制。
谷歌還做了什么?更多做的還是一個創(chuàng)新的模式。它本身的收入來源其實是來自于它的廣告。它是通過用戶在搜索引擎端基于搜索,和用戶行為的數(shù)據(jù)進行匹配、進行廣告推薦。這占到了它90%以上的收入來源。而且這樣一個體系、商業(yè)模式的創(chuàng)新也造就了現(xiàn)在計算廣告學(xué)這樣一個學(xué)科。通過商業(yè)模式的創(chuàng)新,形成非常豐厚的收益。再就是人工智能技術(shù)的創(chuàng)新,包括我們現(xiàn)在說的阿爾法狗,通過智能算法進行了創(chuàng)新,相當(dāng)于是加速我們進入到人工智能的時代。
這是大數(shù)據(jù)、人工智能時代非常重要的幾個要素,首先是信息化,我們需要數(shù)據(jù)。無論是網(wǎng)絡(luò)爬蟲,還是現(xiàn)在移動互聯(lián)網(wǎng)時代,其實我們的手機端也可以搜集到非常多的數(shù)據(jù),包括一些地理遙感的數(shù)據(jù),車聯(lián)網(wǎng)、物聯(lián)網(wǎng)的數(shù)據(jù),其實這些都是我們的數(shù)據(jù)來源。通過信息化系統(tǒng)的建設(shè),然后形成我們的數(shù)據(jù)來源。在這之后,我們就需要數(shù)據(jù)化,包括數(shù)據(jù)的存儲、數(shù)據(jù)的處理機制,以及在算法之上,我們是需要用大數(shù)據(jù)的技術(shù)對這個海量的數(shù)據(jù)形成存儲,然后實時運算,以及分析預(yù)測的一些機制。
我們說到大數(shù)據(jù)的時候,一方面是基于歷史經(jīng)驗、歷史數(shù)據(jù)來獲得知識、獲得智慧,然后有了一個學(xué)習(xí)的過程,現(xiàn)在的深度學(xué)習(xí)、增強學(xué)習(xí),在研究院也看到了我們很多的科研實驗室,在這之上,其實是通過智能的一些算法,讓機器有了更多的智慧,它有了自主思考的能力,而不是完全依賴于歷史經(jīng)驗,其實,這也是一步一步,通過我們的信息化、數(shù)據(jù)化,以及智能化的升級,然后給我們帶來的這樣一些改變。
在金融的場景應(yīng)用里有什么樣的應(yīng)用?今天主要是給大家介紹幾個方面。因為,今天來的都是我們銀行業(yè)的很多專家。今天,主要跟大家介紹一下大數(shù)據(jù)征信以及風(fēng)險評估,再就是大數(shù)據(jù)如何應(yīng)用在智能反欺詐,尤其是像銀行,我們每天面臨著大量的交易數(shù)據(jù),我們?nèi)绾吾槍@種交易端的欺詐行為進行一些識別。再就是在這些數(shù)據(jù)的沉淀之上。包括我們商業(yè)銀行自己也沉淀了非常海量的數(shù)據(jù),現(xiàn)在很多的金融機構(gòu)也通過和第三方的合作采集到了數(shù)據(jù),我們怎么通過這些做一些用戶畫像、營銷分析,再就是我們需要大數(shù)據(jù)平臺的底層技術(shù)來支撐。
今天,跟大家簡單介紹一下這方面創(chuàng)新的科研成果,包括我們研究中心本身也在跟一些金融機構(gòu)合作的應(yīng)用成果的落地。
首先,說一下大數(shù)據(jù)和信用風(fēng)險評估。這也是目前說的比較多的,應(yīng)用的一個領(lǐng)域。這幾年,我們從銀行業(yè),從以前傳統(tǒng)的對公業(yè)務(wù)轉(zhuǎn)向零售業(yè)務(wù),尤其是在信貸環(huán)節(jié),現(xiàn)在的消費貸,消費金額的興起和小額信貸的興起。比如說傳統(tǒng)銀行,申請一張信用卡需要2、3周以上的時間,但是在現(xiàn)在消費金融的場景下,每一筆小額的貸款實際上是支付不起這樣的人力成本,然后我們就去進行人工審批。在這樣的場景之下,我們一定要用到數(shù)據(jù)以及模型的,然后來幫助我們的審批流程得到效率上的升級。再就是準(zhǔn)確率,也就是風(fēng)險管控的性能升級。
目前,在信用評分、風(fēng)險評估上也已經(jīng)得到了非常廣泛的應(yīng)用。大數(shù)據(jù)征信的數(shù)據(jù)來源,運營商、銀聯(lián)、用戶行為、黑名單的數(shù)據(jù),這些在市場上已經(jīng)有了非常多的征信機構(gòu)。通過這樣的海量數(shù)據(jù),以及我們行內(nèi)自己本身可以采集到的申請數(shù)據(jù)、征信報告的數(shù)據(jù),我們結(jié)合起來,然后準(zhǔn)確的對申請人進行一個信用評估。
在貸中以及貸后端,我們需要知道用戶持續(xù)的行為,比如說還款行為,持續(xù)的征信信息。通過算法我們?nèi)绾蝸硖嵘@個模型的準(zhǔn)確率,同時,增加我們的建模效率,這其實都是一些非常值得深入研究的課題。
在這個之上,我們把這樣一些流程描述一下,在這個過程中,我們用到的數(shù)據(jù)來源包括銀行的征信報告,這是我們作為銀行金融機構(gòu)非常有效、可靠的對于申請人信用情況的一份數(shù)據(jù)來源,我們行內(nèi)內(nèi)部的申請信息、客戶的資產(chǎn)信息,代發(fā)工資客戶的資產(chǎn)信息,信用卡客戶消費的信息都可以作為我們的數(shù)據(jù)來源,還有外部的數(shù)據(jù),資產(chǎn)類的信息、行為類的數(shù)據(jù),這些都可以成為我們做大數(shù)據(jù)分析的數(shù)據(jù)來源。我們首先通過信息化來解決數(shù)據(jù)來源的問題,然后把這些數(shù)據(jù)放在我們的數(shù)據(jù)處理的平臺和系統(tǒng)里。它對于我們的風(fēng)險準(zhǔn)入、欺詐識別、信用評分,以及在授信審批的過程中通過不同的模型來實現(xiàn)這樣的一個決策輔助的功效。
建模的過程就像我剛才說的一樣,比如說信用評分這樣的建模過程,實際上就是在建立一個預(yù)測模型,它的機理是說,申請人來的時點,我們用他之前所有產(chǎn)生的信用歷史、資產(chǎn)類、消費類的數(shù)據(jù),對他未來12個月、24個月是否違約的行為進行預(yù)測,我們在建立這個預(yù)測模型的過程中,就需要用到歷史數(shù)據(jù),這就是行內(nèi),比如說我們已有的實際發(fā)生的客戶的還款的歷史記錄,然后就可以成為我們學(xué)習(xí)的變量,在這個過程中,我們需要對數(shù)據(jù)進行預(yù)處理、數(shù)據(jù)提取,還有算法的使用,具體的技術(shù)細(xì)節(jié)我就不多說了。
在這里主要介紹一下我們大數(shù)據(jù)研究院和中國人民銀行征信中心建立的一個合作,通過一個數(shù)字化模型、模型化的方式來幫助我們在信審的過程中來衡量申請人的信用水平。
人民銀行是跟FICO進行合作的。FICO使用的建模算法相對來說比較陳舊,應(yīng)用到國內(nèi)的征信場景也會有一些問題。在中國征信市場的成熟度是不夠的,很多客戶,尤其是在銀行擁有征信記錄的話,這個區(qū)分度并不是很高,可能每個人都是一個車貸,一個房貸,幾張信用卡。通過這樣傳統(tǒng)的模型是不容易把客戶的風(fēng)險等級做一個比較好的區(qū)分的。同時,這個模型的建立過程非常久,包括在中間的一些變量,被審貸人員、申請人解讀的話,也會存在一些刷分的漏洞。我需要提升哪方面的指標(biāo),才可以使得我這個信用分?jǐn)?shù)更高,這樣的做法,也就會更容易形成刷分的漏洞。
我們和人民銀行征信中心合作的過程中,其實是用了3.7億的個人征信報告,在這之上使用了很多先進的基于大數(shù)據(jù)、機器學(xué)習(xí)的算法,基于決策數(shù)的一些基層算法。在這之上,我們對這個模型的效果也有了一個比較明確的優(yōu)化,包括對于正常還款和信用違約人群的區(qū)分度,我們可以提升大概10%到20%。這對于我們整個的資產(chǎn)規(guī)模來說(銀行),其實也是一個非常有效的提升。
這邊是我們跟國外的有名的P2PLendingClub的合作,在這里除了傳統(tǒng)的信用數(shù)據(jù)之外,還有個人的一些申請信息,其實還有很多的互聯(lián)網(wǎng)端的,比如說社交網(wǎng)絡(luò)、網(wǎng)購、一些行為特征的數(shù)據(jù)。在互聯(lián)網(wǎng)的數(shù)據(jù)是比較臟的(用比較專業(yè)的話來說),本身的缺失率比較高,噪音也比較大。在這樣的場景之下,就更需要用我們基于大數(shù)據(jù)的算法來幫助提升模型預(yù)測的準(zhǔn)確率。經(jīng)過優(yōu)化建模之后,而且拿了平臺的全量數(shù)據(jù)進行回測時發(fā)現(xiàn)壞賬率同比減少將近40%。
現(xiàn)在銀行主要還是基于對公的業(yè)務(wù),在這樣的場景下,首先是數(shù)據(jù)/員源可以輔助我們的信貸審批的過程,包括稅務(wù),一些互聯(lián)網(wǎng)輿情,其實都可以幫助我們?nèi)ヌ嵘龑τ谶@個企業(yè)風(fēng)險的一些判斷,包括一些公民鏈、擔(dān)保圈等。
我們近在拿一些商業(yè)銀行,他通過和稅務(wù)數(shù)據(jù)合作的數(shù)據(jù)來建立對于小微企業(yè),基本上是在授信規(guī)模50萬到150萬左右的小微企業(yè)做風(fēng)險模型,基于電子發(fā)票來看他上下游的供應(yīng)商、采購商的穩(wěn)定度。這也是通過大數(shù)據(jù)的分析,數(shù)據(jù)和分析手段,幫助我們認(rèn)識到這些。
再簡單說一下智能反欺詐。隨著電子渠道端、手機銀行、網(wǎng)銀的興起,還有直銷銀行,這樣一個業(yè)務(wù)的興起,這樣和傳統(tǒng)的業(yè)務(wù)是不同的,我們的數(shù)據(jù)來源除了客戶的一些申請數(shù)據(jù),和他本身的交易數(shù)據(jù)之外,我們也可以從終端的行為數(shù)據(jù)采集到很多用戶的行為數(shù)據(jù)(PC)。在這個行為之上怎么來幫助我們識別一些欺詐風(fēng)險?傳統(tǒng)的方式,比如說信用卡,交易反欺詐,很多都是通過專家規(guī)則的方式,專家規(guī)則也有很大的問題,就是在于它本身更新的機制比較慢,專家規(guī)則的誤報率比較高。包括人行支付清算協(xié)會去年下的文件,現(xiàn)在已經(jīng)明確規(guī)定商業(yè)銀行需要建立反欺詐平臺,同時使用機器學(xué)習(xí)的算法,來持續(xù)監(jiān)控這樣的一些交易風(fēng)險。
這邊是一些具體算法上的東西。
我講一個案例,這是跟一個全國股份制銀行做的基于電子渠道端異常交易識別的一個項目。剛才我說的電子渠道端,現(xiàn)在銀行還遇到了一個很大的問題,我們剛才說的信用評估的場景里是有正常還款的人群、違約的人群建立的一個模型。但是在電子渠道,其實很多商業(yè)銀行是沒有壞樣本的,他其實不知道哪些客戶是欺詐客戶,這是我們壞樣本少的問題。同時,這個數(shù)據(jù)質(zhì)量也比較差。另外,交易數(shù)據(jù)一天都是幾十萬、的大規(guī)模的數(shù)據(jù)。所以,我們是需要大數(shù)據(jù)的存儲和基礎(chǔ)技術(shù),同時,我們也需要創(chuàng)新的算法,來幫助我們識別異常。
我們通過一些欺詐規(guī)則的生成和梳理,再通過機器學(xué)習(xí)的算法來做,這是我們識別異常交易,以及異常賬戶的辦法。在異常交易合異常賬戶之上,我們又可以去跟正??蛻羧ミM行對比、建模,從而生成更多的欺詐規(guī)則,然后形成這個閉環(huán),就可以持續(xù)在這個平臺上去監(jiān)測異常交易,通過新的規(guī)則來進行實時的處理機制。這也是大數(shù)據(jù)的處理手段和智能算法幫助我們提升業(yè)務(wù)提升的辦法。
大家可以看一下,這也是通過我們的算法跑出來的,我們可以明顯的看到,它有一個非常頻繁的電子支付、跨行轉(zhuǎn)賬的交易行為,它的IP地址也發(fā)生了超越物理范圍之外的變動。整合在一起,我們就通過我們這個系統(tǒng)的模型,就可以跑出一些客戶的異常信息。
這是在移動安全端采集到的很多基于這些設(shè)備、我們的環(huán)境的數(shù)據(jù),然后把這些整合起來,輔助我們進行大數(shù)據(jù)的處理手段。
現(xiàn)在還有團伙欺詐,這個是需要通過賬戶之間的一些關(guān)聯(lián)、轉(zhuǎn)賬之間的關(guān)聯(lián),比如說圖數(shù)據(jù)庫、圖算法這樣一些新的分析方式來幫我們實現(xiàn)這樣的一個操作。整體來說,我們現(xiàn)在面對的是數(shù)據(jù)源的豐富、算法豐富,我們通過這樣的平臺就可以實現(xiàn)銀行交易類的場景的反欺詐。
再簡單提一下,基于消費數(shù)據(jù),就是交易數(shù)據(jù)、賬戶信息、中間業(yè)務(wù)的數(shù)據(jù),其實也可以對我們行內(nèi)的零售客戶形成一定的畫像、分群,在這之上,來提升客戶的轉(zhuǎn)化率。
這是在營銷分析方面的一些探索。
基于大數(shù)據(jù)底層的技術(shù),在云計算上,我們也需要基于這些分布式的技術(shù),幫助我們做一套底層的基礎(chǔ)設(shè)施,然后來支撐我們對所有數(shù)據(jù)的處理、分析。
這是我們在嘗試的一些課題的研究。
后簡單介紹一下大數(shù)據(jù)金融研究中心,我們金融研究中心主要是基于這幾塊數(shù)據(jù)進行的專題研究,塊是信貸數(shù)據(jù),剛才也講了一些例子,基于征信和信用評分,我們現(xiàn)在在大數(shù)據(jù)的場景下,包括和監(jiān)管機構(gòu)、商業(yè)銀行和一些滬金平臺在形成一些合作。
另外,基于金融市場數(shù)據(jù),包括對宏觀經(jīng)濟的一些分析,在量化投資里怎么通過多因子模型,或者是一些大數(shù)據(jù)因子的加入,來幫助我們提高收益率。
后一塊是用戶行為數(shù)據(jù),剛才說了智能反欺詐,以及在用戶畫像的場景里,我們都用到了很多,比如說客戶在手機行為端的一些數(shù)據(jù),在行內(nèi)的數(shù)據(jù),來幫助我們形成對欺詐風(fēng)險的一些判斷。謝謝大家!
(原標(biāo)題:王冉冉博士:大數(shù)據(jù)在金融行業(yè)的創(chuàng)新應(yīng)用)