大家好,我是CreditX氪信的創(chuàng)始人朱明杰,剛才的圓桌很精彩。我是互聯(lián)網(wǎng)人,做了十多年的機(jī)器學(xué)習(xí),也就是用機(jī)器代替人去處理數(shù)據(jù)做決策和判斷。過去十多年的機(jī)器學(xué)習(xí),成功的應(yīng)用都是在互聯(lián)網(wǎng)上,搜索,廣告,推薦,可以說互聯(lián)網(wǎng)達(dá)到了數(shù)據(jù)時代。而到金融創(chuàng)新這個領(lǐng)域,如何實(shí)現(xiàn)互聯(lián)網(wǎng)級別的機(jī)器學(xué)習(xí)和人工智能,大家都剛剛起步,我今天想講講我們CreditX在金融領(lǐng)域?qū)嵺`互聯(lián)網(wǎng)級別機(jī)器學(xué)習(xí)的一些經(jīng)驗(yàn)和思考。
普惠環(huán)境下金融風(fēng)控的痛點(diǎn)
我一直認(rèn)為,“科技進(jìn)步是被業(yè)務(wù)需求逼出來的”。過去我們在互聯(lián)網(wǎng)行業(yè)靠算法和機(jī)器,都是被逼的,為什么,因?yàn)閿?shù)據(jù)量實(shí)在太大了,你想去淘寶搜個手機(jī)殼,讓阿里的同學(xué)人肉從上億的商品里幫你找出喜歡合適的,那根本不可能。傳統(tǒng)金融場景里,一筆100萬的貸款主要靠風(fēng)控人員和關(guān)系,那是可行的;而到了銀行的信用卡中心,積壓的申請審核,讓審批人員每周加班,都批不完。那現(xiàn)在互聯(lián)網(wǎng)金融要面臨更加普惠的場景,比如幾百塊錢一筆的手機(jī)貸,靠鋪人力一定是行不通的。所以,這已經(jīng)不單單是提升運(yùn)營效率問題,而是必須要把活兒交給機(jī)器,讓機(jī)器來學(xué)習(xí)人的風(fēng)控經(jīng)驗(yàn),機(jī)器人變成風(fēng)控專家。
但是我們在金融場景里討論機(jī)器學(xué)習(xí)和人工智能,面臨著現(xiàn)實(shí)的兩個難點(diǎn):
個問題是數(shù)據(jù)太少。我們知道金融數(shù)據(jù)是非常稀疏的,而且現(xiàn)在很多的金融產(chǎn)品形式在以前是根本沒有發(fā)生過的。所以根本不存在十幾年的數(shù)據(jù)積累的問題。換句話說也就是缺少訓(xùn)練數(shù)據(jù),也就是俗稱的冷啟動,缺數(shù)據(jù);其次金融出一個壞賬,少則一個月多則幾個月,積累這部分?jǐn)?shù)據(jù)要等很久,相對于在互聯(lián)網(wǎng)搜索領(lǐng)域內(nèi)可以迅速拿到點(diǎn)擊反饋,兩者差別很大,所以數(shù)據(jù)的缺失是阻礙機(jī)器來學(xué)習(xí)人的經(jīng)驗(yàn)的巨大障礙;
第二個問題是數(shù)據(jù)太多。我說的數(shù)據(jù)太多的意思是數(shù)據(jù)特征維度太多,遠(yuǎn)遠(yuǎn)超過了人的處理能力。不像傳統(tǒng)的金融十幾維度的特征變量,人來調(diào)一調(diào)公式終歸是可以應(yīng)對的。但現(xiàn)在面臨這么多維度的數(shù)據(jù),大家也想了很多很好的愿景,包括剛才幾位嘉賓也在討論很多數(shù)據(jù)都可以用。為什么用不上呢?這個問題在于我們有什么辦法可以有一個很強(qiáng)的表達(dá)能力將這些很原始的,也可以叫若變量的數(shù)據(jù)特征利用起來。而講弱特征數(shù)據(jù)組合起來,與結(jié)果聯(lián)系起來,讓人的直觀經(jīng)驗(yàn)可以理解,讓風(fēng)控專家去反饋。因?yàn)樵诮鹑趫鼍皟?nèi),不能像互聯(lián)網(wǎng)的機(jī)器學(xué)習(xí)都是一個黑盒子,一堆數(shù)據(jù)扔進(jìn)去,等結(jié)果來反饋迭代,但是金融場景內(nèi),特別強(qiáng)調(diào)模型的可解釋性,這樣才能把人的風(fēng)控經(jīng)驗(yàn)和直觀感受跟數(shù)據(jù)表現(xiàn)結(jié)果關(guān)聯(lián)起來。在這個基礎(chǔ)上,我們才能說把人的經(jīng)驗(yàn)介入到利用數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)建模的操作中去。做到特征要能夠追溯回去,尤其是金融的反饋結(jié)果要等很久,需要人能夠快速干預(yù)反饋。