1950年秋天,被后人譽(yù)為“人工智能之父”的阿蘭·圖靈,在其著作《Computing Machinery and Intelligence》的開篇,拋出了這個(gè)在當(dāng)時(shí)似乎是“異想天開”的問題。也同樣是在這篇文章中,圖靈提出一個(gè)甚至比“人工智能(Artificial Intelligence,簡稱AI)”更早出現(xiàn)的概念——圖靈測試。由此拉開了,人類對AI這一領(lǐng)域艱辛探索的序幕。
時(shí)光荏苒,斗轉(zhuǎn)星移。70余年過去,已歷經(jīng)三次發(fā)展浪潮的AI,正悄然以各種面貌進(jìn)入我們普通人的日常生活之中。人臉識(shí)別、輔助駕駛、智能醫(yī)學(xué)影像等應(yīng)用正逐漸成為人類社會(huì)中“習(xí)以為常”的一部分,這得益于AI技術(shù)的不斷成熟。而在這背后,是學(xué)界、業(yè)界乃至各個(gè)國家對AI研發(fā)的不斷投入。目前,全球各國對于AI的研發(fā),已漸成“競賽”之勢。但要真正通過“圖靈測試”,還尚無國家能夠做到。
6月1日,在2021北京智源大會(huì)上,超大規(guī)模智能模型“悟道2.0”正式發(fā)布。其憑借1.75萬億的參數(shù)量,創(chuàng)下了預(yù)訓(xùn)練語言模型記錄,成功向世界展示了中國的AI技術(shù)實(shí)力。據(jù)悉,“悟道2.0”分別由文源、文瀾、文匯、文朔四大預(yù)訓(xùn)練模型組成。
在這其中,以語義理解、視覺-語言檢索等能力見長的“文瀾”引起了極大的興趣。據(jù)悉,文瀾對語義信息的理解能力之強(qiáng)已經(jīng)達(dá)到世界“領(lǐng)跑”水平,堪稱是世界AI領(lǐng)域中突破性的進(jìn)展。其能力可擴(kuò)展性強(qiáng),可以落地應(yīng)用在多種場景。通過對文瀾的研究,人類與似乎遙不可及的“圖靈測試”又近了一步。文瀾研發(fā)團(tuán)隊(duì)是由中國人民大學(xué)高瓴人工智能學(xué)院執(zhí)行院長文繼榮教授所領(lǐng)導(dǎo),并與北京智源人工智能研究院緊密合作。
通過努力,我們很榮幸地采訪到了文瀾研發(fā)團(tuán)隊(duì)的模型組負(fù)責(zé)人——中國人民大學(xué)高瓴人工智能學(xué)院的盧志武教授,和他一起聊了聊AI的未來和文瀾背后的故事。
AI發(fā)展?jié)u入瓶頸,文瀾領(lǐng)銜的多模態(tài)預(yù)訓(xùn)練模型,或成“破局”關(guān)鍵
人工智能的目標(biāo),就是讓機(jī)器擁有和人一樣的理解與思考能力。但70多年過去了,距離這個(gè)目標(biāo),仍有著不小的距離。
而對學(xué)界來說,盡管當(dāng)下許多AI技術(shù)已經(jīng)可以對人類生活產(chǎn)生積極的影響,但從大趨勢來看,AI研發(fā)似乎正走到了一個(gè)“瓶頸期”。學(xué)界和業(yè)界,都需要在技術(shù)上發(fā)現(xiàn)一個(gè)新的”爆點(diǎn)”,來刺激整個(gè)AI產(chǎn)業(yè)繼續(xù)向前跨越式地發(fā)展。
也就是在這種情況下,“文瀾”誕生了。
盧志武教授告訴記者,“任何AI的模型到最后其實(shí)都是個(gè)神經(jīng)網(wǎng)絡(luò)。在過去,業(yè)內(nèi)常常使用純文本或者純圖像的模式對AI進(jìn)行單模態(tài)訓(xùn)練。但現(xiàn)在看來,其效果不是特別有效。”
隨著學(xué)術(shù)上的發(fā)展,文瀾團(tuán)隊(duì)開始把目光轉(zhuǎn)向同時(shí)使用圖文數(shù)據(jù)對進(jìn)行預(yù)訓(xùn)練,期望以此能挖掘AI新的潛能。而在此之前,這個(gè)方向上還沒有較為成功的案例。
為了獲得較好的效果,文瀾1.0和2.0版本所使用的訓(xùn)練數(shù)據(jù)從3000萬升級到了6.5億未標(biāo)注圖文數(shù)據(jù)。巨大的數(shù)據(jù)量在進(jìn)行模型訓(xùn)練時(shí)非常困難,但這也給文瀾擁有強(qiáng)大的視覺-語言檢索能力和一定的常識(shí)理解能力打下了基礎(chǔ)。
在訓(xùn)練方式上,文瀾研發(fā)團(tuán)隊(duì)采用了高效的分布式多模態(tài)預(yù)訓(xùn)練框架,提出基于DeepSpeed的多模態(tài)預(yù)訓(xùn)練算法,從而利用GPU和CPU,并最優(yōu)地支持跨模態(tài)對比學(xué)習(xí)。
目前,國外頂級AI研發(fā)機(jī)構(gòu)Google和OpenAI也正在嘗試文瀾團(tuán)隊(duì)的研究方向,其項(xiàng)目名分別為 Google ALIGN和OpenAI CLIP,但在與這兩者進(jìn)行圖文互檢能力的嚴(yán)格公平比較時(shí),文瀾明顯要更勝一籌,可以說,目前的文瀾,在圖文互檢和語義理解方面都達(dá)到了頂級的水平。
那么,文瀾可以應(yīng)用在何處?盧志武教授告訴記者,現(xiàn)在的文瀾,就像“大腦”一樣,適應(yīng)力強(qiáng),可以應(yīng)用在多個(gè)場景下。以其擅長之一的“檢索和推薦”能力舉例,電商、游戲、視頻中的多個(gè)細(xì)分行業(yè)的常見業(yè)務(wù)場景中,文瀾都能“得心應(yīng)手”。
盧志武教授表示“如果說過去我們了解到的AI,其理解力還只是個(gè)小孩的話,現(xiàn)在的文瀾,已經(jīng)越來越有可能接近一個(gè)成人”。
探索AI“潛意識(shí)”,“圖靈測試”得以見到更多曙光
文瀾的能力之強(qiáng)已經(jīng)毋庸置疑。但對于文瀾開發(fā)團(tuán)隊(duì)來說,在海量的圖文數(shù)據(jù)訓(xùn)練后,文瀾是否真正學(xué)到了語義信息,以及文瀾的理解能力究竟有多強(qiáng),成為了具有吸引力的問題。
為此,文瀾研發(fā)團(tuán)隊(duì)決定用“神經(jīng)元可視化”的方式對文瀾進(jìn)行測試。你可以簡單理解為這是一場“命題繪畫”的測驗(yàn)。我們告知文瀾一句有實(shí)際意義的話,讓文瀾用圖片的形式反饋出她對這句話的理解。
但請注意,這里的圖片反饋,絕非是從文瀾已有的圖片數(shù)據(jù)中匹配最優(yōu)解,也不是像某些AI繪畫模型那樣對特定訓(xùn)練數(shù)據(jù)的模仿。
此時(shí)的文瀾,更像是一個(gè)‘“普通人”,借助自己已有的知識(shí),來嘗試?yán)斫馔饨鐐鬟f進(jìn)來的新信息,并以圖畫的形式來“具象”出自己的理解,反應(yīng)的是文瀾“腦海”里的客觀存在。
盧志武老師表示“(通過這種方式)我們將文瀾的“潛意識(shí)”,也即她腦海中最原始的對一句話的想象與理解給可視化出來。”
那文瀾具體是怎么畫的呢?簡單來說,我們都知道在計(jì)算機(jī)上,圖片是由一個(gè)個(gè)像素點(diǎn)組成,通過改變每個(gè)像素點(diǎn)的顏色,就可以在計(jì)算機(jī)上進(jìn)行繪畫。而拿到文本信息的文瀾,就是通過這種方法進(jìn)行“原創(chuàng)繪畫”,把她所理解的我們所給出語句的意思,用圖畫表示出來。此時(shí)的文瀾可以比喻為一個(gè)天平,天平的兩端分別是圖像和文本,而文瀾要做的就是讓兩者的意義“保持對等”。值得注意的是,在神經(jīng)元可視化時(shí),文瀾所有模型參數(shù)都是固定不變的,只是去修改輸入的初始噪聲圖像。
文瀾研發(fā)團(tuán)隊(duì)表示:“通過這種方式,我們得以一窺文瀾的“內(nèi)心世界”。也就是放開所有評測和應(yīng)用對文瀾的限制,讓她能夠展現(xiàn)最原始的、最真實(shí)的、她“潛意識(shí)”里對于輸入文本的獨(dú)特理解。”
目前根據(jù)文瀾的“畫作”來看,其對語義的理解能力已經(jīng)位居世界前列。除了日常用語,文瀾同樣能理解古詩詞,甚至可以傳遞出一定的“意境”。
前瞻與堅(jiān)持讓文瀾“橫空出世” ,多元和交叉將成為AI浪潮新起點(diǎn)
對科研來說,正確的判斷與堅(jiān)持,有時(shí)要比勤奮和努力更為重要。當(dāng)聊起文瀾的研發(fā)過程時(shí),盧教授對此深有感觸。
自去年9月份開始,文瀾團(tuán)隊(duì)就開始進(jìn)行多模態(tài)預(yù)訓(xùn)練的工作。想起當(dāng)時(shí)的過程,盧教授形容到:“完全是在黑暗中摸索,并且多模態(tài)預(yù)訓(xùn)練模型非常難做,但還是果斷地沿著這條路(圖文弱相關(guān)+雙塔模型)走了下來。”
但探索和堅(jiān)持是有風(fēng)險(xiǎn)的,在此期間,盧教授與其所帶的博士生們?nèi)硇牡赝度氲搅诉@個(gè)項(xiàng)目上,并因此很長時(shí)間都沒有發(fā)表論文。如果方向錯(cuò)了,或者沒有把模型訓(xùn)練好,都將會(huì)是一個(gè)“顆粒無收”的結(jié)果。這對整個(gè)團(tuán)隊(duì)的壓力,可想而知。
而幾乎是同時(shí),國外AI界的領(lǐng)跑者:谷歌和OpenAI,也正在做類似的事情。并在今年1月份,OpenAI發(fā)布了兩個(gè)與文瀾在方向上類似的模型:DALL-E和CLIP。震撼業(yè)內(nèi)的同時(shí),也側(cè)面證明了盧教授團(tuán)隊(duì)的選擇是正確并富有前瞻性的。
不過,從國內(nèi)高校學(xué)術(shù)研究的偏向來看,清北等高校似乎在AI方面更有優(yōu)勢。為何此次在AI領(lǐng)域做出突破性進(jìn)展的卻是人大?
盧志武教授認(rèn)為,人大的優(yōu)勢在于學(xué)術(shù)氛圍的寬松和富有底蘊(yùn)的人文思想。
“我們高瓴人工智能學(xué)院的文繼榮院長,非常支持去做這些有價(jià)值的探索。所以我們整體的學(xué)術(shù)氛圍還是非常寬松和開放的。”
除此之外,作為以人文社科見長的高等學(xué)府,人大對AI自有其獨(dú)特的理解方式。某種意義上,針對當(dāng)前流行的工具理性來說,人大更趨向于價(jià)值理性。這也是文瀾團(tuán)隊(duì)能夠冒著“顆粒無收”的風(fēng)險(xiǎn),堅(jiān)持完成研究的原因之一。
而在我們看來,除了人大所特有的優(yōu)勢以外,文瀾的成功與盧志武教授所擁有的對AI發(fā)展的前瞻性,和整個(gè)文瀾研發(fā)團(tuán)隊(duì)的優(yōu)秀能力同樣密不可分。
漫漫AI探索路上,“破”與“立”是永恒的話題。盡管文瀾已經(jīng)做出了突破性的成績,盧志武教授仍謙虛地表示,從總體上看,AI未來的發(fā)展,依然需要像腦科學(xué)、神經(jīng)科學(xué)等相關(guān)交叉學(xué)科的共同進(jìn)步。不過,道阻且長,行則將至。我們相信,在文瀾這個(gè)成功案例的帶動(dòng)下,未來中國可以涌現(xiàn)出更多的“文瀾”,從而能夠更快一步地摘下“圖靈測試”這座AI的皇冠。
(原標(biāo)題:專訪中國人民大學(xué)盧志武教授:AI的新突破,或從“文瀾”開始)