【中國智能制造網(wǎng) 企業(yè)動(dòng)態(tài)】未來,F(xiàn)acebook 會(huì)有一個(gè)擁有類人智能的對話代理。Siri、Google Now 和 Cortana目前都在嘗試變得更智能,但是一旦脫離既定情景,它們都失敗了。這是為什么扎克伯格在2016年為自己的家庭打造私人AI 助手的一個(gè)原因——當(dāng)下的產(chǎn)業(yè)發(fā)展情況并不能滿足他的需求。
當(dāng)然,F(xiàn)acebook也已經(jīng)開始打造自己的AI 平臺(tái)——M。M不會(huì)擁有跟人一樣的智能,但是它會(huì)在一些狹窄的領(lǐng)域擁有智能,通過觀察人類的行為進(jìn)行學(xué)習(xí)。Facebook 希望讓AI 成為公司的下一個(gè)大平臺(tái),M 只是其中的一個(gè)研究項(xiàng)目。
在通往打造類似人類的智能的道路上,F(xiàn)acebook將使用機(jī)器學(xué)習(xí)(ML) 來了解用戶反饋給公司的基礎(chǔ)設(shè)施的所有內(nèi)容。 Facebook想要使用AI來讓其平臺(tái)理解貼文,故事,評論,圖像和視頻的意義。然后將這些信息存儲(chǔ)為元數(shù)據(jù),以改善廣告定位并提高用戶新聞流內(nèi)容的相關(guān)性。元數(shù)據(jù)還可用作創(chuàng)建對話代理的原始材料。
這并不是一個(gè)遙不可及的目標(biāo):AI現(xiàn)在是Facebook的下一個(gè)平臺(tái)。Facebook 正在悄悄地實(shí)現(xiàn)這一目標(biāo),與此前從網(wǎng)頁到移動(dòng)端的轉(zhuǎn)變具有相同的優(yōu)先級。(移動(dòng)端目前占據(jù)了Facebook收入的84%。)雖然你目前不能通過發(fā)出“OK Facebook”或“Hey Facebook”的指令與之進(jìn)行互動(dòng),但是,今天已經(jīng)有大量的AI,能夠讓 Facebook 通過圖像,視頻,新聞流或其正在萌芽的聊天機(jī)器人,來增加對用戶的吸引力。并且,如果他們的集體的工程設(shè)計(jì)能找到方法,那么自動(dòng)化程度只會(huì)不斷增加。
LeCun的小目標(biāo):專注10個(gè)科學(xué)問題,更好地模擬人類智力
在早期階段,項(xiàng)目M作為基于文本的數(shù)字助理存在,通過將AI與人類訓(xùn)練者結(jié)合來理解用戶意圖(用戶想要什么,例如呼叫 Uber),這一會(huì)話發(fā)生在使用機(jī)器學(xué)習(xí)訓(xùn)練的 Facebook Messenger 機(jī)器人和用戶之間。當(dāng)人類訓(xùn)練員介入以找到用戶意圖時(shí),機(jī)器人傾聽和學(xué)習(xí),以便在下一次預(yù)測用戶的意圖時(shí)提高其準(zhǔn)確性。
遇到一個(gè)問題時(shí),如果機(jī)器計(jì)算出的概率較低,無法達(dá)到準(zhǔn)確率要求,它會(huì)請求訓(xùn)練員的幫助。如果機(jī)器計(jì)算的概率足夠高,則機(jī)器會(huì)對人類訓(xùn)練者沒有注意到的用戶進(jìn)行回應(yīng)。
這種交互是可能的,這要得益于創(chuàng)建于 Facebook 人工智能研究院(FAIR)建造的記憶網(wǎng)絡(luò)(Memory Network)。一個(gè)記憶網(wǎng)絡(luò)指的是帶有內(nèi)存的神經(jīng)網(wǎng)絡(luò)。雖然這并不是從人腦的研究獲得啟發(fā),但是這一神經(jīng)網(wǎng)絡(luò)跟大腦皮層很相似,相關(guān)的網(wǎng)絡(luò)內(nèi)存就好像海馬體,它通過長期、短期和空間導(dǎo)向的內(nèi)存轉(zhuǎn)換來搜集信息。當(dāng)這些信息被送到皮層或者神經(jīng)網(wǎng)絡(luò)中,就會(huì)被轉(zhuǎn)化成思考或者行動(dòng)。
Facebook 的記憶網(wǎng)絡(luò)技術(shù)已經(jīng)通過開源社區(qū)開源。FAIR 主管Yann LeCun 把Facebook 未來的智能對話代理描述為一個(gè)版的M。
“它以M為基礎(chǔ),但是是完全自動(dòng)化和個(gè)性化的”,他說,“所以,M是你的朋友,但不是所有人的朋友,它只是你的M,你可以跟它進(jìn)行交互,它是完全個(gè)性化的,它了解你,你也了解它。并且,你能夠與它進(jìn)行的對話是有信息量的、有用的……這一個(gè)性化的助理,你能夠把它帶到任何地方,從理論上說,它也能在各個(gè)方面幫助你。從本質(zhì)上看,這要求具有人類水平的智能。”
LeCun 是 AI 和 ML 研究的。他被招到Facebook來建立和領(lǐng)導(dǎo)FAIR。正如一些先進(jìn)研究所暗示的那樣,目前的M項(xiàng)目的機(jī)器人并不是LeCun的終點(diǎn),它們是實(shí)現(xiàn)智能會(huì)話代理長期目標(biāo)的一個(gè)里程碑。 LeCun不能預(yù)測什么時(shí)候達(dá)到終目標(biāo),甚至可能在他的職業(yè)生涯中都不會(huì)成功。但每個(gè)階段式的里程碑都定義了需要構(gòu)建的硬件和軟件,以便未來的機(jī)器可以更像人類一樣推理。在每次的迭代中,功能變得越來越好。
教計(jì)算機(jī)像人類一樣推理面臨的阻礙是巨大的。憑借在該領(lǐng)域30年的研究經(jīng)驗(yàn),LeCun相信Facebook可以專注于10個(gè)科學(xué)問題,以更好地模擬人類的智力。他在我們訪問期間分享了其中的一些。
例如,在 3 到 5 個(gè)月的年紀(jì),嬰兒就學(xué)會(huì)了客體性的概念??腕w性是指兒童理解到物體是作為獨(dú)立實(shí)體而存在的,即使個(gè)體不能知覺到物體的存在,它們?nèi)匀皇谴嬖诘?。AI 研究人員還沒有建立一個(gè)能理解客體性概念的ML模型。
另一個(gè)例子,對于人工智能系統(tǒng)來說,“獎(jiǎng)杯不適合放在手提箱,因?yàn)樗×?rdquo;這樣的句子歧義太多,難以理解。人類很容易分辨出“它”指代的對象是手提箱,但是計(jì)算機(jī)很難理解其具體意義。
這是一類被稱為 Winograd Schema 的問題。去年夏天,在次年度Winograd Schema挑戰(zhàn)賽中,經(jīng)過好訓(xùn)練的計(jì)算機(jī)翻譯60句話,后正確率為58%。作為對比,人類的準(zhǔn)確率是 90%,完全隨機(jī)猜測準(zhǔn)確率是44% ,涉及到這些問題,計(jì)算機(jī)的能力目前更接近于猜測,而不是人類。
“事實(shí)證明,這種預(yù)測接下來會(huì)發(fā)生什么的能力是人工智能系統(tǒng)的一個(gè)重要部分,我們還不知道如何構(gòu)建,”LeCun說, “你如何訓(xùn)練機(jī)器來預(yù)測本質(zhì)上是不可預(yù)測的東西?這提出了一個(gè)非常具體的數(shù)學(xué)問題,那就是,當(dāng)預(yù)測的東西不是單一的東西,而是一系列的可能性時(shí),你怎么做ML?”
作為催化劑的硬件
如果這類的問題可以得到解決,那么10個(gè)科學(xué)問題也就能夠找到答案,進(jìn)而,像人類一樣進(jìn)行推理的ML模型就可以構(gòu)建。但是,要運(yùn)行非常、非常大的神經(jīng)網(wǎng)絡(luò),需要新的硬件——使用一個(gè)分布式計(jì)算架構(gòu),由非常高速的網(wǎng)絡(luò)進(jìn)行連接,并且,要運(yùn)行這些模型,還要有算法來進(jìn)行高度的優(yōu)化。這一切的基礎(chǔ)是,要訓(xùn)練這些模型需要一個(gè)新的專用的超級計(jì)算機(jī),它需要非常擅長處理數(shù)字運(yùn)算。
過去10年間,DL的發(fā)展,要得益于新的、專用化的硬件催化。雖然ML研究的理論在多年前就已經(jīng)得到驗(yàn)證,但是之前很少有研究者會(huì)追求ML。由于可以支撐研究的硬件能力總體上是不可用的,所以ML 在過去被視為“死胡同”。2011年,谷歌的大腦數(shù)據(jù)中心使用的16,000個(gè)CPU,通過觀看YouTube視頻識(shí)別貓和人的工作證明了ML的可行性,但這一配置也同時(shí)說明。谷歌以外,幾乎沒有研究團(tuán)隊(duì)能夠擁有如此強(qiáng)大的硬件資源,可以在這一領(lǐng)域展開研究。
突破來自2011年,當(dāng)時(shí)英偉達(dá)的研究者 Bryan Catanzaro 與斯坦福大學(xué)吳恩達(dá)的團(tuán)隊(duì)合作,一起證明了在深度學(xué)習(xí)上,12塊GPU就能實(shí)現(xiàn)2000塊CPU的性能。GPU硬件的商用加速了紐約大學(xué)、多倫多大學(xué)、蒙特利爾大學(xué)和瑞士AI實(shí)驗(yàn)室的研究,也證明了ML的實(shí)用性,重新喚起了研究者對這一領(lǐng)域的興趣。
英偉達(dá)的GPU在訓(xùn)練和運(yùn)行機(jī)器學(xué)習(xí)模型上性能更加強(qiáng)大,但是,還沒有達(dá)到LeCun所展望的私人助理所需要的量級。另外,在實(shí)驗(yàn)室中運(yùn)行ML模型,與在擁有17億用戶的 Facebook 中運(yùn)行ML模型,二者還是有差別的。
學(xué)術(shù)上的可行性必須與在Facebook 大規(guī)模的生產(chǎn)基礎(chǔ)設(shè)施上地運(yùn)行ML模型的可行性相平衡。這一數(shù)據(jù)處理量有多大,F(xiàn)acebook 沒有具體透露,但肯定是艾字節(jié)(exabytes)的。
雖然一些Facebook用戶知道社交網(wǎng)絡(luò)使用算法來選擇他們在其時(shí)間線中看到的帖子和廣告,但很少有人知道該公司已經(jīng)將ML應(yīng)用于與Facebook的許多交互中。對于每個(gè)用戶、時(shí)間軸帖子、評論、搜索、廣告、圖像和一些視頻,F(xiàn)acebook使用ML模型對用戶可能感興趣的點(diǎn)擊或評論的預(yù)測來動(dòng)態(tài)地排序。
建立這樣的神經(jīng)網(wǎng)絡(luò),有兩個(gè)階段。在階段使用大的標(biāo)記的樣本數(shù)據(jù)集或輸入和期望的輸出來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。在部署神經(jīng)網(wǎng)絡(luò)的第二階段中,使用其先前訓(xùn)練的參數(shù)來運(yùn)行推理、分類、識(shí)別和有條件地處理諸如時(shí)間線帖子等未知輸入。培訓(xùn)和推理可以在針對每個(gè)階段優(yōu)化的不同硬件平臺(tái)上運(yùn)行。
一切都起源于圖像識(shí)別
Facebook AI 程序的起點(diǎn)在2012年,當(dāng)時(shí)ML被用于理解用戶帖子中圖像的內(nèi)容和背景。應(yīng)用計(jì)算機(jī)視覺是一個(gè)非常廣泛的研究領(lǐng)域,也是ML在學(xué)術(shù)界的早期應(yīng)用示范。這與 GPU 顯著地提高圖像識(shí)別精度是同時(shí)發(fā)生的,下圖是年度的視覺識(shí)別挑戰(zhàn)賽Imagenet的結(jié)果。
Manohar Paluri 于2012年作為實(shí)習(xí)生加入 Facebook 的應(yīng)用計(jì)算機(jī)視覺團(tuán)隊(duì),當(dāng)時(shí)在使用的圖像識(shí)別是人臉識(shí)別。公司的搜索團(tuán)隊(duì)正在為 Facebook 的搜索引擎構(gòu)建新的語法結(jié)構(gòu),當(dāng)時(shí)的搜索引擎除了用戶添加的標(biāo)簽外,無法理解圖片的內(nèi)容。根據(jù) Paluri 的說法,應(yīng)用視覺團(tuán)隊(duì)是為“理解圖像中一切人類可以理解的東西,不需要讓計(jì)算機(jī)記住特定的使用場景,而要建立這樣一種方式,讓產(chǎn)品組里的開發(fā)人員可以利用機(jī)器學(xué)習(xí)模型找到他們自己的答案。”
神經(jīng)網(wǎng)絡(luò)是由多個(gè)簡單的、高度互連的單元(element)組成的計(jì)算系統(tǒng),基于他們對外部輸入的動(dòng)態(tài)回應(yīng)(dynamic-state response)來處理信息。神經(jīng)網(wǎng)絡(luò)被訓(xùn)練通過處理大量的標(biāo)記數(shù)據(jù)來理解特定的應(yīng)用情景。鳥的圖像被標(biāo)記為“bird”,汽車的圖像被標(biāo)記為“car”,等等。然后很快地,這個(gè)非常大的標(biāo)記圖像樣本被壓縮成像素處理。在這個(gè)訓(xùn)練階段,通用的 ML 軟件(例如 Torch 或 Tensorflow)被用于訓(xùn)練網(wǎng)絡(luò)來識(shí)別圖像中的物體。
在這種情況下,輸入層是有標(biāo)記圖像的一個(gè)大型集合;輸出層是將圖像描述為“car”或“not car”之類的標(biāo)簽。處理單元(通常稱為神經(jīng)元)的隱藏層產(chǎn)生 ML 軟件通過學(xué)習(xí)算法處理的中間值(權(quán)重),從而將權(quán)重與有標(biāo)簽的汽車圖像相關(guān)聯(lián)。然后,樣本數(shù)據(jù)被重新處理為不帶標(biāo)簽的數(shù)據(jù),以測試模型預(yù)測標(biāo)簽的準(zhǔn)確率。結(jié)果將被比較,然后校正誤差并反饋到神經(jīng)網(wǎng)絡(luò)中以調(diào)整算法,利用反向傳播過程來分配權(quán)重。這種迭代校正能得到更高的識(shí)別準(zhǔn)確率,因此當(dāng)圖像識(shí)別模型被用于識(shí)別新圖像中的內(nèi)容時(shí),模型在推理階段能夠更。
Paluri 的模型的個(gè)版本為 Facebook 用戶上傳的圖像用一組標(biāo)簽進(jìn)行標(biāo)記,例如自拍、食物、室內(nèi)、戶外、風(fēng)景等。這個(gè)圖像元數(shù)據(jù)(metadata)被作為節(jié)點(diǎn)集成到 Facebook 的 Open Graph。Open Graph 是 Facebook 對其頁面上共享的所有內(nèi)容的一個(gè)動(dòng)態(tài)對象存儲(chǔ)庫(dynamic object storage ),根據(jù)用戶的隱私設(shè)置實(shí)行訪問限制。用戶信息、文章、照片、音樂等等,幾乎所有的內(nèi)容都是 Open Graph 的存儲(chǔ)對象,并且與其他相關(guān)對象有鏈接。Paluri 的 ML 模型添加了元數(shù)據(jù)作為上傳者的評論和標(biāo)簽的補(bǔ)充,并提供當(dāng)沒有評論時(shí)的理解。
這個(gè)添加的元數(shù)據(jù)改進(jìn)了廣告投放和搜索結(jié)果,并且基于用戶的興趣權(quán)衡帖子的重要程度,優(yōu)化了新聞推送的發(fā)布順序。這導(dǎo)致用戶花更多時(shí)間瀏覽他們的時(shí)間線。
從公司的個(gè)圖像理解項(xiàng)目以來,F(xiàn)acebook 的圖像識(shí)別模型在識(shí)別照片中的物體,比如貓以外,獲得了顯著的提升,現(xiàn)在的圖像識(shí)別技術(shù)包括:分類、探測、分割、圖說(描述圖像中的內(nèi)容,比如照片中貓?jiān)谀膫€(gè)位置,旁邊有什么)。
自應(yīng)用計(jì)算機(jī)視覺團(tuán)隊(duì)開始工作以來,圖像識(shí)別已經(jīng)轉(zhuǎn)移到一個(gè)稱為 Lumos 的自助服務(wù)平臺(tái)上(開發(fā)團(tuán)隊(duì)不再監(jiān)督它)。今天,ML 圖像識(shí)別訓(xùn)練模型和其他模型分布在整個(gè) Facebook 的產(chǎn)品開發(fā)團(tuán)隊(duì)與 FB Learner 流程平臺(tái)中。FBLearner Flow 目前由 Facebook 的 40 多個(gè)產(chǎn)品開發(fā)團(tuán)隊(duì)使用,包括搜索、廣告和新聞源,用于訓(xùn)練由 FAIR 和應(yīng)用機(jī)器學(xué)習(xí)團(tuán)隊(duì)創(chuàng)建的模型。
建模是一個(gè)專業(yè)領(lǐng)域,需要高等數(shù)學(xué)、概率、線性代數(shù)和 ML 理論訓(xùn)練,這些都是大多數(shù)軟件開發(fā)人員沒有學(xué)過的東西。然而,這并不妨礙開發(fā)人員訓(xùn)練模型來執(zhí)行特定功能,例如使用新的分類器來創(chuàng)建和訓(xùn)練模型,具體說就是用各種潛水員圖像訓(xùn)練機(jī)器識(shí)別具有標(biāo)記的潛水者圖像。一旦訓(xùn)練好以后,模型和元數(shù)據(jù)被處理,就可供整個(gè) Facebook 內(nèi)部的開發(fā)人員使用。
Facebook 圖像識(shí)別工作現(xiàn)在主要用于區(qū)分兩大類型的圖片。一是暴力、仇恨言論和色情圖片。過去,用戶將這些圖片標(biāo)記為令人反感的,并將該信息匯入專門的信息管理小組。確認(rèn)為不良的圖像被管理團(tuán)隊(duì)成員刪除。后來,F(xiàn)acebook 開始建立 ML 模型來識(shí)別和刪除這些圖像。2015 年,ML 模型檢查并消除的這些圖像,比人類標(biāo)記的更多?,F(xiàn)在,信息管理小組開始獨(dú)立創(chuàng)建新的分類器,識(shí)別新類型的令人反感的材料,并重新訓(xùn)練模型實(shí)現(xiàn)自動(dòng)響應(yīng)。
另一個(gè)是出現(xiàn)在用戶新聞源中的記憶,那些通常出現(xiàn)在周年紀(jì)念日的蒙太奇。很大程度上,F(xiàn)acebook 的機(jī)器學(xué)習(xí)模型推斷的友誼關(guān)系和圖像往往是準(zhǔn)確的。
用神經(jīng)網(wǎng)絡(luò)進(jìn)行視頻識(shí)別
雖然圖像識(shí)別蓬勃發(fā)展,但視頻內(nèi)容識(shí)別和實(shí)現(xiàn)處于早期發(fā)展階段。更高的理解視頻的準(zhǔn)確性在技術(shù)上是可能的,但是如果不改進(jìn)基礎(chǔ)設(shè)施架構(gòu)性能,改進(jìn)算法或兩者同時(shí)改變,這是不可行的。與大多數(shù)商業(yè)應(yīng)用一樣,ML模型的實(shí)現(xiàn)是成本效益、速度和高精度的折中。
盡管如此,F(xiàn)AIR 和應(yīng)用計(jì)算機(jī)視覺團(tuán)隊(duì)還是實(shí)現(xiàn)了Facebook Live 視頻的實(shí)時(shí)視頻識(shí)別。
用戶和明星將各自預(yù)計(jì)和臨時(shí)想要發(fā)布的實(shí)時(shí)視頻流從他們的智能手機(jī)攝像機(jī)使用 Facebook Live 廣播到粉絲的新聞流。AI 推斷可以對實(shí)況視頻流進(jìn)行排名,個(gè)性化用戶的新聞流(newsfeed),消除視頻發(fā)布和分發(fā)產(chǎn)生的延遲。實(shí)時(shí)視頻個(gè)性化的服務(wù)非常有吸引力,這將再次增加用戶在Facebook 應(yīng)用中花費(fèi)的時(shí)間。
用圖像識(shí)別那么高的精度做視頻識(shí)別,目前還做不到。整個(gè) AI 研究圈還沒有找到一組共同的特征描述符,也就是一個(gè)幀中的小區(qū)域,這個(gè)小區(qū)域能夠用于檢測對象,以便對大范圍的視頻類型進(jìn)行分類。視頻識(shí)別包括動(dòng)作識(shí)別、顯著性(人類觀察者的注意力的焦點(diǎn)的識(shí)別)以及圖說的等價(jià)物(稱為視頻摘要)。
讓機(jī)器理解視頻內(nèi)容十分重要。為了加快這一領(lǐng)域的研究和開發(fā),F(xiàn)acebook 與學(xué)界和社區(qū)合作,開源其視頻識(shí)別軟件,發(fā)布一些研究成果并舉辦研討會(huì)。
視頻識(shí)別ML模型已經(jīng)在 Facebook中 得到了其他的應(yīng)用。 這些模型也被應(yīng)用于優(yōu)化視頻壓縮,提高重放質(zhì)量,同時(shí)減少播放視頻的帶寬。
神經(jīng)網(wǎng)絡(luò)和基礎(chǔ)設(shè)施:部署產(chǎn)業(yè)規(guī)模的低延遲 ML 模型
神經(jīng)網(wǎng)絡(luò)在研究和生產(chǎn)中的應(yīng)用有很大不同,因此學(xué)術(shù)研究中的神經(jīng)網(wǎng)絡(luò)和在產(chǎn)業(yè)中應(yīng)用的神經(jīng)網(wǎng)絡(luò),面對的困難也有很大不同。在數(shù)以萬計(jì)的機(jī)器上運(yùn)行具有超低延遲的推理模型,準(zhǔn)確地預(yù)測用戶將點(diǎn)擊哪些新聞故事與撰寫研究論文,在書面上證明準(zhǔn)確預(yù)測用戶響應(yīng)是可能的完全是兩碼事。
現(xiàn)有學(xué)術(shù)研究論文討論的是使用具有標(biāo)準(zhǔn)化分布的大數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò),其方法和結(jié)果也在非常開放的氛圍中由研究人員共享和協(xié)作。但是,F(xiàn)acebook的 Open Graph 的巨大規(guī)模對實(shí)際應(yīng)用這些研究帶來了問題。此外,要整個(gè)在現(xiàn)實(shí)中建造出類似大規(guī)模的基礎(chǔ)設(shè)施,為 17 億個(gè)人用戶提供推理服務(wù),也是一個(gè)非常艱巨的問題。正如 Facebook 核心機(jī)器學(xué)習(xí)工程總監(jiān) Hussein Mehanna 所說,“數(shù)據(jù)集變一下,你面對的幾乎就是一個(gè)完全不同的程序了”。
2014 年,Mehanna 在 Facebook 的廣告團(tuán)隊(duì)工作,使用 ML 預(yù)測用戶會(huì)點(diǎn)擊哪些廣告。按照學(xué)術(shù)研究標(biāo)準(zhǔn),這根本算不上是突破,但在 Facebook 的規(guī)模運(yùn)行這種預(yù)測算法實(shí)際上是一項(xiàng)非凡的成就。
Facebook 以前的數(shù)據(jù)分布不適合于神經(jīng)網(wǎng)絡(luò)。因此,數(shù)據(jù)需要通過預(yù)處理來提高預(yù)測的準(zhǔn)確性。但是,預(yù)測的準(zhǔn)確性只是問題的一部分,在實(shí)際應(yīng)用中,在讓用戶體驗(yàn)低延遲進(jìn)行大規(guī)模數(shù)據(jù)預(yù)測才行,而這是 ML 理論和基礎(chǔ)設(shè)施交叉的問題。通常,神經(jīng)網(wǎng)絡(luò)會(huì)簡化為一層或兩層,推理模型的軟件堆棧用本地代碼優(yōu)化。Mehanna 十分看重推理結(jié)果與其對 Facebook 平臺(tái)影響兩者之間的權(quán)衡:“只要再增加這些機(jī)器數(shù)量的 5% 就可能需要英特爾花好幾個(gè)月來完成。”
ML 預(yù)測平臺(tái)的個(gè)產(chǎn)業(yè)版 V1,在實(shí)際使用中為 Facebook 廣告團(tuán)隊(duì)帶來了比不使用 ML 更好的結(jié)果。 Mehanna 具體解釋了 AML(應(yīng)用機(jī)器學(xué)習(xí)小組)這一成就對 Facebook 商業(yè)上的影響:將收入提高1%、2%、3%,用戶的觀看時(shí)間就要增加1%、2%、3%,而對 Facebook 來說,每一個(gè)百分點(diǎn)的提高都是巨大的影響。
也許比盈利的增長和用戶新聞?dòng)^看時(shí)間增長更重要的是,V1 讓團(tuán)隊(duì)中很多對 ML 和神經(jīng)網(wǎng)絡(luò)抱有懷疑的人無話可說。作為一個(gè)平臺(tái),V1 在設(shè)計(jì)和建造時(shí)就是為了在公司的許多地方使用的,包括新聞源、搜索等各個(gè)產(chǎn)品團(tuán)隊(duì)。在使用成功后,下一個(gè)季度的時(shí)間里,F(xiàn)acebook 公司又使用了 15 種新的 ML 模型。如今,F(xiàn)acebook 產(chǎn)品團(tuán)隊(duì)中,有四分之一在使用 V1 的升級版 V2 平臺(tái),每個(gè)月有超過 100 萬個(gè)新的 ML 模型被測試。
V1 平臺(tái)使 ML 擴(kuò)展到廣告團(tuán)隊(duì)之外,讓 Zuckerberg 和 Schrep 意識(shí)到要增加對 AI 的投資。而優(yōu)化學(xué)習(xí)平臺(tái)又提高了建立和訓(xùn)練 ML 模型的迭代速度。這對研究人員來說無疑是一個(gè)大好的消息。Mehanna 解釋說,研究人員有一個(gè)想法,一天內(nèi)就可以做完但卻要等一個(gè)月才能知道結(jié)果,沒有什么比這更令人沮喪的了。
推理的優(yōu)化是獨(dú)立于模型的,因此它可以和其他模型一起使用。FAIR 和應(yīng)用機(jī)器學(xué)習(xí)團(tuán)隊(duì)的人將 ML 抽象為模塊,其他不了解 ML 的人也可以直接拿過來使用。因此,F(xiàn)acebook 內(nèi)部,F(xiàn)AIR 和應(yīng)用機(jī)器學(xué)習(xí)團(tuán)隊(duì)開發(fā)的 ML 模型也得到了越來越多的應(yīng)用。
這就是從研究到產(chǎn)品化的多階段 AI 管道的工作原理。模型是基于應(yīng)用機(jī)器學(xué)習(xí)小組的經(jīng)過驗(yàn)證的研究而構(gòu)建,用于解決通用性的問題。模型通過專門的 ML 技術(shù)和技術(shù)優(yōu)化在 Facebook 的基礎(chǔ)架構(gòu)上運(yùn)行,然后將其抽象,以便產(chǎn)品團(tuán)隊(duì)開發(fā)人員可以使用這些模型。后,這些模型被應(yīng)用于 FBLearner Flow 的各種產(chǎn)品中。
在我們訪問期間,Mehanna 經(jīng)常談?wù)撟鲅芯坎⑵滢D(zhuǎn)換為這些可用的產(chǎn)品。他總結(jié)了抽象的 ML 平臺(tái)在整個(gè)公司的影響,就像廚師 Emeril 說的那樣。“真的,人們只要打開罩子、按下開關(guān)——BAM!好了,全部都是現(xiàn)成的。”
大多數(shù)大公司至少有一個(gè)創(chuàng)新副總裁;Linkedin上,你可以發(fā)現(xiàn) IBM 有 34 名副總裁,頭銜里有“創(chuàng)新”的字樣。Facebook 一個(gè)也沒有,因?yàn)閯?chuàng)新已經(jīng)是整個(gè)工程文化的一部分。Facebook 的創(chuàng)新模式可以總結(jié)為緊迫性、定期迭代和定量展示進(jìn)度。新的開發(fā)項(xiàng)目可以使用實(shí)時(shí)數(shù)據(jù)進(jìn)行測試,因?yàn)?Facebook 構(gòu)建了一個(gè)屏障來保護(hù)用戶體驗(yàn)不受實(shí)驗(yàn)的影響。扎克伯格那句代表性的話的前半部分——“動(dòng)作快、有突破”(move fast and break things)在現(xiàn)實(shí)中得到了應(yīng)驗(yàn)。只不過,現(xiàn)在的 Facebook 打破的事情要比以前少得多。
“連續(xù)七年,令我擔(dān)憂的事情就是行動(dòng)速度在放緩,”Facebook 工程和基礎(chǔ)設(shè)施副總裁 Jay Parikh 說。
基礎(chǔ)設(shè)施、平臺(tái)硬件和平臺(tái)軟件使開發(fā)人員能夠快速行動(dòng)。Facebook Live 在原型開發(fā)出來 3 個(gè)月后就發(fā)布了。“動(dòng)作快”也被應(yīng)用到 AI 這個(gè)具有相同緊急性的下一代平臺(tái),只是 AI 被給予了更長的時(shí)間。這是因?yàn)?AI 作為一個(gè)平臺(tái),與移動(dòng)端相比還不那么成熟。實(shí)時(shí)視頻內(nèi)容理解、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)這些有前途的研究要投入到產(chǎn)業(yè)應(yīng)用,還有一些問題需要解決。還需要設(shè)計(jì)、驗(yàn)證和構(gòu)建新的硬件架構(gòu)。
Facebook 屬于一個(gè)非常小的隊(duì)伍,這個(gè)隊(duì)伍里的成員還有谷歌、IBM 和微軟。這些公司都具有深厚的專業(yè)知識(shí),并已開始大規(guī)模的應(yīng)用 ML。雖然這些公司擁有巨大的人才和資源,AI 社區(qū)需要集體發(fā)展才能加快進(jìn)步。所有這些公司都開源了他們的軟件,公開研究,在會(huì)議上發(fā)言,與大學(xué)和研究機(jī)構(gòu)合作。這種開源與協(xié)作是十分重要的,因此相互競爭的 Facebook 和谷歌才會(huì)有研究人員聯(lián)合發(fā)表論文。
開放性對吸引人才也有用。Facebook 的平臺(tái)吸引了很多 ML 工程師,因?yàn)樗麄冊?Facebook 可以建立由10 億人使用的 ML 系統(tǒng)。但是,開放性對研究人才招聘更為重要,因?yàn)榘l(fā)表的研究論文是衡量研究人員職業(yè)生涯的標(biāo)準(zhǔn)。工程師只有與外部同行自由溝通,才能快速完成他們的工作。
“哪家公司壟斷都不好,你必須成為廣大研發(fā)社區(qū)的一部分,”Facebook 人工智能研究總監(jiān) LeCun 說:“吸引人的是的同事。實(shí)驗(yàn)室里有影響力的人越多,對他人的吸引力就越大。事情開始是難的,你必須吸引幾個(gè)人,這幾個(gè)人必須要吸引其他年輕人。還好我們這個(gè)階段很快就過去了。”
Facebook 基礎(chǔ)設(shè)施建立在商用 X86 硬件上。Parikh 被委派了一個(gè)任務(wù),輔助將大型基礎(chǔ)設(shè)施公司和供應(yīng)商(如 AT&T,高盛,谷歌,IBM,英特爾和微軟)組織到一個(gè)稱為“開放計(jì)算項(xiàng)目”的開源硬件社區(qū)當(dāng)中。該組織促進(jìn)標(biāo)準(zhǔn)化計(jì)算和通信硬件,滿足平臺(tái)公司非常具體的大規(guī)模需求,減少數(shù)據(jù)中心資本和運(yùn)營成本。
去年 12 月,F(xiàn)acebook 通過發(fā)布商品硬件來源的 Big Sur AI 計(jì)算服務(wù)器規(guī)范,將開源硬件模型應(yīng)用于 AI 硬件。Big Sur 采用 Nvidia的GPU構(gòu)建,是個(gè)用于大規(guī)模生產(chǎn)數(shù)據(jù)中心工作負(fù)載的商用AI計(jì)算服務(wù)器,有 44 Teraflops 的 ML 計(jì)算能力。
Facebook 及其開源合作伙伴希望影響用于在智能手機(jī)和數(shù)據(jù)中心運(yùn)行推理的AI優(yōu)化硬件的開發(fā),并優(yōu)化ML培訓(xùn)階段的基礎(chǔ)設(shè)施。除非有像 X86 和 ARM架構(gòu)一樣的生態(tài)系統(tǒng),一個(gè)速度更快的新型 AI 芯片也只能成為部分解決方案,短瞬即逝。因此,盡管 Facebook、谷歌、微軟和 IBM 的數(shù)據(jù)中心是硬件供應(yīng)商的重要業(yè)務(wù),但 Facebook 還是希望讓更多的成功 ML 社群參與進(jìn)來,激勵(lì)英特爾、英偉達(dá)和 Qualcomm 優(yōu)化硬件。
Facebook 應(yīng)用機(jī)器學(xué)習(xí)小組主任 Joaquin Candela 喜歡用一個(gè)比喻描述 Facebook 迭代、學(xué)習(xí)和創(chuàng)新 AI 目標(biāo)的速度。“如果你砍掉一個(gè)螺旋槳飛機(jī)的發(fā)動(dòng)機(jī),它會(huì)繼續(xù)飛行,但砍掉一個(gè)發(fā)動(dòng)機(jī)后,像 F16 這樣的現(xiàn)代噴射機(jī)就不穩(wěn)定了,”她說:“你需要兩個(gè)發(fā)動(dòng)機(jī)和一個(gè)控制系統(tǒng)將不穩(wěn)定的系統(tǒng)變穩(wěn)定。而且你還需要以超快的速度進(jìn)行操作。在 F16 上面你能實(shí)現(xiàn)螺旋槳飛機(jī)永遠(yuǎn)也做不到的事情。”
在花了一些時(shí)間與 Facebook 的AI工程主管和管理高層打交道后,F(xiàn)16 的隱喻就感覺很自然了。這些人都深信,減緩創(chuàng)新的步伐,讓今天的 Facebook 平臺(tái)繼續(xù)滑行,終將會(huì)結(jié)束公司迄今為止連續(xù) 12 年的成功飛行。 他們必須重新創(chuàng)建 Facebook,讓平臺(tái)擁有類似人類的智能,為用戶提供更靈活和更快的體驗(yàn)。(作者:Steven Max Patterson ,新智元編譯:弗格森 李靜怡 劉小芹)
(原標(biāo)題:Facebook AI 野心與LeCun的小目標(biāo):擁有類人智能的對話助理)