【中國智能制造網(wǎng) 企業(yè)動態(tài)】Facebook近日十分漂亮地在媒體上做了一次公關(guān),目前為止,已經(jīng)有超過8家數(shù)得上名字的國外科技媒體,報道了這家公司位于Prineville的第二家數(shù)據(jù)中心,以及Facebook想要推廣的主角——開源硬件BigSur。
深入Facebook“大腦”
自去年以來,F(xiàn)acebook的用戶和數(shù)據(jù)都大幅增長,Prineville數(shù)據(jù)中心也隨之?dāng)U建,增添了更多的高性能服務(wù)器,以支撐這家公司在大數(shù)據(jù)處理方面的需求,尤其是分析圖像和視頻。
現(xiàn)在,F(xiàn)acebook在Prineville新建的第二家數(shù)據(jù)中心面積已經(jīng)超過了9萬平方米,大樓地排成一排,好讓來自西北干燥而涼爽的夏季風(fēng)吹過。
從Prineville新數(shù)據(jù)中心樓頂看到的風(fēng)景。選址Prineville是看中了這里的沙漠氣候和干燥的空氣,有利于數(shù)據(jù)中心工作。
Prineville數(shù)據(jù)中心外的太陽能板,負(fù)責(zé)為數(shù)據(jù)中心的辦公室供電。
針對散熱優(yōu)化的架構(gòu)
Facebook的BigSur服務(wù)器基于高性能圖形處理器(GPU)設(shè)計。這些芯片為AI技術(shù)的進(jìn)步提供了支持。軟件已經(jīng)能更好地理解圖像和語言,支撐更加智能的助理。
每臺BigSur服務(wù)器配有8個NvidaTeslaM40GPU(每個M40有3072CUDA計算核),2個CPU和SSD存儲及熱插拔風(fēng)扇,計算速度達(dá)到40petaflop。
BigSur熒光綠的保護(hù)膜利用Venturi效應(yīng)還具有加速空氣流通的性能。
Facebook初想擴(kuò)建數(shù)據(jù)中心時,當(dāng)時市面上還沒有合適的硬件,因此Facebook選擇了自己研發(fā)。然后他們找到了Nvidia。
Nvidia的副總裁IanBuck說,他們次訓(xùn)練單個神經(jīng)網(wǎng)絡(luò)花了3個月。Ian負(fù)責(zé)Nvidia公司的加速計算,與Facebook的AI團(tuán)隊、數(shù)據(jù)中心都有緊密合作。用新一版NvidiaGPU升級訓(xùn)練硬件后,所需時間減少到了1個月。Ian表示,現(xiàn)在使用M40的BigSur不到一天就能訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)。
研發(fā)這些服務(wù)器的工程師KevinLee說,BigSur幫助Facebook的研究員使用更多的數(shù)據(jù)來更快地訓(xùn)練軟件。“這些服務(wù)器是專門用于AI研究和機器學(xué)習(xí)的,GPU能將圖片分割成極小的碎片再一次性將其全部處理。”
由于GPU非常耗能,F(xiàn)acebook只能將其組裝得更加分散,以免GPU過熱,為冷卻系統(tǒng)增加負(fù)擔(dān),同時增加能耗。將近2.2米高的機架,只放了4臺BigSur服務(wù)器。
Facebook希望用更多更加強大的部件提升BigSur的性能。Lee表示,BigSur系統(tǒng)是模塊化的,因此能夠支持更新版本的GPU、服務(wù)器和機架設(shè)計。眼下,在正式投入使用前,F(xiàn)acebook的數(shù)據(jù)科學(xué)家和AI研究員能夠登陸Prineville的服務(wù)器,訪問BigSur來訓(xùn)練離線算法。Lee說,這些算法有時要訓(xùn)練好幾周甚至是幾個月。
Lee拒絕透露配置服務(wù)器的具體數(shù)量,但表示有“thousands”GPU在工作。
領(lǐng)跑機器學(xué)習(xí)軍備競賽
Facebook不是建造大型數(shù)據(jù)中心或是使用大量GPU支持機器學(xué)習(xí)的公司。微軟、谷歌,以及百度都在使用GPU幫助深度學(xué)習(xí)研究。
Facebook的不同之處在于,它開源了BigSur和其他服務(wù)器的設(shè)計,以及BigSur數(shù)據(jù)中心的計劃。Facebook將這些信息發(fā)布在OpenComputeProject,這是Facebook于2011年成立的非營利性項目,旨在鼓勵計算機公司一起研發(fā)成本低、效率高的數(shù)據(jù)中心硬件設(shè)施。該項目被認(rèn)為能幫助亞洲硬件公司的發(fā)展,也擠占了戴爾、惠普等傳統(tǒng)供應(yīng)商的市場份額。
Facebook的AI研究負(fù)責(zé)人YannLeCun說,在今年早期開源BigSur時,他就相信開源設(shè)計能使更多機構(gòu)參與制造強大的機器學(xué)習(xí)基礎(chǔ)設(shè)施,從而加快該領(lǐng)域的發(fā)展。
不過,谷歌和微軟也都參與了OpenComputeProject項目,如果它們愿意,可以建造自己的BigSur。
此外,許多公司正在努力為深度學(xué)習(xí)研發(fā)新的芯片。谷歌在5月份宣布,已經(jīng)開始使用自己設(shè)計的芯片TPU來支持深度學(xué)習(xí)軟件的研發(fā),如語音識別。不過,據(jù)Lee表示,TPU更適合運行已經(jīng)訓(xùn)練過的算法,而不是用于初始訓(xùn)練階段,而這一階段是BigSur服務(wù)器要做的。
而且,現(xiàn)在谷歌正在研發(fā)第二代芯片。谷歌CEOPichai表示年底即將推出Assistant,已經(jīng)有上億人在測試。相比之下,F(xiàn)acebook的Messager平臺雖然表現(xiàn)不錯,但在用戶數(shù)量以及由此造成的數(shù)據(jù)收集方面還稍遜于谷歌。
AI是Facebook未來三大支柱之一。CEOMarkZuckerberg在4月份舉辦的大會上介紹了公司未來10年的發(fā)展藍(lán)圖,并表示Facebook.com只是公司邁出的步,第二步是開發(fā)多個移動應(yīng)用。Zuckerberg希望Facebook10年后,能在互聯(lián)網(wǎng)連接、無人機、AR、VR和AI方面占據(jù)。
對于Facebook來說,目前巨頭機器學(xué)習(xí)競爭激烈,開源硬件有著巨大的好處:首先,開源能樹立名聲,從而吸引更多的人才加入Facebook;其次,使用BigSur設(shè)計的其他中小公司可以提升自己的服務(wù),這樣Facebook就可能外包業(yè)務(wù),得到更好的結(jié)果同時進(jìn)一步節(jié)省開支;第三,如果有足夠多的人選擇購買硬件設(shè)備,這種規(guī)模經(jīng)濟(jì)或許能進(jìn)一步降低Facebook在硬件上的支出。
重要的是,沒有什么比開源能更好更快地改善設(shè)計結(jié)構(gòu)和性能方案了,開源協(xié)作有助于創(chuàng)新設(shè)計,這也將為Facebook在機器學(xué)習(xí)硬件上帶來優(yōu)勢。
當(dāng)被問及Facebook是否正在研發(fā)自己的芯片,Lee說公司“正在考慮”。