在谷歌發(fā)布TPU一年后,這款機(jī)器學(xué)習(xí)定制芯片的神秘面紗終于被揭開(kāi)了。
昨日,谷歌資深硬件工程師Norman Jouppi刊文表示,谷歌的專(zhuān)用機(jī)器學(xué)習(xí)芯片TPU處理速度要比GPU和CPU快15-30倍(和TPU對(duì)比的是英特爾Haswell CPU以及Nvidia Tesla K80 GPU),而在能效上,TPU更是提升了30到80倍。
從這次發(fā)布的測(cè)試結(jié)果來(lái)看,TPU似乎已經(jīng)超出了業(yè)界的預(yù)期,但是藏在這一芯片背后的內(nèi)部架構(gòu)究竟有什么秘密呢,我們從Jouppi此前發(fā)布的論文當(dāng)中,可以找到答案。
據(jù)雷鋒網(wǎng)了解,早在四年前,谷歌內(nèi)部就開(kāi)始使用消耗大量計(jì)算資源的深度學(xué)習(xí)模型,這對(duì)CPU、GPU組合而言是一個(gè)巨大的挑戰(zhàn),谷歌深知如果基于現(xiàn)有硬件,他們將不得不將數(shù)據(jù)中心數(shù)量翻一番來(lái)支持這些復(fù)雜的計(jì)算任務(wù)。
所以谷歌開(kāi)始研發(fā)一種新的架構(gòu),Jouppi稱(chēng)之為“下一個(gè)平臺(tái)”。Jouppi曾是MIPS處理器的首席架構(gòu)師之一,他開(kāi)創(chuàng)了內(nèi)存系統(tǒng)中的新技術(shù)。三年前他加入谷歌的時(shí)候,公司上下正在用CPU、GPU混合架構(gòu)上來(lái)進(jìn)行深度學(xué)習(xí)的訓(xùn)練。
Jouppi表示,谷歌的硬件工程團(tuán)隊(duì)在轉(zhuǎn)向定制ASIC之前,早期還曾用FPGA來(lái)解決廉價(jià)、高效和高性能推理的問(wèn)題。但他指出,F(xiàn)PGA的性能和每瓦性能相比ASIC都有很大的差距。他解釋說(shuō),“TPU可以像CPU或GPU一樣可編程,它可以在不同的網(wǎng)絡(luò)(卷積神經(jīng)網(wǎng)絡(luò),LSTM模型和大規(guī)模完全連接的模型)上執(zhí)行CISC指令,而不是為某個(gè)專(zhuān)用的神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì)的。一言以蔽之,TPU兼具了CPU和ASIC的有點(diǎn),它不僅是可編程的,而且比CPU、GPU和FPGA擁有更高的效率和更低的能耗。
TPU的內(nèi)部架構(gòu)
該圖顯示了TPU上的內(nèi)部結(jié)構(gòu),除了外掛的DDR3內(nèi)存,左側(cè)是主機(jī)界面。指令從主機(jī)發(fā)送到隊(duì)列中(沒(méi)有循環(huán))。這些激活控制邏輯可以根據(jù)指令多次運(yùn)行相同的指令。
TPU并非一款復(fù)雜的硬件,它看起來(lái)像是雷達(dá)應(yīng)用的信號(hào)處理引擎,而不是標(biāo)準(zhǔn)的X86衍生架構(gòu)。Jouppi說(shuō),盡管它有眾多的矩陣乘法單元,但是它GPU更精于浮點(diǎn)單元的協(xié)處理。另外,需要注意的是,TPU沒(méi)有任何存儲(chǔ)的程序,它可以直接從主機(jī)發(fā)送指令。
TPU上的DRAM作為一個(gè)單元并行運(yùn)行,因?yàn)樾枰@取更多的權(quán)重以饋送到矩陣乘法單元(算下來(lái),吞吐量達(dá)到了64,000)。Jouppi并沒(méi)有提到是他們是如何縮放(systolic)數(shù)據(jù)流的,但他表示,使用主機(jī)軟件加速器都將成為瓶頸。
256×256陣列縮放數(shù)據(jù)流引擎,經(jīng)過(guò)矩陣乘法積累后實(shí)現(xiàn)非線(xiàn)性輸出
從第二張圖片可以看出,TPU有兩個(gè)內(nèi)存單元,以及一個(gè)用于模型中參數(shù)的外部DDR3 DRAM。參數(shù)進(jìn)來(lái)后,可從頂部加載到矩陣乘法單元中。同時(shí),可以從左邊加載激活(或從“神經(jīng)元”輸出)。那些以收縮的方式進(jìn)入矩陣單元以產(chǎn)生矩陣乘法,它可以在每個(gè)周期中進(jìn)行64,000次累加。
毋庸置疑,谷歌可能使用了一些新的技巧和技術(shù)來(lái)加快TPU的性能和效率。例如,使用高帶寬內(nèi)存或混合3D內(nèi)存。然而,谷歌的問(wèn)題在于保持分布式硬件的一致性。
TPU對(duì)比Haswell處理器
在和英特爾“Haswell”Xeon E5 v3處理器來(lái)的對(duì)比中,我們可以看到,TPU各方面的表現(xiàn)都要強(qiáng)于前者。
在Google的測(cè)試中,使用64位浮點(diǎn)數(shù)學(xué)運(yùn)算器的18核心運(yùn)行在2.3 GHz的Haswell Xeon E5-2699 v3處理器能夠處理每秒1.3 TOPS的運(yùn)算,并提供51GB/秒的內(nèi)存帶寬;Haswell芯片功耗為145瓦,其系統(tǒng)(擁有256 GB內(nèi)存)滿(mǎn)載時(shí)消耗455瓦特。
相比之下,TPU使用8位整數(shù)數(shù)學(xué)運(yùn)算器,擁有256GB的主機(jī)內(nèi)存以及32GB的內(nèi)存,能夠?qū)崿F(xiàn)34GB/秒的內(nèi)存帶寬,處理速度高達(dá)92 TOPS ,這比Haswell提升了71倍,此外,TPU服務(wù)器的熱功率只有384瓦。
除此之外,谷歌還測(cè)試了CPU、GPU和TPU處理不同批量大小的每秒推斷的吞吐量。
如上圖所示,在小批量任務(wù)中(16),Haswell CPU的響應(yīng)時(shí)間接近7毫秒,其每秒提供5482次推斷(IPS),其可以實(shí)現(xiàn)的最大批量任務(wù)(64)每秒則可以完成13194次推斷,但其響應(yīng)時(shí)間為21.3毫秒。相比之下,TPU可以做到批量大小為200,而響應(yīng)時(shí)間低于7毫秒,并提供225000個(gè)IPS運(yùn)行推理基準(zhǔn),是其峰值性能的80%,當(dāng)批量大小為250,響應(yīng)時(shí)間為10毫秒。
不過(guò)需要注意的是,谷歌所測(cè)試的Haswell Xeon處理器似乎也不能完全說(shuō)明問(wèn)題,英特爾Broadwell Xeon E5 v4處理器和最新的“Skylake”Xeon E5,每核心時(shí)鐘(IPC)的指令比這款處理器提升了約5%。在Skylake是28核,而Haswell為18核,所以Xeon的總體吞吐量可能會(huì)上升80%。當(dāng)然,這樣的提升與TPU相比仍有差距。
最后雷鋒網(wǎng)需要強(qiáng)調(diào)的是,TPU是一個(gè)推理芯片,它并非是要取代GPU,可以確定的是,TPU與CPU一起使用對(duì)訓(xùn)練分析更加有益。但對(duì)于CPU制造商而言,如何研發(fā)出像ASIC一樣兼顧性能和能效的芯片是現(xiàn)在以及未來(lái)要做的。
Jouppi表示谷歌TPU已經(jīng)開(kāi)始出貨,而英特爾這些芯片商也將面臨更大的挑戰(zhàn)。
- 旅行箱新潮流!小米米家前開(kāi)蓋旅行箱18英寸眾籌,僅369元,顛覆傳統(tǒng)旅行箱設(shè)計(jì)
- Meta攜手Oakley揭幕:智能眼鏡新品來(lái)襲,科技與時(shí)尚碰撞,未來(lái)感一觸即發(fā)
- 蘋(píng)果 Apple Watch Ultra 3 升級(jí)曝光:衛(wèi)星連接、5G功能加持,智能手表再升級(jí)!
- Android XR眼鏡XREAL Project Aura震撼登場(chǎng):雙芯驅(qū)動(dòng),70°FOV,打破虛擬現(xiàn)實(shí)邊界
- 字節(jié)跳動(dòng)否認(rèn)與老鳳祥聯(lián)手打造未來(lái)科技眼鏡:揭秘真實(shí)合作情況
- 世俱杯見(jiàn)證海信巨屏魅力,百吋風(fēng)暴席卷球場(chǎng)內(nèi)外
- 小米新品:智能晾衣機(jī)2 Pro,省力省心不費(fèi)錢(qián),眾籌價(jià)僅1799元,補(bǔ)貼后僅需1401.65元!
- 小米洗衣機(jī)振動(dòng)調(diào)控技術(shù)突破,脫水動(dòng)態(tài)優(yōu)化達(dá)國(guó)際領(lǐng)先水準(zhǔn),洗衣新體驗(yàn)
- 安克新作:海外發(fā)布eufy智能顯示屏E10,簡(jiǎn)約設(shè)計(jì)兼顧安防功能,續(xù)航力超群
- 租房獨(dú)居必備:小米智能貓眼 2,價(jià)格新低,安全守護(hù)不再愁
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。