極客網(wǎng)·極客說8月27日 在上海舉行的華為數(shù)據(jù)存儲(chǔ)AI SSD新品發(fā)布會(huì)上,華為公司副總裁、數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周躍峰博士發(fā)布面向AI時(shí)代的高端SSD——Huawei OceanDisk EX/SP/LC系列化新品,旨在打破傳統(tǒng)AI存儲(chǔ)器當(dāng)前的性能和容量瓶頸,提升AI訓(xùn)練效率和推理體驗(yàn),樹立AI存儲(chǔ)器領(lǐng)域新標(biāo)桿。
周躍峰博士指出,近年來業(yè)界在投入大量的AI基礎(chǔ)設(shè)施之后,才發(fā)現(xiàn)仍然存在很多困難和挑戰(zhàn),包括訓(xùn)練數(shù)據(jù)量太大、推理體驗(yàn)差、token成本居高不下等。AI未來要能夠?qū)崿F(xiàn)商業(yè)正循環(huán),需要從整體系統(tǒng)的效率以及性價(jià)比綜合考慮、綜合優(yōu)化。而在效率方面,業(yè)界又碰到兩個(gè)大瓶頸:一是內(nèi)存墻(行業(yè)有時(shí)也叫顯存墻),二是容量墻。華為在業(yè)界率先定義AI SSD并發(fā)布系列新品,就是希望通過AI SSD打破性能和容量的瓶頸,讓AI真正商業(yè)正循環(huán)。
以下是周躍峰博士演講全文:
謝謝各位現(xiàn)場(chǎng)和線上的嘉賓、專家。
我們幾周前發(fā)布UCM之后,今天我們發(fā)布AI SSD,實(shí)際上這兩個(gè)產(chǎn)品一軟一硬,協(xié)同使用,效果一定會(huì)更好。
大家知道在AI時(shí)代,我們這幾年方方面面都在討論,都在投入AI基礎(chǔ)設(shè)施,在投入大量的AI基礎(chǔ)設(shè)施之后,我們發(fā)現(xiàn)很多困難和挑戰(zhàn)。
第一,數(shù)據(jù)量實(shí)在太大了。訓(xùn)練越多參數(shù)的模型,我們需要越多的語料數(shù)據(jù),這些數(shù)據(jù)如何存得下,用得好,而且效率很好,成本很低,這對(duì)我們來說是一個(gè)挑戰(zhàn)。
同時(shí),今天我們?cè)絹碓揭庾R(shí)到AI生產(chǎn)過程就是推理,推理的體驗(yàn)也是巨大的挑戰(zhàn)。過去我們只是簡(jiǎn)單的問答,短序列推理,現(xiàn)在,越來越多的多模態(tài)融合長(zhǎng)序列的推理,推理首token的時(shí)延成為非常重要的體驗(yàn)指標(biāo),很多時(shí)候我需要等很長(zhǎng)時(shí)間,才有結(jié)果。同時(shí)當(dāng)很多人使用的時(shí)候,并發(fā)性就是說每秒一定時(shí)間內(nèi)能處理的token數(shù)也是很重要的指標(biāo),恰恰我們碰到了一些困難。今天我們很多模型的網(wǎng)站,一些APP使用,發(fā)現(xiàn)體驗(yàn)很差。
另外token成本居高不下。今天我聽國(guó)家數(shù)據(jù)局一個(gè)統(tǒng)計(jì),截至今年6月底,日均Token消耗量已經(jīng)突破30萬億,1年半時(shí)間增長(zhǎng)了300多倍,所以說token數(shù)的消耗,應(yīng)該越來越多,對(duì)我們基礎(chǔ)設(shè)施的成本是巨大的考驗(yàn)。
因此,AI未來要能夠?qū)崿F(xiàn)商業(yè)的正循環(huán),我們要從整體系統(tǒng)的效率以及性價(jià)比綜合考慮和綜合優(yōu)化。大家知道今天我們?cè)谛史矫妫龅絻蓚€(gè)很大的困難:第一內(nèi)存墻,行業(yè)有時(shí)也叫顯存墻;另外一個(gè)是容量墻。這已經(jīng)成為我們主要的瓶頸。
比如在某些國(guó)產(chǎn)大模型訓(xùn)推一體機(jī)里,有8張卡,往往它的顯存或者HBM大小是一定的,我們今天發(fā)現(xiàn)參數(shù)量很大的模型,推不動(dòng)。這當(dāng)中也訓(xùn)練不了,大家知道我們要微調(diào)一個(gè)671B的模型,顯存容量需要超過13.4 TB,在很多一體機(jī)我們訓(xùn)練不動(dòng),我們?cè)撛趺崔k?因?yàn)橐粋€(gè)盒子里面的資源畢竟有限,同時(shí)我們看到推理的首token時(shí)延,中國(guó)大量APP比西方領(lǐng)先模型,時(shí)延是他們的兩倍,我們每秒的token數(shù)量,以及所能處理能力的數(shù)量也是他們的1/10左右,主要差別在于我們基礎(chǔ)設(shè)施的投資和效率。
我們?cè)谟?xùn)練大模型的時(shí)候,需要大量的數(shù)據(jù)。大家知道訓(xùn)練一個(gè)671B大模型,我們需要的原始語料數(shù)據(jù)是3.5PB,因此越來越多的語料消耗了我們大量存儲(chǔ)空間,這意味著空間和電力的消耗。
在今年上海人工智能大會(huì)當(dāng)中,AI之父杰弗里·辛頓談到一個(gè)觀點(diǎn),他說“人類智能無法超越或者戰(zhàn)勝機(jī)器智能,原因是機(jī)器擁有永久的記憶”,可見AI的能力不僅僅取決于處理系的思考能力,也取決于我們整個(gè)系統(tǒng)的記憶能力,因此存儲(chǔ)在整個(gè)AI系統(tǒng)當(dāng)中,以及它的優(yōu)化是非常的至關(guān)重要。
今天我們?cè)跇I(yè)界率先定義AI SSD,相對(duì)過去普遍的SSD,它的區(qū)別就在于它的高性能和大容量,我們希望通過AI SSD打破性能和容量的瓶頸。
我們定義AI SSD有兩類:第一類AI SSD是助力擴(kuò)展HBM,對(duì)我們高帶寬、高性能的內(nèi)存進(jìn)行相關(guān)的擴(kuò)展,在推理的數(shù)據(jù)當(dāng)中可以分級(jí)緩存。它的特征就是帶寬大于14.4GB/s,同時(shí)時(shí)延小于10微秒,這是高性能這塊。
第二類AI SSD主要助力打破容量瓶頸,替換HDD,就是替代機(jī)械硬盤在過去AI數(shù)據(jù)中心當(dāng)中的使用,它的特征就是單盤容量大于30TB,同時(shí)帶寬大于14.4GB/s,意味著它不僅要有巨大的容量密度,同時(shí)性能還不至于太低。
這兩類SSD,我們統(tǒng)稱為AI SSD,我們希望這兩類SSD能夠幫助我們突破顯存墻和容量墻。今天我們將發(fā)布三款產(chǎn)品:
前兩款是高性能的AI SSD,用于突破內(nèi)存墻,對(duì)HBM進(jìn)行更好的擴(kuò)展:一是我們的OceanDisk EX 560,這是極致性能AI SSD盤。它的IOPS將達(dá)到1500k,它隨機(jī)寫時(shí)延是7微秒,它的DWPD是60,這是一個(gè)性能極其強(qiáng)大的SSD盤。同時(shí),我們?cè)诤芏鄨?chǎng)景,為了讓系統(tǒng)更加經(jīng)濟(jì),我們也推出高性能盤,就是我們OceanDisk SP 560,它是高性能盤,在很多推理系統(tǒng)當(dāng)中,性能足夠了。它的IOPS是600k,它的隨機(jī)寫時(shí)延7微秒,DWPD是1,因此這個(gè)盤在很多推理系統(tǒng)當(dāng)中可能更為經(jīng)濟(jì)。第一類OceanDisk EX 560計(jì)劃年底提供商用,OceanDisk SP 560現(xiàn)在已經(jīng)具備批量商用的能力,事實(shí)上我們很多客戶,包括互聯(lián)網(wǎng)、醫(yī)療、金融客戶已經(jīng)在使用這類產(chǎn)品,得到了很好的效果。
第三款產(chǎn)品是OceanDisk LC 560系列具備超大容量盤,而且它的帶寬并不低,單盤物理容量有61/122/245 TB,其中61TB的重構(gòu)時(shí)間,從過去一般的1.5天可以縮短至8小時(shí),另外它的順序讀寫帶寬達(dá)到了14.7GB/s。這是既具備很好性能又具備超高容量密度的盤,單盤容量可以達(dá)到245TB,是業(yè)界最大的單盤容量。我們希望這類盤能夠普遍用于集群訓(xùn)練中心當(dāng)中去,幫助解決語料數(shù)據(jù)存不下,用不好的問題。
接下去我列舉幾個(gè)場(chǎng)景,如何讓AI SSD,幫助我們AI系統(tǒng)有更好的商業(yè)正循環(huán)。首先我們看一下集群訓(xùn)練場(chǎng)景,這個(gè)場(chǎng)景我們需要大量的語料,作為我們訓(xùn)練的數(shù)據(jù),不僅僅要存得下,同時(shí)要避免GPU、NPU不至于一直在等待過程中,快速能夠給它提供數(shù)據(jù),讓我們操作更加高效,我們認(rèn)為在這個(gè)場(chǎng)景當(dāng)中,我們OceanDisk LC系列的盤,可以很好解決容量的問題。
舉個(gè)例子,假設(shè)在一個(gè)訓(xùn)練系統(tǒng)當(dāng)中,我們需要250PB的數(shù)據(jù)集容量,那么用普遍的機(jī)械硬盤,要超過10000塊的24TB機(jī)械硬盤。如果我們用122TB每單盤容量的AI SSD盤,我們只需要大概超過2000塊就可以了。但是,不僅僅是這個(gè)盤的數(shù)量、空間,更為重要的是我們數(shù)據(jù)預(yù)處理的效率可以提升6.6倍,我們空間占用將減少85.2%,我們能耗將減少38.6%,這是一個(gè)巨大的成本節(jié)約。當(dāng)然這里面,我們沒有考慮SSD盤相對(duì)機(jī)械硬盤,它的壽命這個(gè)因素,以及在運(yùn)維等人力上的節(jié)?。ň庉嬜ⅲ喝绻紤]進(jìn)去SSD盤的優(yōu)勢(shì)更明顯)。
第二個(gè)場(chǎng)景我們想舉例的是集群推理場(chǎng)景,尤其在大型AI數(shù)據(jù)中心,比如說互聯(lián)網(wǎng)和運(yùn)營(yíng)商他們所構(gòu)建的。在這個(gè)過程當(dāng)中,我們希望引入超高性能的AI SSD,倍數(shù)級(jí)的提升推理效率。我們?cè)谶@里面也舉個(gè)例子,這個(gè)過程當(dāng)中,我們使用OceanDisk SP 560 AI SSD盤,我們可以看到,可推理序列的長(zhǎng)度將提升2.5倍,我們有效擴(kuò)展了HBM的能力,而且是低成本。
除此之外,首token的時(shí)延也可以減少73%,token的吞吐率提升2.7倍,這些數(shù)據(jù)都在我們實(shí)驗(yàn)室和客戶真實(shí)商業(yè)場(chǎng)景當(dāng)中得到了印證。
大家知道,很多中小企業(yè)并不構(gòu)建AI的集群,往往是訓(xùn)推一體機(jī),在訓(xùn)推一體機(jī)這樣的小盒子,往往最多只有8張卡的情況下,能不能讓我們小的系統(tǒng)可以微調(diào),更多參數(shù)的模型,讓我們的推理序列,長(zhǎng)序列越來越長(zhǎng),而且可以有更多的商業(yè)場(chǎng)景適用,不僅僅是簡(jiǎn)單的問答,讓各個(gè)公司單位花的這點(diǎn)錢,物有所值。
我們認(rèn)為,在模型微調(diào)的場(chǎng)景,我們建議應(yīng)該配一些超快性能的AI SSD,在我們例子當(dāng)中,8個(gè)算力卡的情況下,我們配2張3.2TB的AI SSD,我們可以看到單機(jī)可用內(nèi)存直接擴(kuò)充到11倍,同時(shí)我們可以看到單機(jī)可微調(diào)模型的參數(shù)也提升了6.3倍,就是說進(jìn)一步提升了一體機(jī)微調(diào)模型的種類和它使用的場(chǎng)景。
在這個(gè)一體機(jī)當(dāng)中,當(dāng)然它很重要的過程是推理,我們建議在推理場(chǎng)景下,用SP系列的AI SSD,我們也做了嘗試。我們發(fā)現(xiàn),如果使用OceanDisk SP 560可以進(jìn)一步擴(kuò)展有限的HBM,讓我們的序列長(zhǎng)度增加一倍,同時(shí)首token時(shí)延下降75%,token的單位時(shí)間吞吐量提升了一倍。這意味著我們單位買了一體機(jī)之后,可以極大擴(kuò)展我的商業(yè)場(chǎng)景,當(dāng)然我們知道這是訓(xùn)推一體機(jī),所以我們覺得在這樣一個(gè)一體機(jī)當(dāng)中,如果把極致性能盤和我們的高性能盤,就是EX系列和SP系列混合使用,將獲得更好的性能。
以上是這四個(gè)場(chǎng)景,我們認(rèn)為今天作為例子,跟大家介紹一下AI SSD突出的性能和應(yīng)用場(chǎng)景。我們希望今天發(fā)布的這三款產(chǎn)品,就是我們OceanDisk EX 560、SP 560以及大容量的LC 560,能夠用于超大AI集群中心和相應(yīng)的訓(xùn)推一體機(jī)場(chǎng)景當(dāng)中,結(jié)合相關(guān)的軟件,尤其是結(jié)合上一次發(fā)布的UCM,可以更加高效地對(duì)于推理當(dāng)中高性能需要短時(shí)間進(jìn)行緩存的數(shù)據(jù)和相對(duì)來說時(shí)延可容忍數(shù)據(jù),進(jìn)行分級(jí)緩存,效果一定會(huì)很不錯(cuò)的。
在千行萬業(yè)落地過程中,我們希望AI SSD和它們持續(xù)的演進(jìn),能夠?yàn)檎麄€(gè)AI經(jīng)濟(jì)——當(dāng)然我們相信AI剛剛開始,通過我們持續(xù)的演進(jìn),可以貢獻(xiàn)我們的力量,讓AI真正商業(yè)正循環(huán)。
- 人形機(jī)器人進(jìn)步為啥“慢吞吞”?原來差了10萬年數(shù)據(jù)“營(yíng)養(yǎng)餐”
- 華為周躍峰:以AI SSD打破性能和容量瓶頸,讓AI真正商業(yè)正循環(huán)
- 百度AI新業(yè)務(wù)收入首超100億 李彥宏“點(diǎn)名”兩大促因
- 華為周躍峰:Token經(jīng)濟(jì)時(shí)代到來,需改進(jìn)AI推理系統(tǒng)的效率和體驗(yàn)
- 華為放大招:全面開源開放CANN,加速共建昇騰AI生態(tài)
- 比亞迪國(guó)際化成了!上半年海外狂賣47萬輛,領(lǐng)跑歐美亞太多個(gè)市場(chǎng)
- 華為手機(jī)重登王座:?整體市場(chǎng)份額第一,折疊屏份額超72.6%
- OpenAI“移情”甲骨文:美國(guó)5000億AI項(xiàng)目易主,軟銀孫正義慘遭背刺
- 蘋果進(jìn)場(chǎng)收割折疊屏??售價(jià)1800美元起,利潤(rùn)率高達(dá)58%
- 馬斯克“瘋”了?大模型300美元包月,比OpenAI貴一大截
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。