女人被狂躁到高潮呻吟小说,蜜桃成人网,女人与公豬交交30分钟视频,久久无码精品一区二区三区,浓毛老太交欧美老妇热爱乱

華為周躍峰:Token經(jīng)濟(jì)時(shí)代到來,需改進(jìn)AI推理系統(tǒng)的效率和體驗(yàn)

極客網(wǎng)·極客說 8月12日,在上海舉行的2025金融AI推理應(yīng)用落地與發(fā)展論壇上,華為公司副總裁、數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周躍峰博士代表華為發(fā)布AI推理創(chuàng)新技術(shù)——UCM推理記憶數(shù)據(jù)管理器,以推動(dòng)AI推理體驗(yàn)升級(jí),提升推理性價(jià)比,加速AI商業(yè)正循環(huán)。

會(huì)上,基于華為攜手中國銀聯(lián)率先在金融典型場(chǎng)景開展的UCM技術(shù)試點(diǎn)應(yīng)用及成果,周躍峰博士發(fā)表了《AI推理科技創(chuàng)新,開啟智慧金融新篇章》主題演講。他指出,Token經(jīng)濟(jì)時(shí)代已經(jīng)到來,AI真正創(chuàng)造價(jià)值的是推理過程,目前面臨推不動(dòng)、推得慢、推得貴三大挑戰(zhàn),需要改進(jìn)推理系統(tǒng)的效率和體驗(yàn)。

微信圖片_20250813075923.jpg

以下是周躍峰博士演講全文:

AI時(shí)代到來之后,訓(xùn)練是一個(gè)成本中心,真正給我們創(chuàng)造價(jià)值的是推理過程,但現(xiàn)在推理的效率以及推理體驗(yàn)是大家非常關(guān)注的一個(gè)問題。今天各個(gè)金融的AI場(chǎng)景創(chuàng)新過程中,對(duì)于Token的消耗越來越大,尤其在各個(gè)性能指標(biāo)當(dāng)中,以Token數(shù)——無論是首Token的時(shí)延,還是Token的流量,都是以Token數(shù)為量綱,我們有理由認(rèn)為,AI的到來使得整個(gè)Token經(jīng)濟(jì)的時(shí)代也到來了。

今天我們實(shí)行AI行業(yè)化落地過程中,事實(shí)上我們也發(fā)現(xiàn)像剛才中國銀聯(lián)的楊總提到的,在推理過程中還是有不少挑戰(zhàn)。(首先)可以看到,我們將一篇比較大的、長(zhǎng)的文章放到推理系統(tǒng)當(dāng)中時(shí),有可能推理系統(tǒng)看了這一段忘了下面這一段,看了下面一段要前面一段給忘記了,因?yàn)橥评泶翱谙鄬?duì)比較小,推不動(dòng)。其次可以看到,由于在基礎(chǔ)設(shè)施投資當(dāng)中的差距,中國互聯(lián)網(wǎng)的大模型首Token時(shí)延普遍慢于海外互聯(lián)網(wǎng)頭部的首Token時(shí)延。另外,每秒或者一定時(shí)間內(nèi)推理的Token數(shù)也可以看到,我們?cè)谥袊^部互聯(lián)網(wǎng)中可以看到提供的服務(wù)也是遠(yuǎn)小于海外頭部的互聯(lián)網(wǎng),這主要由于我們?cè)贏I基礎(chǔ)設(shè)施投資方面,相對(duì)還是有差距。

因此,如何改進(jìn)推理系統(tǒng)的效率和體驗(yàn)是我們重要的話題。這次我們和銀聯(lián)通過聯(lián)合創(chuàng)新,推出了UCM推理記憶數(shù)據(jù)管理器。應(yīng)該說,它對(duì)于過去我們?cè)噲D用增加顯存、內(nèi)存來提升AI推理的效率和性能方面,是一個(gè)有效的突破。

大家知道,人也是一樣,思考的能力跟記憶能力強(qiáng)相關(guān)——記憶能力既要記得東西多,而且還要記得快。這和我們思考能力是強(qiáng)相關(guān)的,AI推理系統(tǒng)也是一樣的。整個(gè)AI推理系統(tǒng)當(dāng)中,它的記憶往往有三部分:上面是高性能的緩存(HBM),中間是內(nèi)存(DRAM),這兩部分基本上在智算服務(wù)器當(dāng)中;我們可以充分利用,但過去我們沒有利用起來的是下面的專業(yè)的共享存儲(chǔ)(SSD)。UCM推理記憶數(shù)據(jù)管理器通過一系列的算法,把我們?cè)谕评磉^程中不同的延時(shí)要求的數(shù)據(jù)放在不同的記憶體當(dāng)中,對(duì)于實(shí)時(shí)的記憶數(shù)據(jù)即熱的放在HBM當(dāng)中,對(duì)于短期記憶數(shù)據(jù)相對(duì)比較熱的放在存儲(chǔ)當(dāng)中,通過它極大提升系統(tǒng)的效率和AI推理的性能。

UCM主要分為三部分:(1)頂層跟業(yè)界流行的推理框架對(duì)接的這部分我們稱作為“連接器”,它會(huì)連接業(yè)界普遍流行的推理引擎框架,包括華為的MindiE、SGLang等等,可以跟目前推理框架進(jìn)行協(xié)同。(2)中間部分是加速程序,對(duì)于緩存記憶數(shù)據(jù)進(jìn)行分級(jí)緩存管理的算法程序,運(yùn)行在智算服務(wù)器當(dāng)中。(3)另外一部分很重要的是跟專業(yè)的共享存儲(chǔ)相結(jié)合的協(xié)同器,這個(gè)協(xié)同器(適配器)可以提升專業(yè)存儲(chǔ)直通的效率和降低時(shí)延,可以讓三級(jí)存儲(chǔ)協(xié)同起來。

楊總在剛才的介紹當(dāng)中得到了印證,我們通過大量測(cè)試確實(shí)也發(fā)現(xiàn),通過這樣的算法首Token時(shí)延最高可以降低90%,系統(tǒng)的吞吐率最大可以提升22倍,同時(shí)上下文推理的窗口也可以擴(kuò)展10倍級(jí)以上,這對(duì)于提升推理系統(tǒng)的效能是一個(gè)非常大的進(jìn)步。

這樣的UCM推理記憶數(shù)據(jù)管理器,我們希望通過開放開源的方式,讓業(yè)界都能夠共享這個(gè)成果。感謝我們的聯(lián)創(chuàng)團(tuán)隊(duì),尤其是銀聯(lián)的工程師和華為的工程師。我們希望這個(gè)UCM和之前的ModelEngine已經(jīng)開源的組件共同進(jìn)行開源,9月份會(huì)在魔擎社區(qū)首發(fā),當(dāng)中很多算子,包括連接器這部分,也會(huì)在更多的開源社區(qū),比如vLLM、華為的MindiE等等這些社區(qū)都會(huì)提貢獻(xiàn),讓大家方便地在我們系統(tǒng)當(dāng)中進(jìn)行植入和用起來。

我們非常高興地看到UCM在現(xiàn)在可以和銀聯(lián)一起,首先在我們金融智慧化的一些場(chǎng)景中應(yīng)用起來,當(dāng)然我們希望這個(gè)算法在雙方的努力下,能夠讓更多的廠商使用,而且能夠共享于更加高效的AI,讓AI能夠有更好的商業(yè)回報(bào)。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2025-08-13
華為周躍峰:Token經(jīng)濟(jì)時(shí)代到來,需改進(jìn)AI推理系統(tǒng)的效率和體驗(yàn)
UCM推理記憶數(shù)據(jù)管理器推動(dòng)AI推理體驗(yàn)升級(jí),提升推理性價(jià)比,加速AI商業(yè)正循環(huán)。

長(zhǎng)按掃碼 閱讀全文