9月18日專稿(蔣均牧)生成式AI蓬勃發(fā)展,大模型訓(xùn)練對(duì)算力的需求呈指數(shù)級(jí)增長(zhǎng),超萬(wàn)卡智算集群已成為支撐大模型訓(xùn)練與推理的核心基礎(chǔ)設(shè)施。在這一背景下,高效互聯(lián)成為制約智算集群性能的關(guān)鍵瓶頸,傳統(tǒng)網(wǎng)絡(luò)技術(shù)難以滿足高帶寬、低時(shí)延、高可靠性的傳輸需求,新型光技術(shù)的創(chuàng)新與應(yīng)用迫在眉睫。
就在第26屆中國(guó)國(guó)際光電博覽會(huì)期間召開(kāi)的“超萬(wàn)卡智算集群新型光技術(shù)發(fā)展論壇”上,華為Fellow & 光傳送首席架構(gòu)師羅軍以 “光技術(shù)在智算中心新場(chǎng)景的挑戰(zhàn)和機(jī)會(huì)”為題,對(duì)此展開(kāi)了探討——他不僅剖析了智算中心的業(yè)務(wù)趨勢(shì),還提出了集群光互聯(lián)的針對(duì)性解決方案,更展望了未來(lái)技術(shù)演進(jìn)方向,為光產(chǎn)業(yè)在智算領(lǐng)域的發(fā)展提供了清晰的指引。
大模型迭代倒逼算力升級(jí),網(wǎng)絡(luò)成關(guān)鍵
當(dāng)前,大模型技術(shù)正處于快速迭代演進(jìn)階段,主流模型參數(shù)規(guī)模從千億向萬(wàn)億跨越,且多模態(tài)發(fā)展趨勢(shì)明顯,大規(guī)模算力供給、尤其是智算算力的供給成為行業(yè)最迫切需求。國(guó)家數(shù)據(jù)局統(tǒng)計(jì),截至2025年6月,我國(guó)日均Token消耗量已突破30萬(wàn)億,一年半間激增300倍;綜合第三方預(yù)測(cè),到2030年,全球通用算力將增長(zhǎng)十倍,智算算力將增長(zhǎng)千倍。
羅軍指出,集群是解決大規(guī)模算力需求的重要方案,但無(wú)論是參數(shù)面Scale Out還是超節(jié)點(diǎn)Scale Up,都需依托網(wǎng)絡(luò)實(shí)現(xiàn)從單卡到多卡、框內(nèi)到框間、單Pod到多Pod的連接,進(jìn)而完成規(guī)模突破。在這一過(guò)程中,光技術(shù)的三大核心要素——光模塊、光傳輸介質(zhì)、光交換,將成為支撐大規(guī)模集群的關(guān)鍵力量。
他以光交換為例指出,谷歌從V4到V7三代產(chǎn)品中,始終保持3D Torus架構(gòu),且相關(guān)產(chǎn)品發(fā)貨量可觀;英偉達(dá)面向超萬(wàn)卡集群,也明確提出光交叉、光模塊和光纖三要素的重要性。這些行業(yè)動(dòng)態(tài)充分表明,光技術(shù)在智算集群中的應(yīng)用已從概念走向?qū)嵺`,成為解決算力互聯(lián)瓶頸的重要方向。
從超節(jié)點(diǎn)與參數(shù)面,看新技術(shù)、新方案優(yōu)勢(shì)
面對(duì)智算集群的復(fù)雜需求,新型光技術(shù)究竟有何優(yōu)勢(shì),又如何與場(chǎng)景融合以形成針對(duì)性的解決方案?羅軍在分享中,圍繞超節(jié)點(diǎn)和參數(shù)面兩大場(chǎng)景作出深入分析。
超節(jié)點(diǎn)作為智算集群的重要組成部分,其連接正從直連拓?fù)湎騍witch拓?fù)溲葸M(jìn),從框內(nèi)互聯(lián)向框間互聯(lián)拓展。這一演進(jìn)過(guò)程中,規(guī)模擴(kuò)展、低時(shí)延、性能匹配不同模型需求成為三大核心訴求。從規(guī)模來(lái)看,超節(jié)點(diǎn)規(guī)模已從128卡向512卡持續(xù)演進(jìn),這就要求光交叉端口數(shù)量隨之從百卡級(jí)向千卡級(jí)提升。而光技術(shù)天然具備的透明性,使其能夠兼容不同協(xié)議,為規(guī)模擴(kuò)展提供了靈活支撐。
時(shí)延方面,超節(jié)點(diǎn)對(duì)時(shí)延的要求極為苛刻,端到端時(shí)延的降低成為提升集群性能的關(guān)鍵。羅軍介紹,端到端時(shí)延由交換時(shí)延、傳輸介質(zhì)時(shí)延和光模塊時(shí)延三部分構(gòu)成。引入光交叉后,相比電交叉,不僅能將跳數(shù)從6跳減少到4跳,時(shí)延還能降低30%,接近零時(shí)延;若進(jìn)一步引入空芯光纖,時(shí)延可再降30%;而光模塊從DPO到xPO的演進(jìn),省去DSP后,時(shí)延更是能實(shí)現(xiàn)10倍下降。這一系列技術(shù)組合,為超節(jié)點(diǎn)打造了極致的低時(shí)延網(wǎng)絡(luò)環(huán)境。
在性能匹配上,光交叉可根據(jù)不同模型需求,通過(guò)算法與模型的聯(lián)動(dòng),實(shí)現(xiàn) RING、FullMech、M2N 等拓?fù)涞耐昝榔ヅ?,確保網(wǎng)絡(luò)性能能夠充分適配各類大模型的運(yùn)算需求。
參數(shù)面場(chǎng)景下,隨著集群從千卡向超萬(wàn)卡乃至十萬(wàn)卡規(guī)模發(fā)展,大規(guī)模擴(kuò)展、高可用性、高效率轉(zhuǎn)發(fā)成為核心需求。羅軍就超萬(wàn)卡集群介紹了兩大解決方案:其一是在數(shù)據(jù)中心內(nèi)部,依托OCS構(gòu)建光底座,滿足不同Pod的靈活擴(kuò)展需求。OCS天然對(duì)速率不敏感,不同Pod可運(yùn)行不同速率;同時(shí),省去光模塊不僅降低了成本,還大幅提升了可靠性,減少轉(zhuǎn)發(fā)層也有效提升了參數(shù)面性能。
其二是跨數(shù)據(jù)中心場(chǎng)景,受功耗、能源供應(yīng)、散熱等因素限制,單數(shù)據(jù)中心規(guī)模擴(kuò)展面臨瓶頸,通過(guò)OTN超寬無(wú)損網(wǎng)絡(luò)可將多個(gè)數(shù)據(jù)中心連接起來(lái),實(shí)現(xiàn)跨數(shù)據(jù)中心集群訓(xùn)練。當(dāng)前400G場(chǎng)景下,OTN單波帶寬已達(dá)1.2T~1.6T,800G場(chǎng)景下帶寬還將進(jìn)一步提升,且能實(shí)現(xiàn)百公里甚至千公里無(wú)損傳輸,保障參數(shù)面穩(wěn)定運(yùn)行。
展望未來(lái),三大核心領(lǐng)域技術(shù)演進(jìn)方向
在明確解決方案的基礎(chǔ)上,羅軍展望了智算集群光互聯(lián)領(lǐng)域的技術(shù)演進(jìn)方向,為光產(chǎn)業(yè)未來(lái)發(fā)展提供了戰(zhàn)略參考。
OCS光交叉技術(shù)方面,目前基于MEMS微鏡、LC液晶、硅光的三條技術(shù)路線各有特點(diǎn)。MEMS微鏡技術(shù)可實(shí)現(xiàn)上千個(gè)端口,且插損無(wú)明顯劣化;LC液晶技術(shù)端口規(guī)模居中,適合100個(gè)端口以內(nèi)場(chǎng)景;硅光技術(shù)切換速度快,但插損較大。未來(lái)OCS將沿著“百端口-千端口-更高性能”的路線演進(jìn),不僅端口規(guī)模持續(xù)擴(kuò)大,切換速度也將從百毫秒級(jí)向十毫秒級(jí)、納秒級(jí)跨越,同時(shí)通過(guò)外部OA等技術(shù)降低插損,進(jìn)一步提升性能。
光模塊領(lǐng)域呈現(xiàn)分場(chǎng)景演進(jìn)態(tài)勢(shì)。超節(jié)點(diǎn)短距離光模塊從DPO到LPO,時(shí)延從100納秒降至10納秒,功耗大幅下降;從LPO到xPO,通過(guò)“光多跑、電少跑”的方式,解決電傳輸性能問(wèn)題,同時(shí)大幅提升密度;未來(lái)OIO技術(shù)將進(jìn)一步提升密度,滿足超節(jié)點(diǎn)多方向、高密出口需求。參數(shù)面FR 2公里模塊從112G向224G、400G、448G演進(jìn),400G場(chǎng)景下直調(diào)直檢與相干技術(shù)將共存,448G場(chǎng)景下直調(diào)直檢技術(shù)持續(xù)突破,相干技術(shù)下沉,以滿足不同傳輸距離需求。
空芯光纖作為一種優(yōu)勢(shì)顯著的光傳輸介質(zhì),在時(shí)延降低方面效果突出,但目前面臨成本、性能與兼容性三大挑戰(zhàn)。今年國(guó)內(nèi)運(yùn)營(yíng)商、OTT的采購(gòu)中,空芯光纖價(jià)格昂貴,而降低成本需提升拉絲長(zhǎng)度;性能上,空芯與空芯光纖的高性能耦合、抗彎設(shè)計(jì)等問(wèn)題尚待解決;兼容性方面也需進(jìn)一步優(yōu)化。羅軍認(rèn)為,一旦這些問(wèn)題得到解決,空芯光纖將在數(shù)據(jù)中心內(nèi)乃至數(shù)據(jù)中心間實(shí)現(xiàn)大規(guī)模應(yīng)用,為光傳輸介質(zhì)升級(jí)提供新的可能。
寫(xiě)在最后
從行業(yè)發(fā)展規(guī)律來(lái)看,任何一項(xiàng)新技術(shù)從實(shí)驗(yàn)室走向大規(guī)模商用,都需經(jīng)歷技術(shù)完善、成本下降、生態(tài)適配的過(guò)程。光技術(shù)在智算集群領(lǐng)域的應(yīng)用也不例外,隨著OCS、光模塊、空芯光纖等技術(shù)的持續(xù)突破,以及成本與兼容性問(wèn)題的逐步解決,光產(chǎn)業(yè)有望在智算領(lǐng)域迎來(lái)更大的發(fā)展空間。對(duì)廣大行業(yè)內(nèi)廠商而言,亦需緊跟智算中心業(yè)務(wù)需求,加快技術(shù)創(chuàng)新與產(chǎn)品迭代,如此方能在這場(chǎng)算力革命中搶占先機(jī),為我國(guó)智算產(chǎn)業(yè)的高質(zhì)量發(fā)展夯實(shí)光互聯(lián)基礎(chǔ)。
- 三星集團(tuán)未來(lái)五年將新招6萬(wàn)名員工 重點(diǎn)聚焦半導(dǎo)體、AI等前沿領(lǐng)域
- 三星集團(tuán)未來(lái)五年將新招6萬(wàn)名員工 重點(diǎn)聚焦半導(dǎo)體、AI等前沿領(lǐng)域
- 華為徐直軍:算力始終是人工智能關(guān)鍵,四款昇騰芯片正在規(guī)劃中
- 新易盛張金雙:吉瓦級(jí)AI數(shù)據(jù)中心指向千萬(wàn)級(jí)光互連
- 華為羅軍:破局智算集群互聯(lián)瓶頸 詳解光產(chǎn)業(yè)三要素機(jī)會(huì)與方向
- 中國(guó)聯(lián)通趙春旭:“云網(wǎng)端管”布局量子技術(shù)
- 單價(jià)再度下探,寧夏移動(dòng)采購(gòu)492公里空芯光纖
- 知標(biāo)融通 鼎新致遠(yuǎn) | 通鼎打造全國(guó)首個(gè)數(shù)字通信線纜產(chǎn)業(yè)知識(shí)產(chǎn)權(quán)與標(biāo)準(zhǔn)協(xié)同創(chuàng)新中心
- 鵬鵠物宇再獲數(shù)千萬(wàn)元A+輪融資 深耕5G NTN衛(wèi)星物聯(lián)網(wǎng)
- 2025年上半年全球半導(dǎo)體設(shè)備營(yíng)收Top10出爐,北方華創(chuàng)位列第七
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。