女人被狂躁到高潮呻吟小说,蜜桃成人网,女人与公豬交交30分钟视频,久久无码精品一区二区三区,浓毛老太交欧美老妇热爱乱

昇騰超節(jié)點,如何為MoE建造一座“超級工廠”

文 | 智能相對論

作者 | 葉遠風

大模型催生了無數(shù)的創(chuàng)新機會,而大模型應用要如何更好地實現(xiàn)落地、服務好企業(yè)和個人,就成為廣大開發(fā)者能否有效抓住這波時代紅利的關鍵。

于是,來自計算產(chǎn)業(yè)生態(tài)的支持動作,對開發(fā)者而言就變得尤為重要。

5月23-24日,鯤鵬昇騰開發(fā)者大會2025(KADC2025)將于北京中關村國際創(chuàng)新中心舉辦,作為華為面向開發(fā)者一年一度的技術(shù)盛典,大會在直接推動開發(fā)者技術(shù)能力提升、產(chǎn)業(yè)價值落地等方面有諸多布局。

而值得關注的是,19日鯤鵬昇騰創(chuàng)享周上,昇騰方面的首場直播,就聚焦在昇騰超節(jié)點計算集群硬件架構(gòu),顯示出昇騰對這一架構(gòu)的重視。

對開發(fā)者而言,做好大模型,MoE已經(jīng)必選項?,F(xiàn)在,能夠更好支撐MoE架構(gòu)的基礎設施方案“最優(yōu)解”也已經(jīng)出現(xiàn)。

MoE成必選項,但“作坊式”生產(chǎn)成隱憂

大模型領域,MoE架構(gòu)的優(yōu)勢已經(jīng)十分明顯。

不同的任務分成一個個“專家”模型去處理,每個專家只需處理自己最擅長的領域,無論在效率還是專業(yè)能力,MoE架構(gòu)都奠定了其作為下一階段大模型發(fā)展主要技術(shù)路線的地位。

而從MoE的技術(shù)特點可以粗略看出,這是一個需要“拆分”然后分工合作的架構(gòu),其技術(shù)演化路線,也基本沿著這個方向走——越拆越細。

比如最早的MoE架構(gòu),其專家數(shù)量可能只有十幾個,后來又進一步發(fā)展到幾十個、上百個,把更多的任務分配到更小的專家上去,“專才”越來越專,大模型的效果會變得更好,處理效率也會更高。

然而,雖然MoE架構(gòu)的優(yōu)化一直在提升,專家的數(shù)量不斷增加,例如DeepSeek的R1已經(jīng)有288個專家,但這種增長也正在面臨額外的通信難題。

也即,當MoE架構(gòu)中被安排的的專家越來越多,專家和專家之間的通信會越來越多,對計算協(xié)同能力的要求也越來越高。更多的計算卡集合到了一起形成大量節(jié)點,要實現(xiàn)有機整合、要把大量的專家分配到不同卡上來做好模型處理,都存在技術(shù)挑戰(zhàn)。

顯然,由服務器、存儲、網(wǎng)絡等設備堆疊而成的傳統(tǒng)集群,在這方面正面臨瓶頸,在大規(guī)模訓練時,資源利用率低、故障頻發(fā),嚴重阻礙著AI發(fā)展和創(chuàng)新。

比如,傳統(tǒng)模式往往是在不同的節(jié)點之間進行互相通信,雖然最好的數(shù)據(jù)已經(jīng)能夠做到雙向800Gb的帶寬傳輸,但在快速增加的專家數(shù)量面前,已經(jīng)遠遠不夠看了。

這就好比,MoE架構(gòu)不斷優(yōu)化后已經(jīng)能夠請來一大堆專家?guī)兔M行“生產(chǎn)”,但開發(fā)者能夠提供給它的生產(chǎn)環(huán)境,卻還只是個“小作坊”——協(xié)同差、流程效率低、擁擠不堪,顯然已經(jīng)無法滿足時代的需要,除了限制既有MoE能力的發(fā)揮,在專家數(shù)量的進一步提升上也設置了無形的障礙。

這時候,昇騰超節(jié)點的出現(xiàn),就帶來了“生產(chǎn)模式”的改變。

昇騰超節(jié)點,為MoE建設一座“超級工廠”

通過高速總線連接多顆 NPU,突破互聯(lián)瓶頸,卡和卡之間通過高速互聯(lián)實現(xiàn)了超高的互聯(lián)網(wǎng)通信,最終,一個多節(jié)點組成的集群能夠像一臺計算機一樣緊密協(xié)同工作,這就是昇騰超節(jié)點在做的。

需要說明的是,昇騰超節(jié)點是通用架構(gòu),只不過它很親和MoE的多專家模式。

目前,昇騰超節(jié)點解決方案已經(jīng)推出了多款訓練和推理產(chǎn)品,基于架構(gòu)創(chuàng)新來滿足模型訓練和推理對低時延,大帶寬,長穩(wěn)可靠的要求。

這就好比,它為MoE的眾多專家們,建設了一座提供高效協(xié)同生產(chǎn)環(huán)境的超級工廠,再多的專家參與到大模型的“能力生產(chǎn)”中,也能在“超級工廠”健全的流程和生產(chǎn)設備支撐下,井然有序、高效率完成大模型能力的“生產(chǎn)作業(yè)”。

也由此,昇騰超節(jié)點正成為MoE模型的最佳選擇。

1、解決“生產(chǎn)過程”溝通協(xié)作難題

MoE的專家并行需頻繁執(zhí)行機間all-to-all通信,導致網(wǎng)絡擁塞和延遲上升。例如,千億級MoE模型的訓練中,通信開銷占總耗時的40%以上。而昇騰超節(jié)點主要是通過架構(gòu)創(chuàng)新來實現(xiàn)更高更大的帶寬、更高的性能,提升訓練效率、推理吞吐能力。

具體而言,超節(jié)點內(nèi)的高速互聯(lián)能力讓跨節(jié)點通信帶寬提升15倍,通信時延從2μs降至0.2μs,下降10倍,大幅降低整體通信占比,讓計算少等待、不等待。有數(shù)據(jù)顯示,相較傳統(tǒng)集群,整體訓練效率、推理吞吐可提升3倍。

由此,再多的MoE專家細分也能夠支撐,像是提供了可以彈性容納更多專家的“流水線”。目前, Atlas 900昇騰384超節(jié)點可實現(xiàn)384顆NPU點到點超大帶寬互聯(lián),成為業(yè)界唯一支持DeepSeek V3/R1在一個超節(jié)點域內(nèi)即可完成所有的專家并行(EP)的方案。

2、提升“生產(chǎn)資源”利用率

超級工廠的流水線相對于小作坊生產(chǎn)的另一重價值是能夠?qū)崿F(xiàn)更有效率的生產(chǎn)資源利用。

昇騰超節(jié)點相對于傳統(tǒng)集群的優(yōu)勢之一也在于此,能夠依據(jù)MoE結(jié)構(gòu)中專家分布以及每層的計算需求,精細地將模型切分至不同節(jié)點,更合理分配資源,提高整體資源利用率。

而且,當多個專家一起工作時,昇騰超節(jié)點同時可運行多種并行策略并動態(tài)調(diào)整,針對實時的負載情況精準分配計算資源,不堵塞、每個節(jié)點都被充分利用,加速訓練/推理進程。

不僅讓專家“人盡其用”,也讓節(jié)點資源“物盡其用”。

3、處理繁雜但重要的“瑣碎生產(chǎn)事項”

在分布式計算場景下,大模型訓練和推理過程存在大量并行計算,帶來頻繁的參數(shù)同步和梯度交換,需要傳輸大量小尺寸數(shù)據(jù)包。在MoE架構(gòu)下,隨著模型參數(shù)量持續(xù)增長,小包通信需求將進一步加劇。

而偏偏,這類通信對網(wǎng)絡時延、抖動和丟包率極其敏感,直接影響訓練/推理效率。

對應實體世界,這就相當于生產(chǎn)過程中總是給出了大量非常瑣碎的溝通和任務,粗獷的“小作坊”生產(chǎn)顯然很難有效應對,時?!皝G三落四”,必須依靠“超級工廠”的標準化流程與規(guī)則來托舉。

昇騰超節(jié)點做到了全局內(nèi)存統(tǒng)一編址,具備更高效的內(nèi)存語義通信能力,實現(xiàn)了更低時延指令級內(nèi)存語義通信,從而能夠滿足大模型訓練/推理中的小包通信需求,提升專家網(wǎng)絡小包數(shù)據(jù)傳輸及離散隨機訪存通信效率。

規(guī)則、一體化平臺建立起來,就不怕工作碎而多了。

4、用減少“停機”來作為重要的生產(chǎn)效率來源

現(xiàn)實中的生產(chǎn)小作坊由于制度不完善,經(jīng)常在運轉(zhuǎn)中碰到各種難題,停工停業(yè)。作為對比,超級工廠幾乎不“停機”就帶來的直接的生產(chǎn)效率。

誠然,大模型訓練或推理一定會面臨某些故障,這時候,能夠降低故障頻次、降低恢復時長,就成為訓練/推理效率的重要來源。昇騰超節(jié)點擁有多平面的鏈路設計、鏈路故障秒級切換、算子級重傳等可靠性能力,如Atlas 900昇騰384超節(jié)點產(chǎn)品的平均無故障運行時長從幾小時提升到幾天,讓大模型訓練變的更快、更簡單。

而且,在出現(xiàn)故障后,昇騰超節(jié)點也支持更敏捷的斷點續(xù)訓,故障恢復時長能從傳統(tǒng)集群的幾小時級降低至30分鐘。

“流水線”少停,停后快速啟動,這就是直接的效率。

一座“超級工廠”的建成,只能是“產(chǎn)業(yè)資源”的集中展現(xiàn)

現(xiàn)實中的超級工廠的建設對一個地方產(chǎn)業(yè)資源有著極高的要求,對應地,為MoE的專家們建設一座數(shù)字世界的超級工廠,也需要多方面技術(shù)力量的支撐。

昇騰超節(jié)點是整個架構(gòu)層面的創(chuàng)新,其采用總線互聯(lián)的技術(shù),實現(xiàn)了統(tǒng)一內(nèi)存編輯、統(tǒng)一內(nèi)存語義通信,不僅有高速通信,也有高速存儲讀取等,這些,都離不開華為在計算、存儲、網(wǎng)絡等方面長期以來優(yōu)勢的集成,是優(yōu)勢技術(shù)資源積淀與運用的結(jié)果。

所以,昇騰超節(jié)點不是簡單的集群模式創(chuàng)新就能實現(xiàn)的,與MoE架構(gòu)的匹配親和,是這個時代最尖端的基礎設施與模型架構(gòu)的碰撞、對話。

不僅如此,目前昇騰超節(jié)點還聯(lián)合昇騰其他解決方案進一步強化大模型支撐能力。

例如,隨著模型越來越大,并行的情況也會越來越多,把數(shù)據(jù)切分的越來越細、把整個模型切分的越來越細,除了通過超節(jié)點的架構(gòu)訓練出更強性能的模型,昇騰還在通過大EP和集成部署的推理系統(tǒng)來滿足極致的工程創(chuàng)新、來滿足大模型所有節(jié)點的部署。

如此,這座為MoE專家們準備的“超級工廠”在生產(chǎn)調(diào)度能力上也正在變得越來越豐富。

結(jié)語

在復雜的形勢下,對多節(jié)點集群能力的挖掘,實際上也一定程度解決了算力供應鏈穩(wěn)定性難題。畢竟,“立足中國,只有基于實際可獲得的基礎硬件制造工藝打造的算力才是長期可持續(xù)的,否則是不可持續(xù)的?!?/p>

很慶幸,有了昇騰超節(jié)點這類技術(shù)積淀之上的架構(gòu)創(chuàng)新,可持續(xù)的基礎設施正在被有效建立起來,推動MoE在本土發(fā)展壯大,讓本土大模型獲得更大的話語權(quán)。

在全面智能化戰(zhàn)略(All Intelligence)下,華為正在進行著計算、存儲和網(wǎng)絡技術(shù)協(xié)同創(chuàng)新,昇騰超節(jié)點之外,本次鯤鵬昇騰開發(fā)者大會料將呈現(xiàn)更多計算產(chǎn)業(yè)趨勢、前沿技術(shù)、行業(yè)創(chuàng)新案例和優(yōu)秀開發(fā)者實踐,值得關注與參與。

*本文圖片均來源于網(wǎng)絡

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2025-05-20
昇騰超節(jié)點,如何為MoE建造一座“超級工廠”
文 | 智能相對論作者 | 葉遠風大模型催生了無數(shù)的創(chuàng)新機會,而大模型應用要如何更好地實現(xiàn)落地、服務好企業(yè)和個人,就成為廣大開發(fā)者能...

長按掃碼 閱讀全文