在武漢光谷未來科技城,一座占地2萬平方米的智算中心里,1500PFLops雙千卡集群正悄然織就一套精密的智能中樞。中國移動智算中心(武漢)作為全國首個區(qū)域型N節(jié)點,承載著千億次模型訓練的戰(zhàn)略使命。這個由湖北移動與紫光股份旗下新華三集團共同打造的AI算力高地,不僅是華中地區(qū)等級最高、規(guī)模最大的智算中心,同時也是中國移動集團首個正式交付的智算項目,更開創(chuàng)了AI數(shù)字基建的建設(shè)與運維典范。
作為湖北移動的重要合作伙伴,新華三集團憑借其在 ICT 領(lǐng)域的深厚技術(shù)積累和豐富實踐經(jīng)驗,為這個全新的區(qū)域型智算節(jié)點的建設(shè)和運維提供了全方位、高質(zhì)量的支持與服務。雙方攜手打造AIO智算運維服務方案,提供面向ICT基礎(chǔ)設(shè)施、算力服務、模型訓練推理等一站式智算綜合運維服務支撐,構(gòu)建高效穩(wěn)定的GPU計算集群和算力無損網(wǎng)絡,并基于該集群構(gòu)建端到端的技術(shù)服務支撐體系,護航這座矗立在長江之畔的智算中樞成為點燃華中地區(qū)高質(zhì)量發(fā)展的新引擎。
打造智算中心技術(shù)服務新范式
隨著項目正式完成組網(wǎng)調(diào)試,一套涵蓋ICT基礎(chǔ)設(shè)施、算力服務、模型訓練推理的全棧式服務體系同步成型,這也預示著智算時代的技術(shù)服務商正逐步轉(zhuǎn)型為算力服務架構(gòu)師,并通過系統(tǒng)工程思維將硬件實施交付轉(zhuǎn)化為持續(xù)服務能力。
面對湖北移動對于人工智能計算平臺建設(shè)的整體需求,新華三集團深入理解客戶業(yè)務場景,從系統(tǒng)架構(gòu)設(shè)計入手,充分利用先進GPU的強大計算能力和算力網(wǎng)絡的高速互聯(lián)特性,按照最佳實踐規(guī)劃計算節(jié)點、存儲節(jié)點以及網(wǎng)絡拓撲布局,高性能的系統(tǒng)架構(gòu)確保硬件資源得到最大化利用,優(yōu)化電力供應與散熱系統(tǒng),保障硬件長時間穩(wěn)定運行,助力湖北移動構(gòu)建一個既能滿足當前業(yè)務需求又能適應未來發(fā)展的智能計算平臺。
在智算數(shù)據(jù)中心安裝部署完成后,新華三集團項目服務團隊對其進行了全面的系統(tǒng)測試和性能驗證,包括但不限于GPU計算節(jié)點、算力網(wǎng)絡、高性能存儲系統(tǒng)等關(guān)鍵組件。通過嚴格的測試流程和評估標準,確保每一環(huán)節(jié)都達到甚至超越設(shè)計要求,為智算中心的正式上線運行提供了有力保障。
網(wǎng)絡是智算中心數(shù)據(jù)傳輸?shù)拿}。新華三集團提供7×24小時的網(wǎng)絡故障報警響應機制,確保網(wǎng)絡問題迅速定位和解決;利用專業(yè)的故障排查工具進行診斷,實時監(jiān)測網(wǎng)絡關(guān)鍵指標,收集和分析性能數(shù)據(jù),提前發(fā)現(xiàn)潛在問題并采取針對性措施加以解決;同時,定期檢查并升級網(wǎng)絡設(shè)備固件,制定合理的固件升級計劃,確保設(shè)備的安全性和性能穩(wěn)定性,為智算中心的數(shù)據(jù)通信提供高速、穩(wěn)定、可靠的網(wǎng)絡環(huán)境。
GPU卡作為智算中心的核心計算資源,其穩(wěn)定性和性能直接關(guān)系到整個系統(tǒng)的運行效率。項目服務團隊圍繞硬件健康監(jiān)測與維護、驅(qū)動管理與更新、性能優(yōu)化與調(diào)整、故障排除與維修等維度,為GPU卡提供全面運維服務,實現(xiàn)GPU卡健康狀態(tài)管理,保障高可用性,滿足智算中心高強度的計算需求。
針對大型語言模型(LLM)在GPU計算節(jié)點上的高效運行需求,新華三集團提供了專業(yè)的驅(qū)動/CUDA版本評估和驗證服務。從安裝GPU卡驅(qū)動、部署CUDA開發(fā)工具包,到優(yōu)化計算性能、集成開發(fā)工具和庫,確保LLM在CUDA環(huán)境中的穩(wěn)定性和可靠性。這不僅充分發(fā)揮了硬件的性能優(yōu)勢,還為人工智能模型的訓練和推理提供了穩(wěn)定的動力支持。
重構(gòu)智算時代運維體系
在當前大模型等AI應用呈井噴式增長的背景下,智算中心作為承載AI算力的核心載體,其規(guī)劃建設(shè)與運維模式正經(jīng)歷顛覆性變革。傳統(tǒng)數(shù)據(jù)中心“穩(wěn)定優(yōu)先”的運維理念,已無法滿足大模型時代對高彈性、高能效、高可管理性及高安全性的多維要求。
中國移動智算中心(武漢)在規(guī)劃建設(shè)之初,旨在支持人工智能計算平臺建設(shè),圍繞智算組網(wǎng)、業(yè)務驗證、產(chǎn)品組織進行規(guī)模驗證,并為大模型提供訓練和試驗環(huán)境?;贕PU算力與算力網(wǎng)絡等技術(shù)深度協(xié)同,項目成功構(gòu)建LLM訓練集群,并提出系統(tǒng)性效能提升方案,最大化提升算力資源的使用效率,也為AI模型的訓練和應用提供充分支持。
為確保項目的成功實施及高效運維,湖北移動攜手新華三集團,基于新華三全場景的AIO智算運維服務方案,形成了涵蓋架構(gòu)搭建、門戶管理、運維細化、人員培訓、技術(shù)保障、自動化運維、規(guī)范制定、系統(tǒng)測試、驅(qū)動優(yōu)化、網(wǎng)絡運維和硬件保障等全方位、高效能智算運維服務體系。
●明確運維架構(gòu),打造協(xié)同高效的運維團隊
新華三集團與湖北移動共同明確了由移動集團總部、省公司、云能力中心建立“部省專”一體化協(xié)同運維團隊,構(gòu)建矩陣式運維模式。新的運維架構(gòu)設(shè)計確保了運維工作的高效協(xié)同與精準執(zhí)行,能夠快速響應各類運維需求,從整體上保障智算中心的穩(wěn)定運行,為后續(xù)各項運維服務的開展奠定了堅實的組織基礎(chǔ)。
●統(tǒng)一運維門戶,實現(xiàn)多平臺集中管理
項目整合移動云 4A 管控平臺、智維平臺門戶、智算管控平臺、集團多云平臺、運維管理系統(tǒng)、H3C HDM 等多個門戶管理平臺,實現(xiàn)了運維管理的集中化與可視化。通過統(tǒng)一的運維門戶,運維人員能夠便捷地獲取各類系統(tǒng)信息,實時監(jiān)控設(shè)備狀態(tài)、資源使用情況以及業(yè)務運行數(shù)據(jù)等,大大提高了運維管理效率和決策科學性,使運維工作更加有條不紊。
●規(guī)范化運維體系賦能,全方位保障系統(tǒng)穩(wěn)定
新華三集團依托項目運維經(jīng)驗豐富的專家資源,賦能中國移動自有人員實踐培訓,打造專業(yè)智算運維人才隊伍,實現(xiàn)技術(shù)疑難問題快速閉環(huán),為后續(xù)智算中心的體系化運維儲備高質(zhì)量人才;同時,通過深度分析智算中心機房環(huán)境、硬件設(shè)備、資源規(guī)劃、應急管理、故障申報處理、投訴響應、業(yè)務支撐、客戶管理、安全管理等運維場景,明確運維管理規(guī)范,使日常管理工作有章可循、有據(jù)可依,確保整體系統(tǒng)安全穩(wěn)定、高效運行。
從傳統(tǒng)通信機房到智能算力中樞,從設(shè)備運維到算力服務,中國移動智算中心(武漢)的運維服務進化之路揭示著AI新基建的深層邏輯:以技術(shù)服務商的全棧能力為支點,以運營商的場景資源為杠桿,共同撬動智能計算的無限可能。
- 劉強東反思退休:從理想主義到職業(yè)經(jīng)理人傳承的轉(zhuǎn)變
- 北京智能家居新補貼:解鎖、馬桶等產(chǎn)品最高享2000元優(yōu)惠
- 華為遼寧移動聯(lián)手創(chuàng)新,全球首個智能追焦單元商用組網(wǎng)驚艷登場
- 華為C919再獲肯定,DeepSeek引領(lǐng)科技新潮流
- 蘋果iOS 18.6新功能曝光:AI功能仍缺席,國行iPhone用戶或成最大犧牲品?
- 華為鴻蒙OS PC市場潛力顯現(xiàn),中國大陸PC市場2025年Q1有望迎來強勁增長
- 李書福豪賭新能源車市:極星獲2億美元“定心錘”,能否攪動高端市場?
- 印度共享汽車平臺Zoomcar再陷數(shù)據(jù)泄露風波:840萬用戶信息受影響,警惕安全風險
- 小鵬汽車老板回應小米股票投資:賺翻卻不吹捧紅利空間
- 小米汽車熱銷背后:技術(shù)實力取勝,不依賴流量,實干鑄就輝煌
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。