數(shù)字化轉(zhuǎn)型正在對傳統(tǒng)產(chǎn)業(yè)進(jìn)行重塑,人工智能、云計(jì)算、大數(shù)據(jù)……為千行百業(yè)的智能升級注入了先進(jìn)生產(chǎn)力,與此同時,這些前沿技術(shù)對智慧計(jì)算場景的資源需求也呈現(xiàn)指數(shù)級增長。數(shù)據(jù)顯示,中國的關(guān)鍵應(yīng)用市場將保持年均10%左右的提升,預(yù)計(jì)到2020年會有接近100億的規(guī)模。提到處理關(guān)鍵業(yè)務(wù)和密集型負(fù)載,相信Power會是很多企業(yè)的選擇。如今,圍繞POWER——這一體系結(jié)構(gòu)和通用處理器工程設(shè)計(jì)領(lǐng)域的最佳實(shí)踐,開放的生態(tài)正使其發(fā)展得愈發(fā)繁茂,而浪潮商用機(jī)器有限公司(IPS)即是孕育這一片沃土的重要力量。
從1993年搭載10顆486 CPU的SMP2000,到2007年高效能服務(wù)器和存儲技術(shù)國家重點(diǎn)實(shí)驗(yàn)室落戶浪潮,再到2010年400多位浪潮工程師耗費(fèi)4年研制成功K1小型機(jī),使得中國成為除美國、日本之外全球第三個具備關(guān)鍵應(yīng)用主機(jī)研制能力的國家……直至2018年基于POWER處理器的K1 Power產(chǎn)品線上市,浪潮在國內(nèi)高端小型機(jī)設(shè)計(jì)的道路上始終扮演著引領(lǐng)者的角色。然而,每一次成功的背后都是關(guān)鍵技術(shù)的突破,時至今日,浪潮商用機(jī)器有限公司副總經(jīng)理黃家明仍記憶猶新。
浪潮商用機(jī)器有限公司副總經(jīng)理黃家明
2010年32路安騰架構(gòu)的機(jī)器出來時,面臨著一個大問題就是x86處理器通過緩存一致性協(xié)議的互聯(lián),GPU要和主處理器共享內(nèi)存。為了讓機(jī)器發(fā)揮更大的擴(kuò)展效率,芯片之間要具備互聯(lián)網(wǎng)絡(luò),但當(dāng)時使用英特爾QPI協(xié)議連接要符合其處理器接口和規(guī)范,必須經(jīng)過授權(quán),如果是自主芯片之間使用QPI互聯(lián)是被禁止的,因此浪潮要自行研發(fā)高速協(xié)議網(wǎng)絡(luò)以實(shí)現(xiàn)緩存一致性。
“我們做了緩存一致性的協(xié)議處理芯片。這個芯片類似于一個沒有計(jì)算核心的處理器,但是能夠處理處理器核心之間通信的緩存一致性,這樣能夠把32路的安騰芯片結(jié)合起來,形成一臺機(jī)器來跑,這是國內(nèi)的重要突破。”黃家明說。這枚芯片是專為與QPI協(xié)議對接設(shè)計(jì)的,可以和英特爾處理器通信,能理解每一次緩存、每一次內(nèi)存事務(wù)的過程。這次互聯(lián)協(xié)議的技術(shù)攻關(guān),為日后在其他平臺上做不同的協(xié)議實(shí)現(xiàn)奠定了研發(fā)基礎(chǔ)。
堅(jiān)持自主創(chuàng)新,浪潮一直引領(lǐng)著國內(nèi)高端小型機(jī)設(shè)計(jì)發(fā)展方向,突破了小型機(jī)多項(xiàng)核心技術(shù),其中,浪潮自研的雙翼可擴(kuò)展緊耦合體系架構(gòu),支持互連網(wǎng)絡(luò)單跳步32路擴(kuò)展,獲得了PCT國際專利授權(quán)。在體系結(jié)構(gòu)之上,浪潮消除了底層硬件差異化,在整機(jī)上開發(fā)了KUX操作系統(tǒng),向上與UNIX接口兼容。關(guān)鍵應(yīng)用層面,浪潮一方面支持IBM DB2的部署,另一方面對與Oracle最接近且兼容性最好的KDB數(shù)據(jù)庫進(jìn)行移植,并且通過了IBM的嚴(yán)苛測試。
正是由于浪潮在架構(gòu)設(shè)計(jì)和關(guān)鍵應(yīng)用上的自研實(shí)力,為K1 Power的誕生鋪平了道路。目前,IPS在2019年上半年中國UNIX市場的占有率已超過64%,以往購買過POWER8的金融客戶中,有80%是省、市級城商行,以及農(nóng)信和全國的股份制銀行,這些銀行有80%均購買了IPS的設(shè)備,后者為舊版Power機(jī)器提供了平滑、無縫的遷移方案。核心客戶的認(rèn)可足以說明K1 Power的過硬品質(zhì),而這也得益于IPS的一系列“秘密武器”。
“獨(dú)步江湖”的高性能體驗(yàn)
作為瞄準(zhǔn)核心業(yè)務(wù)應(yīng)用的動力源泉,POWER處理器在性能設(shè)計(jì)方面的獨(dú)特性一直“獨(dú)步江湖”。通常,如果是x86處理器每個內(nèi)核能支持2個線程,那么POWER處理器的每個內(nèi)核就可以有8個線程,8路多線程POWER處理器內(nèi)核的平均性能幾乎是x86內(nèi)核的兩倍。較上一代產(chǎn)品,POWER9處理器的主頻可以達(dá)到4GHz,每核性能提升40%,單核線程數(shù)提升4倍,L3高速緩存提升3.3倍,處理器互聯(lián)帶寬提升7倍,單處理器內(nèi)存容量提升2.7倍,內(nèi)存帶寬提升2倍,I/O總帶寬提升2倍,支持PCIe 4.0、NVLink 2.0、CAPI 2.0、New CAPI等協(xié)議。
“Power支持PCIe 4.0和NVLink 2.0,可以對CPU和I/O之間提供高帶寬支持,滿足關(guān)鍵應(yīng)用負(fù)載的要求。”浪潮商用機(jī)器有限公司產(chǎn)品研發(fā)部副總經(jīng)理尹宏偉表示,“K1 Power在商業(yè)數(shù)據(jù)庫如EDB、DB2和Oracle、SPARC這類應(yīng)用系統(tǒng)上,都是兩倍以上的性能提升。對于開源的數(shù)據(jù)庫,我們的測試也是有兩倍以上的性能增長。”此外,整機(jī)性能更強(qiáng)的Power服務(wù)器還可以通過分區(qū)的形式滿足不同的應(yīng)用負(fù)載,大幅提升資源使用效率。
在關(guān)鍵業(yè)務(wù)場景,Power一貫的Scale Up優(yōu)勢使其在核心數(shù)據(jù)庫平臺能夠輕松處理大規(guī)模業(yè)務(wù)并發(fā),而在像分布式存儲、大數(shù)據(jù)、AI等新興的業(yè)務(wù)場景,Power同樣優(yōu)勢明顯。例如在運(yùn)行開源數(shù)據(jù)庫MariaDB時,搭載POWER9 LaGrange處理器的雙路FP5290G2較四路x86 6148平臺,每核性能提升1.6倍,CPU整體性能提升1.75倍。對于客戶應(yīng)用來說,在同等功耗和同等計(jì)算空間內(nèi),得到了翻倍的性能提升,有效降低了TCO。
此外,IPS研發(fā)團(tuán)隊(duì)還針對客戶具體需求進(jìn)行定制化研發(fā)調(diào)優(yōu),使得K1 Power在特定場景下的運(yùn)行能力顯著加強(qiáng)。浪潮商用機(jī)器有限公司產(chǎn)品營銷部總經(jīng)理江豫京介紹稱:“前段時間,我們和國家某個證券相關(guān)機(jī)構(gòu)做了POC測試,用K1 Power加上國產(chǎn)的存儲設(shè)備來搭建平臺,替換以前的系統(tǒng)。在僅遷移平臺(300個應(yīng)用),還沒有做調(diào)優(yōu)的情況下,我們的性能提升就讓業(yè)務(wù)時間節(jié)省了40%。因此,基于浪潮在高端服務(wù)器研發(fā)和設(shè)計(jì)的技術(shù)積累,結(jié)合POWER服務(wù)器的強(qiáng)大功能,我們有信心在關(guān)鍵業(yè)務(wù)和創(chuàng)新應(yīng)用場景下為客戶帶來更多價值。”
不僅跑得快 還要跑得穩(wěn)
就像一輛好的超級跑車,不僅要有飛一般的速度,跑得穩(wěn)才是成功抵達(dá)終點(diǎn)的保障。穩(wěn)定性、可靠性,以及設(shè)計(jì)、性能、服務(wù)等維度的高標(biāo)準(zhǔn),是Power在設(shè)計(jì)之初就秉承的第一要務(wù)。通過引入RAS(Reliability、Availability、Serviceability)設(shè)計(jì)理念,并增加獨(dú)立的故障服務(wù)處理器等模塊,K1 Power要在部件、系統(tǒng)、測試、散熱等各個維度實(shí)現(xiàn)系統(tǒng)的穩(wěn)定可靠。用黃家明的話說,半導(dǎo)體器繁多的顆??倳霈F(xiàn)或大或小的問題,處理這些問題需要多個業(yè)務(wù)部門的協(xié)作,所涉及的必要技術(shù)手段就是冗余。
RAS設(shè)計(jì)理念
除了空間冗余,即多路徑冗余容錯,還要考慮到時間冗余,與x86仿真指令可能出現(xiàn)的讀回故障導(dǎo)致宕機(jī)不同,Power支持的指令集重試和動態(tài)路徑選擇,使得其在遇到指令路徑訪問不通時,可以重新選一條路徑去訪問遠(yuǎn)程的內(nèi)存,這樣就大幅降低了故障率。即可理解為每個系統(tǒng)控制單元中有兩個冗余的時鐘卡,通過線纜對系統(tǒng)提供冗余的時鐘,當(dāng)任意一個時鐘卡出現(xiàn)故障時,另一組時鐘可以無縫切換保持系統(tǒng)穩(wěn)定運(yùn)行。
無論是CPU與CPU之間,還是CPU與內(nèi)存之間,亦或是內(nèi)存DRAM芯片本身,IPS將冗余做到了芯片級、鏈路級和板機(jī)布線層面。例如在部件和鏈路上,電源的穩(wěn)壓模塊做到了N+2的冗余設(shè)計(jì),相當(dāng)于有多套變壓器把系統(tǒng)12V電壓分給板機(jī)的各個元器件使用,而x86則是一套變壓器供多個電壓給板機(jī)系統(tǒng)使用。對于電源、SMP線纜、時鐘、FSP模塊、I/O控制器等關(guān)鍵部件,IPS都做了冗余設(shè)計(jì)。
除此之外,K1 Power還借助多達(dá)16萬個故障檢查器,實(shí)時監(jiān)測著系統(tǒng)運(yùn)行狀態(tài),對故障進(jìn)行捕獲,并在故障擴(kuò)散傳播之前隔離到限定區(qū)進(jìn)行在線修復(fù),甚至可以做到對CPU內(nèi)部核心級別的故障隔離,確保系統(tǒng)持續(xù)運(yùn)行。為此,IPS的首錯數(shù)據(jù)捕獲機(jī)制FFDC(First Failure Data Capture)在設(shè)計(jì)階段就在進(jìn)行各類錯誤模擬,在實(shí)際運(yùn)行階段會做錯誤捕獲。發(fā)生錯誤之后,在維護(hù)階段還可以做錯誤重現(xiàn),把所有可能產(chǎn)生的錯誤提前做到預(yù)警、備案和處理。對于沒有糾錯機(jī)制的部件,K1 Power還支持重試機(jī)制,通過重試來判斷故障是否為真。
在黃家明看來,錯誤捕獲和隔離的RAS設(shè)計(jì)可以看作是Power的精華,“因?yàn)檫@部分RAS實(shí)際上涉及到了各個方面,而且每一項(xiàng)功能的實(shí)現(xiàn)都要從芯片出發(fā),從板機(jī)的設(shè)計(jì)到系統(tǒng)的設(shè)計(jì),以及操作系統(tǒng)的固件、BIOS,這就需要與負(fù)責(zé)操作系統(tǒng)的同事合作實(shí)現(xiàn),因?yàn)椴僮飨到y(tǒng)里面需要加入更多針對性的內(nèi)核驅(qū)動去處理這些故障,涉及到內(nèi)存的隔離、遷移,包括內(nèi)存數(shù)據(jù)多副本的故障轉(zhuǎn)移等。這就要求有一個專門面向高可靠性設(shè)計(jì)的團(tuán)隊(duì)。”
只做超出客戶預(yù)期的產(chǎn)品
筆者記得浪潮商用機(jī)器有限公司總經(jīng)理胡雷鈞曾講述過一個生動的體驗(yàn):在地鐵建設(shè)過程中,有很多項(xiàng)目是需要趕工期的,有時候整個土建還沒有完成,信息化設(shè)備就進(jìn)場了。機(jī)器里面積了一層土,連芯片上面的字都看不見了,但Power的機(jī)器依然能夠穩(wěn)定運(yùn)行,而且是在高鹽、高蝕,高粉末粉塵的環(huán)境中。這樣高品質(zhì)的機(jī)器所經(jīng)歷的硬件設(shè)計(jì)考驗(yàn)必定也是極端嚴(yán)格的。
由于Power處理的信號都是高速信號,對信號之間的干擾非常敏感,為了保證高速信號在CPU、內(nèi)存、I/O、加速器之間傳遞的穩(wěn)定性,所有與高速信號走線層相鄰的平面層都是地平面,以此更好的隔絕電子噪音造成的信號串?dāng)_。在板機(jī)設(shè)計(jì)時,K1 Power采用了40層混壓主板設(shè)計(jì),做到每兩層信號之間都有一個D層,并且每一片主板都通過了IBM標(biāo)準(zhǔn)苛刻的熱力沖擊測試,實(shí)現(xiàn)100%可靠出貨。
散熱方面,K1 Power遵循“Less power, Less failure”的原則,在設(shè)計(jì)時就選用了低功耗的器件,提升零件可靠性,例如使用銦金屬片導(dǎo)熱材質(zhì)而不是導(dǎo)熱膏,使得導(dǎo)熱效率提升近10倍,且長期有效。同時,還借助動態(tài)分區(qū)散熱控制技術(shù),讓各發(fā)熱區(qū)域獨(dú)立風(fēng)扇轉(zhuǎn)速控制,提高散熱利用率,保障CPU等元器件性能穩(wěn)定發(fā)揮。
深入到系統(tǒng)底層,K1 Power在挑選元器件和部件選型時有著更高的標(biāo)準(zhǔn)。例如使用的抗硫化電阻能夠在110度極限環(huán)境測試條件下較傳統(tǒng)電阻使用壽命高4倍以上,設(shè)計(jì)壽命遠(yuǎn)超7年;鋁制框設(shè)計(jì)的風(fēng)扇增加了自重讓系統(tǒng)減震效果更好,進(jìn)而提升了系統(tǒng)性能和運(yùn)行可靠性,設(shè)計(jì)壽命達(dá)到22年;穩(wěn)定的自身散熱系統(tǒng)不僅能提升導(dǎo)熱效率,還可以在硫化環(huán)境下能避免老化。
為什么Power的研發(fā)周期很長?有很大一部分原因是做了大量的仿真工作,將潛在風(fēng)險提前消除。拿結(jié)構(gòu)仿真來說,其包括結(jié)構(gòu)應(yīng)力靜態(tài)分析,振動及沖擊結(jié)構(gòu)動態(tài)分析,可有效控制結(jié)構(gòu)可靠性設(shè)計(jì)風(fēng)險;再如散熱仿真,通過建立精度更高、粒度更細(xì)的散熱仿真模型,可提高散熱仿真的效率,降低服務(wù)器的散熱與能耗,提升整機(jī)可靠性;而電信號仿真,則通過建立高精度信號仿真,保障了Power產(chǎn)品信號傳輸速率,確保信號傳輸質(zhì)量和抗干擾能力。
在仿真之后的檢測和測試環(huán)節(jié),K1 Power的每一臺機(jī)器都會經(jīng)過覆蓋率100%的功能測試,高端機(jī)型測試大項(xiàng)共計(jì)660多項(xiàng),測試?yán)匣瘯r間超過48小時,并且經(jīng)過嚴(yán)格的Corner-test,確保每臺服務(wù)器都能夠在極限電壓和動態(tài)頻率下穩(wěn)定工作。無論是檢驗(yàn)覆蓋率還是測試強(qiáng)度,均比x86服務(wù)器高出不少。例如在PCB熱沖擊測試中,x86服務(wù)器對PCB的熱沖擊測試是緩慢升溫,然后再下去,而Power則是急劇升溫,維持一段時間再下去,測試標(biāo)準(zhǔn)更為嚴(yán)格。
定制能力決定與眾不同
可以說,IPS對Power的定制化開發(fā)能力,讓后者更上了一層臺階。從安全性來看,IPS在部件層通過自主研發(fā)確保了系統(tǒng)更加穩(wěn)定,對所有的部件均有安全認(rèn)證機(jī)制,類似于可信計(jì)算的方式使得Secure Boot引導(dǎo)時,如果操作者的指紋信息沒有在TPM芯片內(nèi)錄入,就無法進(jìn)行操作,新更換的部件在沒有經(jīng)過認(rèn)證前,也是無法安裝上運(yùn)行的。在固件層面,經(jīng)過檢驗(yàn)的固件信息貼片于芯片內(nèi)部,只有在工廠模式中才能寫入,用戶模式則無法進(jìn)行修改。AIX操作系統(tǒng)安全加固模塊(K1 Power SSR)、國產(chǎn)可信計(jì)算模塊、符合商用密碼證書的外置硬件安全模塊(HSM)、自研的可信操作系統(tǒng)KUX……都是IPS為客戶保駕護(hù)航的獨(dú)門絕技。
從整合能力來看,IPS的技術(shù)團(tuán)隊(duì)一直在思考如何結(jié)合x86的技術(shù)理念,拓展Power和OpenPOWER的產(chǎn)品邊界。例如,IPS為某客戶在兩顆OpenPOWER測試時,曾被要求把Power做到600瓦,于是在設(shè)計(jì)時把x86的整套固件包括電源控制和熱管理系統(tǒng)都移植到Power平臺,滿足了客戶需求;再如,IPS把IBM原來的Call Home功能、機(jī)器管理系統(tǒng)等都針對本地服務(wù)進(jìn)行了自主設(shè)計(jì);在模塊上,把TPM“改成了”PCM,符合了中國市場的標(biāo)準(zhǔn)。
由這種整合能力更進(jìn)一步,即是浪潮成功的JDM模式——通過定制化生產(chǎn)交付的敏捷創(chuàng)新模式,這無疑更加適應(yīng)互聯(lián)網(wǎng)時代的需求,也是IPS開拓新興市場的巨大優(yōu)勢。尹宏偉認(rèn)為,互聯(lián)網(wǎng)客戶的快速需求使得廠商沒有時間花費(fèi)半年去測試產(chǎn)品,定制化可以更多地集成浪潮現(xiàn)有的產(chǎn)品或者架構(gòu),對重點(diǎn)需求進(jìn)行局部開發(fā),快速做出一類Power服務(wù)器來響應(yīng)用戶。對于云計(jì)算、AI這類新興的資源部署方式和技術(shù)應(yīng)用,IPS也有著相應(yīng)的解決方案,可讓關(guān)鍵數(shù)據(jù)庫運(yùn)行在云架構(gòu)上,根據(jù)客戶需求做動態(tài)調(diào)整,而Power在I/O能力、內(nèi)存通信帶寬、芯片互聯(lián)等方面的優(yōu)勢,則為用戶提供了x86之外的互補(bǔ)甚至是更好的選擇。
綜上所述,IPS憑借浪潮20多年在高端小型機(jī)上的成功經(jīng)驗(yàn),為K1 Power的成功打下了堅(jiān)實(shí)的基礎(chǔ),并將這一優(yōu)勢繼續(xù)發(fā)揚(yáng)光大。自2018年5月2日正式運(yùn)營以來,IPS以其過硬的產(chǎn)品品質(zhì)、貼近客戶的需求定制,以及深厚的自主研發(fā)能力快速占據(jù)了中國Unix市場,為Power打上了IPS的印記。K1 Power,不僅向x86客戶證明了什么是物有所值,更為Power生態(tài)的發(fā)展之路描繪出了一個絢爛多彩的未來。
來源:中關(guān)村在線
- 劉強(qiáng)東反思退休:從理想主義到職業(yè)經(jīng)理人傳承的轉(zhuǎn)變
- 北京智能家居新補(bǔ)貼:解鎖、馬桶等產(chǎn)品最高享2000元優(yōu)惠
- 華為遼寧移動聯(lián)手創(chuàng)新,全球首個智能追焦單元商用組網(wǎng)驚艷登場
- 華為C919再獲肯定,DeepSeek引領(lǐng)科技新潮流
- 蘋果iOS 18.6新功能曝光:AI功能仍缺席,國行iPhone用戶或成最大犧牲品?
- 華為鴻蒙OS PC市場潛力顯現(xiàn),中國大陸PC市場2025年Q1有望迎來強(qiáng)勁增長
- 李書福豪賭新能源車市:極星獲2億美元“定心錘”,能否攪動高端市場?
- 印度共享汽車平臺Zoomcar再陷數(shù)據(jù)泄露風(fēng)波:840萬用戶信息受影響,警惕安全風(fēng)險
- 小鵬汽車?yán)习寤貞?yīng)小米股票投資:賺翻卻不吹捧紅利空間
- 小米汽車熱銷背后:技術(shù)實(shí)力取勝,不依賴流量,實(shí)干鑄就輝煌
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。