久久人人爽人人爽人人片av超碰 ,久久精品国产99久久香蕉

2025年7月25日，浪潮存儲營銷總監(jiān)張業(yè)興出席中國信息通信研究院主辦的2025(第二屆)產(chǎn)融合作大會。會上，張業(yè)興發(fā)表題為《融存智用運(yùn)籌新數(shù)據(jù) ——浪潮存儲金融解決方案和實(shí)踐》的主題演講，并代表浪潮存儲正式發(fā)布國內(nèi)首款推理加速存儲AS3000G7。該產(chǎn)品憑借“以存代算”的技術(shù)創(chuàng)新，有效破解KV Cache重復(fù)計(jì)算帶來的算力和時(shí)延損耗難題，為大模型推理場景提供突破性解決方案，加速推動大模型在金融、科研等領(lǐng)域的規(guī)?；涞?。

引領(lǐng)大模型推理效率革命！浪潮存儲發(fā)布國內(nèi)首款推理加速存儲AS3000G7

大模型推理效能瓶頸：吞吐量和時(shí)延

當(dāng)前人工智能大模型的應(yīng)用已滲透千行百業(yè)，既推動著產(chǎn)業(yè)效能的跨越式提升，也深刻重構(gòu)著生產(chǎn)生活的底層邏輯，成為驅(qū)動數(shù)字經(jīng)濟(jì)發(fā)展與社會智能化升級的核心力量。隨著大模型應(yīng)用的普及和相關(guān)技術(shù)的發(fā)展，各行各業(yè)對大模型應(yīng)用的關(guān)注點(diǎn)逐漸從大模型的訓(xùn)練轉(zhuǎn)到大模型的推理。據(jù)IDC數(shù)據(jù)顯示，智能算力規(guī)模在未來5年增長1.7倍，用于推理的工作負(fù)載將從2023年的40%上升到2027年的70%以上。因此，大模型推理將會成為未來大模型應(yīng)用的焦點(diǎn)。然而，當(dāng)前大模型推理仍然需要借助GPU服務(wù)器來實(shí)現(xiàn)，而GPU服務(wù)器，也是整個(gè)大模型落地中最昂貴的投資。因此，充分發(fā)揮GPU服務(wù)器的利用率來提升大模型推理效率是大模型的落地關(guān)鍵，推理效率的高低直接決定著大模型從“實(shí)驗(yàn)室”到“生產(chǎn)線”的落地速度。

大模型推理效率面臨兩大核心瓶頸：吞吐量(Tokens/s)和時(shí)延。吞吐量是指系統(tǒng)在單位時(shí)間內(nèi)能處理的tokens的數(shù)量，數(shù)值越高表明LLM服務(wù)資源利用率越高、系統(tǒng)成本越低。時(shí)延則是用戶接收每個(gè)token的平均耗時(shí)，其中首字時(shí)延(TTFT)是長文本對話場景中 “實(shí)時(shí)交互體驗(yàn)” 的核心指標(biāo)，直接影響用戶體驗(yàn)。

大模型的推理包含兩個(gè)階段，第一個(gè)階段是預(yù)填充(Prefilling)階段。Prefilling階段處理輸入，構(gòu)建初始上下文并緩存成KV Cache(key-value鍵值對)，緩存在GPU的HBM顯存里。第二個(gè)階段是解碼(Decode)階段，解碼階段則利用Prefilling階段生成的KV Cache，迭代地生成輸出Token，最終給出推理答案。

根據(jù)大數(shù)據(jù)統(tǒng)計(jì)分析，超過 76% 的對話都是多輪的，多輪對話會產(chǎn)生大量的KV Cache，上一輪的對話產(chǎn)生的KV Cache也會作為下一輪推理的輸入基礎(chǔ)，為連續(xù)交互提供上下文支撐。但實(shí)際場景中，GPUHBM顯存容量存在明顯限制，因此多輪對話中的KV Cache會被強(qiáng)制丟棄，在下一輪對話中需要消耗算力來重新計(jì)算。以DeepSeek 70B模型為例，其每10分鐘產(chǎn)生的KV Cache高達(dá)25TB，但每張GPU HBM顯存只有幾十GB，因此，在服務(wù)完一個(gè)請求后，需清空顯存以接納新請求，KV Cache被強(qiáng)制丟棄，在后續(xù)對話中，原本可復(fù)用的KV Cache需要重新計(jì)算。這種重復(fù)計(jì)算直接時(shí)延增加(首字響應(yīng)變慢)，同時(shí)造成GPU算力空轉(zhuǎn)(重復(fù)執(zhí)行相同計(jì)算)，導(dǎo)致吞吐量下降，最終導(dǎo)致資源利用率降低。因此，高效管理KV Cache緩存成為提升推理效率的關(guān)鍵。

存儲產(chǎn)品托管KV Cache，實(shí)現(xiàn)“以存代算”

浪潮存儲AS3000G7作為國內(nèi)首款推理加速存儲，可存儲所有KV Cache及多輪對話結(jié)果。其創(chuàng)新架構(gòu)通過將KV Cache從GPU寫入本機(jī)內(nèi)存，再經(jīng)高速網(wǎng)絡(luò)緩存至AS3000G7，下輪對話時(shí)按需拉取緩存無需重新計(jì)算，徹底實(shí)現(xiàn)“以存代算”，顯著節(jié)省算力消耗并提升資源利用率。

引領(lǐng)大模型推理效率革命！浪潮存儲發(fā)布國內(nèi)首款推理加速存儲AS3000G7

作為國內(nèi)首款推理加速存儲產(chǎn)品，AS3000G7以四大核心優(yōu)勢重塑推理效率：

降低響應(yīng)延遲：將歷史Token緩存至AS3000G7存儲層，下輪對話從NVMe SSD硬盤中拉取歷史token的KV Cache，減少GPU重復(fù)計(jì)算帶來的資源消耗，TTFT降低90%;

承載更多并發(fā)：TTFT在400ms以內(nèi)的前提下，系統(tǒng)可支持的吞吐量(Token/s)可達(dá)原方案5倍，單位GPU資源可承載更多推理請求;

降低GPU功耗：TTFT的降低與并發(fā)的提升，單Token平均功耗下降60%，在承載同等規(guī)模 token 負(fù)載時(shí)，GPU服務(wù)器整機(jī)功耗降低。

生態(tài)兼容適配：廣泛兼容國產(chǎn)與海外芯片的異構(gòu)算力平臺，深度適配vLLM框架下的deepseek等主流大模型，優(yōu)化推理體驗(yàn)。

在某頭部客戶聯(lián)合測試中，采用1臺GPU服務(wù)器搭配1臺AS3000G7推理加速存儲的組合方案實(shí)現(xiàn)：

穩(wěn)定支撐500+并發(fā)對話，TTFT降低90%，響應(yīng)速度大幅提升

同硬件配置下吞吐量(Tokens/s)提升5倍，在不增加 GPU 資源的情況下，實(shí)現(xiàn)更高并發(fā)的推理請求

單token功耗降低70%，單位算力成本降低60%，推理性價(jià)比提升

引領(lǐng)大模型推理效率革命！浪潮存儲發(fā)布國內(nèi)首款推理加速存儲AS3000G7

隨著大模型推理需求的持續(xù)攀升，AS3000G7的推出恰逢其時(shí)。其通過 “以存代算” 的技術(shù)創(chuàng)新突破 KV Cache 重計(jì)算瓶頸，為 AI 規(guī)?；瘧?yīng)用筑牢存儲根基。未來，隨著多模態(tài)與實(shí)時(shí)交互場景的普及以及存儲與計(jì)算的協(xié)同優(yōu)化，KV Cache “以存代算”將成為降本增效的核心競爭力，為智能時(shí)代的推理存儲構(gòu)建新基準(zhǔn)。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

女人被狂躁到高潮呻吟小说,蜜桃成人网,女人与公豬交交30分钟视频,久久无码精品一区二区三区,浓毛老太交欧美老妇热爱乱

引領(lǐng)大模型推理效率革命！浪潮存儲發(fā)布國內(nèi)首款推理加速存儲AS3000G7

引領(lǐng)大模型推理效率革命！浪潮存儲發(fā)布國內(nèi)首款推理加速存儲AS3000G7