阿里云通義團隊于9月12日正式發(fā)布下一代基礎模型架構 Qwen3-Next,并開源基于該架構的 Qwen3-Next-80B-A3B 系列模型,涵蓋 Instruct 與 Thinking 兩個版本。這一發(fā)布標志著阿里云在大規(guī)模語言模型的技術路徑上進一步聚焦于高效能結構與開源生態(tài)的構建。
新架構的核心創(chuàng)新體現(xiàn)在兩方面:混合注意力機制(Hybrid Attention)與高稀疏度混合專家模型(MoE)結構。團隊指出,Context Length Scaling(上下文長度擴展)和 Total Parameter Scaling(總參數(shù)量擴展)是當前大模型發(fā)展的主要趨勢,而 Qwen3-Next 的設計目標正是為了顯著提升模型在長上下文與大參數(shù)量場景中的訓練與推理效率。
具體而言,Qwen3-Next-80B-A3B-Base 模型采用了總參數(shù)量達800億、激活參數(shù)量僅為30億的超稀疏MoE架構。其MoE部分包含512個專家,每次推理僅路由至10個專家及1個共享專家,顯著降低了計算開銷。同時,該模型整合了Gated DeltaNet與Gated Attention相結合的混合注意力機制,并引入多 Token 預測(MTP)機制以提升推理并行度。
性能方面,該Base模型在多項評測中表現(xiàn)接近Qwen3-32B dense模型,部分任務甚至略優(yōu),而其訓練成本不到后者的十分之一。在長上下文處理上,該模型原生支持262K token,并可外推至約101萬 token,在32K以上上下文中的推理吞吐達到Qwen3-32B的十倍以上。
指令微調(diào)版(Instruct)在綜合評測中接近Qwen3-235B模型性能,而思維增強版(Thinking)在部分推理任務上表現(xiàn)優(yōu)于Gemini-2.5-Flash-Thinking。這一成果表明,Qwen3-Next 架構在參數(shù)量利用效率、長序列建模和推理加速等方面實現(xiàn)了較為均衡的突破。
目前,模型權重已基于Apache-2.0許可證在Hugging Face平臺開源,支持通過Transformers、SGLang、vLLM等主流框架進行部署,同時也在OpenRouter等第三方推理平臺上線。
通義團隊此次發(fā)布不僅提供了一套高性能開源模型,更展示出一種面向效率與擴展性并重的模型架構方向,為行業(yè)在超大模型訓練與推理優(yōu)化方面提供了值得參考的實現(xiàn)路徑。
(注:本文在資料搜集、框架搭建及部分段落初稿撰寫階段使用了 AI 工具,最終內(nèi)容經(jīng)人類編輯核實事實、調(diào)整邏輯、優(yōu)化表達后完成。)
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )