在全球AI競賽進(jìn)入“下半場”的關(guān)鍵節(jié)點(diǎn),一家來自上海的AI獨(dú)角獸公司——MiniMax,用一場史無前例的“技術(shù)發(fā)布周”,宣告其在基座模型、多模態(tài)技術(shù)和通用智能體Agent、視頻Agent等領(lǐng)域的全面突破。
那么,在這場不斷進(jìn)擊極限的賽道上,他們是如何率先沖破技術(shù)邊界、跨越現(xiàn)有上限的?
一、開源MiniMax-M1 重塑成本效益
當(dāng)下,人們對(duì)AI的態(tài)度愈發(fā)務(wù)實(shí),AI競賽的焦點(diǎn)逐漸從模型參數(shù)轉(zhuǎn)向效率成本和落地能力的綜合比拼。
美國斯坦福大學(xué)發(fā)布的《人工智能指數(shù)報(bào)告》(AI Index Report 2025)首次對(duì)推理成本進(jìn)行了追蹤,報(bào)告顯示,推理成本在過去兩年中降幅超過 280 倍。硬件層面,成本每年下降約 30%,而能效每年提升約 40%,成本效益顯著提升。
近期,大規(guī)模混合架構(gòu)推理模型MiniMax M1重磅開源,重塑成本效益,閉源模型的技術(shù)壁壘被開源力量快速消解。
MiniMax-M1發(fā)布后在海外引起了開發(fā)者的廣泛探討:
社交平臺(tái)X知名AI博主MinChoi評(píng)論稱,MiniMax-M1簡直可以說集Manus 、Deep Research、計(jì)算機(jī)技能和可愛于一體,隨即他還展出了自己用MiniMax-M1做的10個(gè)有趣案例;美國知名科技媒體 VentureBeat 稱為“正在攪動(dòng)全球模型格局”,并成為當(dāng)前開源體系下極具代表性的高性價(jià)比大模型;科技媒體The Decoder 則將其性能對(duì)標(biāo) Google Gemini 2.5 Pro,進(jìn)一步印證了 MiniMax 在全球技術(shù)版圖上的崛起地位。
MiniMax M1被譽(yù)為“全球首個(gè)開源大規(guī)模混合架構(gòu)的推理模型”,其核心價(jià)值不僅在于多個(gè)生產(chǎn)力場景中比肩甚至超越頂尖閉源模型,更在于其極致的成本效益和技術(shù)創(chuàng)新,為AI的規(guī)?;瘧?yīng)用提供了全新可能。
其獨(dú)特的“閃電注意力”(Lightning Attention)混合架構(gòu)與創(chuàng)新性的CISPO算法,在實(shí)現(xiàn)業(yè)內(nèi)最高的100萬上下文的輸入與業(yè)內(nèi)最長的8萬Token的推理輸出的同時(shí),可以大幅提升計(jì)算效率。
技術(shù)報(bào)告顯示,在進(jìn)行8萬Token深度推理時(shí),所需算力僅為同賽道強(qiáng)手DeepSeek R1的約30%,實(shí)現(xiàn)了性能與效率的完美統(tǒng)一。在最新的 Artificial Analysis Intelligence Index 榜單中,MiniMax M1位列全球開源模型第二名。
更快的收斂意味著更少的訓(xùn)練時(shí)間和資源消耗。得益于CISPO算法的高效,M1模型的整個(gè)強(qiáng)化學(xué)習(xí)階段僅使用了512塊英偉達(dá)H800 GPU,耗時(shí)三周,成本僅為53.5萬美元。
MiniMax官方表示,這一成本“比最初的預(yù)期少了一個(gè)數(shù)量級(jí)”,足見其技術(shù)路線在成本控制上的巨大潛力。
二、Hailuo02:突破物理極限 實(shí)現(xiàn)電影級(jí)AI視頻創(chuàng)作
在M1攪動(dòng)語言模型市場的同時(shí),MiniMax近期的另一款發(fā)布——新一代視頻生成模型Hailuo 02,則在多模態(tài)領(lǐng)域投下了一顆更具視覺沖擊力的“炸彈”。
據(jù)介紹,這是目前全球唯一一個(gè)可以實(shí)現(xiàn)類似高復(fù)雜物理場景的視頻大模型。一經(jīng)發(fā)布,海外社交媒體上便充滿了Hailuo 02生成的高難度動(dòng)作視頻,其中一個(gè)貓咪跳水的視頻5 小時(shí)就引得超過全球上億人圍觀。
具體來說,Hailuo 02的核心突破,在于其創(chuàng)新的Noise-aware Compute Redistribution(NCR)架構(gòu),在將模型參數(shù)和訓(xùn)練數(shù)據(jù)量分別提升3倍和4倍的同時(shí),實(shí)現(xiàn)了2.5倍的效率飛躍。
在國際權(quán)威測評(píng)榜單Artificial Analysis視頻競技場中,Hailuo-02一經(jīng)發(fā)布便迅速拿下全球第二的寶座,領(lǐng)先于Google Veo3和快手可靈(Kling)。
可以看出,最終呈現(xiàn)的效果是驚人的,原生1080P高清畫質(zhì)直接輸出電影級(jí)的視頻畫面;極限復(fù)雜運(yùn)動(dòng)場景的實(shí)現(xiàn)體操運(yùn)動(dòng)員在空中連續(xù)翻轉(zhuǎn)的流暢身姿、馬戲演員噴火時(shí)火花與光影的逼真互動(dòng),輕松實(shí)現(xiàn)這些對(duì)時(shí)空一致性和物理邏輯性要求極高的場景。同時(shí),受益于模型架構(gòu)創(chuàng)新,海螺02模型官方價(jià)格顯著低于Runway、可靈等國內(nèi)外同行,實(shí)現(xiàn)行業(yè)底價(jià)。
總結(jié)來說,Hailuo-02在對(duì)物理世界規(guī)律的理解和表現(xiàn)上,已經(jīng)實(shí)現(xiàn)了全球性的突破,更以“世界一流的效果”和“顛覆性的成本效益”,直接叫板Veo3等國際頂尖模型。
三、發(fā)布MiniMax Agent “解放用戶手腳”
如果說M1和Hailuo-02是MiniMax強(qiáng)大的“發(fā)動(dòng)機(jī)”和“眼睛”,那么同步官宣的通用智能體產(chǎn)品——MiniMax Agent,則是這家公司對(duì)“AI能力”的深刻思考和交付回答。
這個(gè)可以完成長程復(fù)雜任務(wù)(Long Horizon Complex Tasks)的通用智能體,不僅能多步規(guī)劃出專家級(jí)解決方案、靈活拆解任務(wù)需求,還能執(zhí)行多個(gè)子任務(wù),從而交付最終結(jié)果。
比如面對(duì)“Mag 7投資組合雙移動(dòng)平均線策略收益率分析”這類需要大量信息搜集、篩選和驗(yàn)證的開放式任務(wù),MiniMax Agent能夠活用多種工具,進(jìn)行深度的網(wǎng)絡(luò)研究,并最終給出精準(zhǔn)、可靠的建議。
無論是做一套中學(xué)物理課件,還給《長安的荔枝》做一個(gè)劇情介紹網(wǎng)站,MiniMax Agent所制作的PPT均是排版靈活、視覺美觀,網(wǎng)頁更像是文化機(jī)構(gòu)做的宣傳站點(diǎn),甚至能用3D 動(dòng)態(tài)演示發(fā)動(dòng)機(jī)的四個(gè)沖程,效果能直接用于教學(xué)。
“做一套中學(xué)物理課件,講沖量和動(dòng)量,要帶動(dòng)畫演示”
“根據(jù)馬伯庸小說《長安的荔枝》,做一個(gè)劇情介紹網(wǎng)站,風(fēng)格設(shè)計(jì)自己定”
這些案例,僅僅是MiniMax Agent強(qiáng)大交付能力的冰山一角。
據(jù)悉,在MiniMax 內(nèi)部,該產(chǎn)品已經(jīng)被使用了兩個(gè)月,逐漸成為內(nèi)部超過50%的員工日常使用的產(chǎn)品。
四、Hailuo Video Agent 開啟“Vibe Videoing”創(chuàng)作時(shí)代
為了大幅降低視頻創(chuàng)作門檻,讓用戶以自然語言輸入即可一鍵生成專業(yè)級(jí)成片,MiniMax推出了國內(nèi)首個(gè)實(shí)現(xiàn)“成片直出”的視頻創(chuàng)作智能體——Hailuo Video Agent,開啟“零門檻Vibe Videoing”創(chuàng)作時(shí)代,用戶可以自動(dòng)分析、構(gòu)思并生成具有專業(yè)水準(zhǔn)、富有觀看價(jià)值的完整視頻內(nèi)容。
曾經(jīng)奉行“規(guī)模至上”的Scaling Law教條正被多元?jiǎng)?chuàng)新路徑瓦解。具體來說,MiniMax在視頻Agent中實(shí)現(xiàn)了以下技術(shù)創(chuàng)新:
自然語言驅(qū)動(dòng)全局:拋棄傳統(tǒng)工作流+節(jié)點(diǎn)的工具模式,通過LLM語言模型,AI自動(dòng)拆解任務(wù)并調(diào)用最佳工具鏈,創(chuàng)新性地支持用戶在自然語言描述中構(gòu)建完整視頻,從而降低創(chuàng)作門檻、提升普通用戶的創(chuàng)意空間。全流程工具集:打造視頻構(gòu)思、資料收集、分鏡制作、剪輯、配音等視頻制作全流程工具集,并通過Agent模型在不同階段實(shí)現(xiàn)自動(dòng)調(diào)用,根據(jù)創(chuàng)作階段智能匹配最優(yōu)方案,從而Agent在自動(dòng)化創(chuàng)作的同時(shí)保證視頻質(zhì)量。創(chuàng)作過程可視化:通過Agent思維鏈實(shí)時(shí)展示AI工作邏輯,為自定義編輯提供可視窗口與操作空間。Agent創(chuàng)作的透明化可操作窗口,讓用戶不僅可以有效監(jiān)控AI創(chuàng)作流程,還能有效介入,實(shí)現(xiàn)可控的視頻創(chuàng)作。可以說,這款視頻創(chuàng)作智能體不僅降低了用戶創(chuàng)作門檻、保證視頻的專業(yè)級(jí)質(zhì)量,在更大程度地提升普通用戶創(chuàng)作自由度的同時(shí),可以讓人與AI更好地進(jìn)行雙向協(xié)同。
據(jù)MiniMax透露,海螺視頻Agent將通過三階段進(jìn)化,打開用戶的創(chuàng)作自由度。目前已經(jīng)實(shí)現(xiàn)第一階段能力,第二階段的視頻Agent創(chuàng)作工具將于2025年夏季面世。
五、Voice design上新
此外,MiniMax同期發(fā)布的模型還包含語音模型Speech 02上的一個(gè)功能更新——Voice Design 音色設(shè)計(jì)。
用戶可以通過自然語言來描述自己心中所想的音色,實(shí)現(xiàn)對(duì)多個(gè)維度的精準(zhǔn)控制,甚至生成世界上不存在的音色。還能與Speech 02語音模型在鏈路上相配合,用戶在文字轉(zhuǎn)語音中可真正實(shí)現(xiàn)“所需即所得”,以“任意語言 × 任意口音 × 任意音色”,實(shí)現(xiàn)可全自定義的無限組合。
實(shí)際上,早在今年5月中旬,語音模型 Speech-02一經(jīng)發(fā)布,即登頂國際權(quán)威語音評(píng)測榜單Artificial Analysis,收獲了全球用戶的廣泛肯定。Speech-01/02兩代模型已經(jīng)幫助用戶生成了累計(jì)超過1.5億小時(shí)的語音,并與超過30個(gè)國家的客戶實(shí)現(xiàn)了合作落地。
據(jù)悉,通過Voice Design的方式生成聲音,解決了語音合成模型行業(yè)的兩個(gè)挑戰(zhàn):精準(zhǔn)匹配細(xì)分場景下的多樣需求、無需復(fù)刻他人聲音即可無風(fēng)險(xiǎn)實(shí)現(xiàn)腦海中音色表達(dá)。這將持續(xù)降低全球用戶使用AI技術(shù)的門檻,讓說各種語言的人都能感受到語音模型所帶來的價(jià)值。
總結(jié):一場“中國震撼”背后的自主創(chuàng)新之路
當(dāng)我們回望那些閃耀于歷史長河中的科技成果時(shí)會(huì)發(fā)現(xiàn):真正偉大的不是某項(xiàng)具體發(fā)明本身,而是創(chuàng)造者們不懈追求卓越精神所帶來的啟示,影響深遠(yuǎn)的價(jià)值遠(yuǎn)超物質(zhì)層面的成就。
從全球首個(gè)開源大規(guī)模混合架構(gòu)推理模型MiniMax-M1、到實(shí)現(xiàn)極致物理表現(xiàn)的視頻模型Hailuo-02、定義“靠譜”生產(chǎn)力的MiniMax Agent、國內(nèi)首個(gè)成片創(chuàng)作助手Hailuo Agent、再到音色設(shè)計(jì)Voice Design,這一系列密集發(fā)布不僅是對(duì)其技術(shù)積累的集中展示,更是在這場全球AI競賽中,為行業(yè)發(fā)展路徑和競爭格局注入了全新的、顛覆性的變量。
技術(shù)的邊界,從未是束縛的枷鎖,而是激發(fā)挑戰(zhàn)自我、突破極限的戰(zhàn)場。
正如業(yè)內(nèi)對(duì)MiniMax的評(píng)價(jià),其創(chuàng)新之路為全球AI發(fā)展提供了第二條道路。面對(duì)外部的算力限制和技術(shù)封鎖,MiniMax沒有選擇跟隨和模仿,而是堅(jiān)定地走了“自主創(chuàng)新”這條更艱難的路。
從底層基礎(chǔ)模型優(yōu)化,到開創(chuàng)性的線性注意力混合架構(gòu),再到CISPO和NCR等算法與架構(gòu)的持續(xù)迭代,MiniMax的創(chuàng)新呈現(xiàn)出一種“環(huán)環(huán)相扣、層層遞進(jìn)”的良性循環(huán)。這種“倒逼出來的創(chuàng)新能力”,證明了通過算法和架構(gòu)的深度優(yōu)化,完全可以打破“算力-資本”的壁壘。
所有這些令人驚嘆的突破都在提醒著我們一件事,沒有絕對(duì)不可逾越的技術(shù)障礙, 只有尚未被發(fā)掘出來的解決方案。
其開源策略更具深意。在全球AI巨頭紛紛轉(zhuǎn)向閉源以構(gòu)建技術(shù)壁壘的當(dāng)下,MiniMax選擇向世界開放其大語言模型的核心能力,這不僅是對(duì)技術(shù)封鎖的有力反擊,更彰顯了中國新一代AI企業(yè)的技術(shù)自信和開放胸懷。
在AI文明向多極化演進(jìn)的新開端,未來的技術(shù)史詩,將由東西方共同書寫。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 小米要做到第一梯隊(duì) 雷軍放狠話 華為也會(huì)怕?
- deepseek后首個(gè)!MiniMax連發(fā)5個(gè)產(chǎn)品刷爆外網(wǎng)
- Labubu爆火背后:情緒經(jīng)濟(jì)如何帶來消費(fèi)新劇本?
- 余承東硬核挖角,羅永浩“鐵桿兄弟”們后悔了嗎?
- 大廠混戰(zhàn)AI硬件,這家公司憑啥賣爆?
- 阿里、騰訊、百度蛻變的“AI背面”
- 年輕人的消費(fèi)更精明了
- 全球首臺(tái)Rokid Glasses下產(chǎn)線,Rokid攜手藍(lán)思科技打開全球消費(fèi)電子產(chǎn)業(yè)新篇章
- 高考填志愿,到底信張雪峰還是信AI?
- 亞馬遜云科技:Agentic AI超級(jí)浪潮,企業(yè)應(yīng)該如何做好準(zhǔn)備
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。