小米開源"小米MiMo"大模型:挑戰(zhàn)OpenAI o1-mini,7B參數(shù)碾壓,推理能力矚目
隨著人工智能的快速發(fā)展,大模型已成為業(yè)界研究的熱點。小米公司也不甘示弱,其大模型團隊通過小米MiMo公眾號宣布,他們開源了首個“為推理而生”的大模型MiMo。這款模型在數(shù)學推理和代碼競賽公開測評集上展現(xiàn)出了強大的實力,超越了OpenAI的閉源推理模型o1-mini和阿里Qwen更大規(guī)模的開源推理模型QwQ-32B-Preview。
MiMo是小米大模型Core團隊的一次初步嘗試,他們通過聯(lián)動預(yù)訓練到后訓練的全面提升,使得MiMo的推理能力得到了顯著提升。在數(shù)據(jù)和算法等多層面的創(chuàng)新驅(qū)動下,MiMo的推理能力得到了質(zhì)的飛躍。
預(yù)訓練階段的核心是讓模型見過更多推理模式,而數(shù)據(jù)層面則著重挖掘富推理語料,并合成約200B tokens的推理數(shù)據(jù)。經(jīng)過三階段的訓練,逐步提升訓練難度,總訓練達到25T tokens。這些工作為MiMo的后訓練階段打下了堅實的基礎(chǔ)。
后訓練階段的核心是高效穩(wěn)定的強化學習算法和框架。為了解決困難算法問題中的獎勵稀疏問題,團隊提出了Test Difficulty Driven Reward策略。此外,他們還引入了Easy Data Re-Sampling策略,以穩(wěn)定RL訓練。在框架方面,他們設(shè)計了Seamless Rollout系統(tǒng),使得RL訓練加速2.29倍,驗證加速1.96倍。這些創(chuàng)新性的方法大大提升了MiMo模型的性能。
開源地址和相關(guān)技術(shù)報告的鏈接也已附在文章中。小米MiMo大模型的開源行為展現(xiàn)了小米公司對技術(shù)共享和社區(qū)合作的重視,這也是小米在人工智能領(lǐng)域積極布局的一部分。
MiMo的推理能力提升不僅體現(xiàn)在參數(shù)規(guī)模上,更體現(xiàn)在其在實際應(yīng)用中的表現(xiàn)。在數(shù)學推理和代碼競賽公開測評集上,MiMo僅用7B的參數(shù)規(guī)模,就超越了OpenAI的閉源推理模型o1-mini和阿里Qwen更大規(guī)模的開源推理模型QwQ-32B-Preview。這一成績無疑證明了MiMo的強大實力和廣闊的應(yīng)用前景。
小米MiMo大模型的出現(xiàn),無疑給業(yè)界帶來了新的思考和啟示。它不僅展示了小米在人工智能領(lǐng)域的實力和決心,也為學術(shù)界和工業(yè)界提供了寶貴的經(jīng)驗和參考。隨著小米MiMo大模型的進一步發(fā)展,我們期待它在更多領(lǐng)域展現(xiàn)出卓越的性能和價值。
總的來說,小米MiMo大模型以挑戰(zhàn)OpenAI o1-mini為目標,憑借7B參數(shù)的規(guī)模碾壓對手,其推理能力令人矚目。小米MiMo的開源行為和其在技術(shù)上的創(chuàng)新性舉措,都值得我們肯定和贊賞。我們期待小米MiMo大模型在未來能夠取得更多的突破和成就,為人工智能的發(fā)展做出更大的貢獻。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )