北京時(shí)間2月18日中午,埃隆·馬斯克的人工智能初創(chuàng)公司xAI發(fā)布了Grok 3大模型,馬斯克稱之為“地球上最聰明的人工智能”。Grok 3的發(fā)布,勢必將現(xiàn)在已經(jīng)炙熱的模型之戰(zhàn)推向新的高潮。
Grok3的現(xiàn)場演示
在當(dāng)天的直播中,馬斯克與該公司的三位工程師一起進(jìn)行了現(xiàn)場演示,包括使用Grok3幫助火星飛船計(jì)算航天發(fā)射窗口,以及把俄羅斯方塊和消消樂兩款游戲“融合成一款”等。
尤其是工程師僅用“開發(fā)結(jié)合俄羅斯方塊和寶石迷陣玩法的2D游戲”這一自然語言指令,Grok3完成核心代碼生成與調(diào)試的演示令人印象深刻。
在演示的過程中,馬斯克要求使用Grok 3使用pygame組件設(shè)計(jì)一款游戲,把俄羅斯方塊和寶石迷陣縫合到一起。
同時(shí)還提示代碼可能會很長,需要保存到一個(gè)文件當(dāng)中,運(yùn)行成功后,生成的游戲即保留了俄羅斯方塊的經(jīng)典玩法,而且還加入了“同色消除”的新規(guī)則。
在發(fā)布會上,馬斯克放話,今后Space X的發(fā)射任務(wù),包括2026年火星探索任務(wù),都將會借助Grok 3進(jìn)行AI輔助。
隨后,在場的工程師要求Grok 3現(xiàn)場生成一段太空發(fā)射3D動畫的代碼,而在Grok-3生成代碼后,馬斯克團(tuán)隊(duì)運(yùn)行這段代碼,之后畫面上顯示出了飛船在地球和火星間往返的動畫的演示,突出了Grok-3的編程能力,這對AI模型理解復(fù)雜物理知識的要求非常高。
馬斯克對此表示,我們非常高興能夠推出 Grok-3,我們認(rèn)為,在很短的時(shí)間內(nèi),它的功能比Grok-2強(qiáng)大一個(gè)數(shù)量級。這要?dú)w功于一支不可思議的團(tuán)隊(duì)的辛勤工作,我很榮幸能與這樣一支優(yōu)秀的團(tuán)隊(duì)合作。此外,他還預(yù)測,三年內(nèi),計(jì)算機(jī)將在各方面打破人類水平,實(shí)現(xiàn)諾貝爾獎級別突破。
推理能力超競爭對手
發(fā)布會演示顯示,在數(shù)學(xué)推理、科學(xué)邏輯推理等多方面的性能表現(xiàn)上,Grok3和Grok-3 mini都超過或媲美Gemini、DeepSeek和ChatGPT等對手,此外xAI還推出了功能更為強(qiáng)大的Grok3 Thinking推理模式。
具體表現(xiàn)在Grok3 在 AIME'24(美國數(shù)學(xué)競賽)、GPQA(研究生水平科學(xué)知識問答能力的基準(zhǔn)測試)等測試中均取得了比 Gemini-2 pro、DeepSeek-v3、Claude 3.5 Sonnet 和 GPT-4o 更好的效果。
尤其在推理方面 ,Grok 3 Reasoning 和 Grok 3 mini Reasoning 在 AIME'24、GPQA 等測試中取得了壓倒性的優(yōu)勢,最高分達(dá)到 96 分,超過了 o3 mini(high)、o1 和 DeepSeek-R1 等前沿模型。甚至在最新的 AIME 2025 評測中 ,Grok3 推理系列模型更是達(dá)到了 90 及以上的分?jǐn)?shù),稍微領(lǐng)先 o3 mini(high) 的 87 分。
此外,在 Chatbot Arena 評估中,Grok-3 的得分更是達(dá)到了 1400 分,同樣超過了 Gemini 系列和 chatgpt-4o 和 DeepSeek-R1。
值得一提的是,GPT-4o和Gemini相比,Grok 3在處理復(fù)雜問題時(shí)不僅能給出正確答案,還能詳細(xì)解釋解題思路,幫助用戶理解背后的邏輯。
除了數(shù)學(xué)、編程、推理能力超強(qiáng)外,Grok3的多模態(tài)能力也是提升明顯,另外,Grok 3引入了DeepSearch,它能夠掃描互聯(lián)網(wǎng)和X平臺(原Twitter),為用戶提供信息摘要,幫助用戶查找最新的科技信息。
在發(fā)布會現(xiàn)場,xAI團(tuán)隊(duì)預(yù)測2025年NCAA“瘋狂三月”籃球賽的全部勝負(fù)結(jié)果,最終Grok 3給出了它認(rèn)為的2025年NCAA冠軍,具體預(yù)測正確與否,答案即將在3月揭曉。
xAI團(tuán)隊(duì)在直播中展示稱,在訓(xùn)練Grok的過程中,團(tuán)隊(duì)搭建了大型算力集群,并克服了散熱、電力等問題帶來的挑戰(zhàn),用了122天讓首批10萬張GPU投入使用并正常運(yùn)行,后續(xù)還計(jì)劃將集群規(guī)模繼續(xù)擴(kuò)大一倍。
最后,馬斯克表示,未來,最快一周后Grok 將獲得“語音模式”。幾周后,Grok 3模型將與 DeepSearch功能一起出現(xiàn)在xAI企業(yè)的API中。而當(dāng)下一個(gè)版本完全發(fā)布時(shí),我們將開源Grok的上一個(gè)版本。
頗具挑戰(zhàn)意味的是,就在Grok 3發(fā)布前數(shù)小時(shí),OpenAI首席執(zhí)行官兼聯(lián)合創(chuàng)始人SamAltman表示,對于高要求的測試者來說,試用GPT-4.5帶來的AGI的感受體驗(yàn),遠(yuǎn)比我預(yù)期的要深刻得多,看來GPT-4.5已經(jīng)進(jìn)入測試階段,離正式發(fā)布也不遠(yuǎn)了。
可以預(yù)見,隨著Grok-3的發(fā)布,頭部AI大模型的競爭將愈演愈烈。(御風(fēng))
- 餓了么灰測“悅享會員”加碼用戶體驗(yàn),提供一系列專屬優(yōu)惠和個(gè)性化服務(wù)
- 啟信寶2025奶茶趣味報(bào)告:奶茶企業(yè)5年激增140%,40萬家共筑3500億帝國
- 《黑神話:悟空》PS5國行版將于6月18日正式發(fā)售,建議零售價(jià)268元起
- 報(bào)告:2029年美國AI搜索廣告支出將達(dá)260億美元,占比13.6%
- 重塑內(nèi)生安全體系 實(shí)現(xiàn)AI時(shí)代安全突圍 ——2025北京網(wǎng)絡(luò)安全大會(BCS)開幕
- 門禁憑證技術(shù)進(jìn)化簡史:開啟更加安全和便利的未來
- Google I/O 大會:科技盛宴,引領(lǐng)未來創(chuàng)新潮流
- 馬蜂窩端午出行大數(shù)據(jù):短途周邊游是主流,非遺民俗關(guān)注度持續(xù)走高
- 微軟裁員6000人原因揭曉 AI沖擊首當(dāng)其沖
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。