3 月 18 日,昆侖萬(wàn)維正式開(kāi)源首款工業(yè)界多模態(tài)思維鏈推理模型 Skywork-R1V,開(kāi)啟多模態(tài)思考新時(shí)代。繼 Skywork-R1V 首次成功實(shí)現(xiàn)“強(qiáng)文本推理能力向視覺(jué)模態(tài)的遷移”之后,昆侖萬(wàn)維再度發(fā)力,今天正式開(kāi)源多模態(tài)推理模型的全新升級(jí)版本 ——Skywork-R1V 2.0(以下簡(jiǎn)稱(chēng) R1V 2.0) 。
01
R1V 2.0 性能全面提升并開(kāi)源,視覺(jué)與文本推理能力雙管齊下
Skywork-R1V 2.0 是當(dāng)前最均衡兼顧視覺(jué)與文本推理能力的開(kāi)源多模態(tài)模型,該多模態(tài)模型在高考理科難題的深度推理與通用任務(wù)場(chǎng)景中均表現(xiàn)優(yōu)異,真正實(shí)現(xiàn)多模態(tài)大模型的“深度 + 廣度”統(tǒng)一。升級(jí)后的 R1V 2.0 模型頗具亮點(diǎn):
-中文場(chǎng)景領(lǐng)跑:理科學(xué)科題目(數(shù)學(xué)/物理/化學(xué))推理效果拔群,打造免費(fèi)AI解題助手;
-開(kāi)源巔峰:38B 權(quán)重 + 技術(shù)報(bào)告全面開(kāi)源,推動(dòng)多模態(tài)生態(tài)建設(shè);
-技術(shù)創(chuàng)新標(biāo)桿:多模態(tài)獎(jiǎng)勵(lì)模型(SkyworkVL Reward)與混合偏好優(yōu)化機(jī)制(MPO),全面提升模型泛化能力;選擇性樣本緩沖區(qū)機(jī)制(SSB),突破強(qiáng)化學(xué)習(xí)“優(yōu)勢(shì)消失”瓶頸。
在多個(gè)權(quán)威基準(zhǔn)測(cè)試中,R1V 2.0 相較于 R1V 1.0 在文本與視覺(jué)推理任務(wù)中均實(shí)現(xiàn)顯著躍升。無(wú)論是專(zhuān)業(yè)領(lǐng)域任務(wù),如數(shù)學(xué)推理、編程競(jìng)賽、科學(xué)分析,還是通用任務(wù),如創(chuàng)意寫(xiě)作與開(kāi)放式問(wèn)答,R1V 2.0 都呈現(xiàn)出極具競(jìng)爭(zhēng)力的表現(xiàn):
-在MMMU 上取得 73.6 分,刷新開(kāi)源 SOTA 紀(jì)錄;
-在Olympiad Bench 上達(dá)到 62.6 分,顯著領(lǐng)先其他開(kāi)源模型;
-在MathVision、MMMU-PRO 與 MathVista等多項(xiàng)視覺(jué)推理榜單中均表現(xiàn)優(yōu)異,多項(xiàng)能力已可媲美閉源商業(yè)模型,堪稱(chēng)當(dāng)前開(kāi)源多模態(tài)推理模型中的佼佼者。
在與開(kāi)源多模態(tài)模型的對(duì)比中,R1V 2.0 的視覺(jué)推理能力(在眾多開(kāi)源模型里)脫穎而出。
如下圖所示,R1V2.0 也展現(xiàn)出媲美商業(yè)閉源多模態(tài)模型的實(shí)力。
而在文本推理方面,在AIME2024和LiveCodeBench等挑戰(zhàn)中,R1V 2.0 分別取得了78.9 分和 63.6 分,展現(xiàn)出了人類(lèi)專(zhuān)家級(jí)數(shù)學(xué)與代碼理解能力。在與專(zhuān)用文本推理模型對(duì)比中,R1V2.0 同樣展現(xiàn)出卓越的文本推理能力。
02
技術(shù)亮點(diǎn)一:推出多模態(tài)獎(jiǎng)勵(lì)模型 Skywork-VL Reward,全面開(kāi)源
自 R1V 1.0 開(kāi)源以來(lái),昆侖萬(wàn)維團(tuán)隊(duì)收獲了來(lái)自全球開(kāi)發(fā)者與研究者的廣泛反饋。在模型推理能力顯著提升的同時(shí),團(tuán)隊(duì)也發(fā)現(xiàn),過(guò)度集中于推理任務(wù)的訓(xùn)練,會(huì)限制模型在其他常規(guī)任務(wù)場(chǎng)景下的表現(xiàn),影響整體的泛化能力與通用表現(xiàn)。
為實(shí)現(xiàn)多模態(tài)大模型在“深度推理”與“通用能力”之間的最佳平衡,R1V 2.0 引入了全新的「多模態(tài)獎(jiǎng)勵(lì)模型 Skywork-VL Reward」及「規(guī)則驅(qū)動(dòng)的混合強(qiáng)化訓(xùn)練機(jī)制」。在顯著增強(qiáng)推理能力的同時(shí),進(jìn)一步穩(wěn)固了模型在多任務(wù)、多模態(tài)場(chǎng)景中的穩(wěn)定表現(xiàn)與泛化能力。
Skywork-VL Reward,開(kāi)啟多模態(tài)強(qiáng)化獎(jiǎng)勵(lì)模型新篇章:
當(dāng)前,行業(yè)中多模態(tài)獎(jiǎng)勵(lì)模型的缺乏,已成為強(qiáng)化學(xué)習(xí)在 VLM(Vision-Language Models)領(lǐng)域進(jìn)一步發(fā)展的關(guān)鍵瓶頸。
現(xiàn)有獎(jiǎng)勵(lì)模型難以準(zhǔn)確評(píng)價(jià)跨模態(tài)推理所需的復(fù)雜理解與生成過(guò)程。為此,昆侖萬(wàn)維推出了SkyworkVL Reward模型,既可為通用視覺(jué)語(yǔ)言模型(VLM)提供高質(zhì)量獎(jiǎng)勵(lì)信號(hào),又能精準(zhǔn)評(píng)估多模態(tài)推理模型長(zhǎng)序列輸出的整體質(zhì)量,同時(shí)也可以作為并行線上推理最優(yōu)答案選擇的利器。
這種能力使得 Skywork-VL Reward 模型在多模態(tài)強(qiáng)化學(xué)習(xí)任務(wù)中具有廣泛的適用性,促進(jìn)了多模態(tài)模型的協(xié)同發(fā)展:
-跨模態(tài)引領(lǐng)者:率先提出多模態(tài)推理與通用獎(jiǎng)勵(lì)模型,推動(dòng)多模態(tài)強(qiáng)化學(xué)習(xí);
-榜單標(biāo)桿:在視覺(jué)獎(jiǎng)勵(lì)模型評(píng)測(cè)中名列第一,7B 權(quán)重與技術(shù)報(bào)告全面開(kāi)源;
-信號(hào)全覆蓋:支持從短文本到長(zhǎng)序列推理的多元化獎(jiǎng)勵(lì)判別。
Skywork-VL Reward 在多個(gè)權(quán)威評(píng)測(cè)榜單中表現(xiàn)優(yōu)異:在視覺(jué)獎(jiǎng)勵(lì)模型評(píng)測(cè)榜單VL-RewardBench中取得了73.1的SOTA成績(jī),同時(shí)在純文本獎(jiǎng)勵(lì)模型評(píng)測(cè)榜單RewardBench中也斬獲了高達(dá)90.1的優(yōu)異分?jǐn)?shù),全面展示了其在多模態(tài)和文本任務(wù)中的強(qiáng)大泛化能力。
為回饋社區(qū)和行業(yè),團(tuán)隊(duì)也將 Skywork-VL Reward 完整開(kāi)源。
03
技術(shù)亮點(diǎn)二:引入多重優(yōu)化策略提升核心效果
長(zhǎng)期以來(lái),大模型訓(xùn)練面臨“深度推理提升”與“通用能力保持”的難以兼得難題。為解決這一“推理–通用”的能力蹺蹺板問(wèn)題,以及解決通用問(wèn)題沒(méi)有直接可驗(yàn)證的答案的挑戰(zhàn),R1V 2.0 引入了MPO(Mixed PreferenceOptimization,混合偏好優(yōu)化)機(jī)制,并在偏好訓(xùn)練中充分發(fā)揮 Skywork-VL Reward 獎(jiǎng)勵(lì)模型的指導(dǎo)作用。
和 R1V 1.0 思路類(lèi)似,我們使用提前訓(xùn)練好的 MLP 適配器,直接將視覺(jué)編碼器 internVIT-6B 與原始的強(qiáng)推理語(yǔ)言模型 QwQ-32B 連接,形成 R1V 2.0-38B 的初始權(quán)重。這樣一來(lái),R1V 2.0 在啟動(dòng)即具備一定的多模態(tài)推理能力。
在通用任務(wù)訓(xùn)練階段,R1V 2.0 借助 Skywork-VL Reward 提供的偏好信號(hào),引導(dǎo)模型進(jìn)行偏好一致性?xún)?yōu)化,從而確保模型在多任務(wù)、多領(lǐng)域下具備良好的通用適應(yīng)能力。實(shí)驗(yàn)證明,Skywork-VL Reward 有效實(shí)現(xiàn)了推理能力與通用能力的協(xié)同提升,成功實(shí)現(xiàn)“魚(yú)與熊掌兼得”。
在訓(xùn)練深度推理能力時(shí),R1V 2.0 在訓(xùn)練中采用了基于規(guī)則的群體相對(duì)策略?xún)?yōu)化GRPO(Group Relative PolicyOptimization)方法。該策略通過(guò)同組候選響應(yīng)之間的相對(duì)獎(jiǎng)勵(lì)比較,引導(dǎo)模型學(xué)會(huì)更精準(zhǔn)的選擇和推理路徑。
R1V 2.0 所采用的多模態(tài)強(qiáng)化訓(xùn)練方案,標(biāo)志著大模型訓(xùn)練范式的又一次重要革新,也再次驗(yàn)證了強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域無(wú)法撼動(dòng)的地位。通過(guò)引入通用性更強(qiáng)的獎(jiǎng)勵(lì)模型Skywork-VL Reward,以及高效穩(wěn)定的樣本利用機(jī)制SSB,我們不僅進(jìn)一步提升了R1V系列模型在復(fù)雜任務(wù)中的推理能力,同時(shí)也將開(kāi)源模型跨模態(tài)推理泛化能力提升到了全新高度。
R1V 2.0 的誕生,不僅推動(dòng)了開(kāi)源多模態(tài)大模型在能力邊界上的突破,更為多模態(tài)智能體的搭建提供了新的基座模型。
04
面向AGI的持續(xù)開(kāi)源
最近一年以來(lái),昆侖萬(wàn)維已陸續(xù)開(kāi)源多款核心模型:
開(kāi)源系列:
1. Skywork-R1V 系列:38B 視覺(jué)思維鏈推理模型,開(kāi)啟多模態(tài)思考時(shí)代;
2. Skywork-OR1(Open Reasoner 1)系列:中文邏輯推理大模型,7B和32B最強(qiáng)數(shù)學(xué)代碼推理模型;
3. SkyReels系列:面向AI短劇創(chuàng)作的視頻生成模型;
4. Skywork-Reward:性能卓越的全新獎(jiǎng)勵(lì)模型。
這些項(xiàng)目在 Hugging Face 上廣受歡迎,引發(fā)了開(kāi)發(fā)者社區(qū)的廣泛關(guān)注與深入討論。
我們堅(jiān)信,開(kāi)源驅(qū)動(dòng)創(chuàng)新,AGI 終將到來(lái)。
正如 DeepSeek 等優(yōu)秀團(tuán)隊(duì)所展現(xiàn)的那樣,開(kāi)源模型正逐步彌合與閉源系統(tǒng)的技術(shù)差距,乃至實(shí)現(xiàn)超越。R1V 2.0 不僅是當(dāng)前最好的開(kāi)源多模態(tài)推理模型,也是我們邁向 AGI 路上的又一重要里程碑。昆侖萬(wàn)維將繼續(xù)秉持“開(kāi)源、開(kāi)放、共創(chuàng)”的理念,持續(xù)推出領(lǐng)先的大模型與數(shù)據(jù)集,賦能開(kāi)發(fā)者、推動(dòng)行業(yè)協(xié)同創(chuàng)新,加速通用人工智能(AGI)的實(shí)現(xiàn)進(jìn)程。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )