9月19日消息,阿里開源全新動作生成模型通義萬相Wan2.2-Animate,該模型同時支持動畫和替換兩種模式,輸入一張角色圖片和一段參考視頻,可將視頻角色的動作、表情遷移到圖片角色中,賦予圖片角色動態(tài)表現(xiàn)力;同時還可在保留原始視頻的動作、表情及環(huán)境的基礎(chǔ)上,將視頻中的角色替換為圖片中的角色。該模型支持驅(qū)動人物、動漫形象和動物照片,可應(yīng)用于短視頻創(chuàng)作、舞蹈模板生成、動漫制作等領(lǐng)域。
去年年初,阿里推出了Animate Anyone模型,基于該模型的「全民舞王」功能一度火爆全網(wǎng),兵馬俑、萌寵跳科目三的視頻在社交平臺刷屏。但此前的技術(shù)框架無法同時控制動作、表情和環(huán)境交互,生成的視頻依舊存在不自然的問題。
此次,通義萬相團隊構(gòu)建了一個涵蓋說話、面部表情和身體動作的大規(guī)模人物視頻數(shù)據(jù)集,并基于通義萬相圖生視頻模型進行后訓(xùn)練。Wan2.2-Animate將角色信息、環(huán)境信息和動作等,規(guī)范到一種統(tǒng)一的表示格式,實現(xiàn)了單一模型同時兼容兩種推理模式;針對身體運動和臉部表情,分別使用骨骼信號和隱式特征,配合動作重定向模塊,實現(xiàn)動作和表情的精準(zhǔn)復(fù)刻。在替換模式中,團隊還設(shè)計了一個獨立的光照融合LoRA,用于保證完美的光照融合效果。
實測結(jié)果顯示,Wan2.2-Animate在視頻生成質(zhì)量、主體一致性和感知損失等關(guān)鍵指標(biāo)上,超越了StableAnimator、LivePortrait等開源模型,是目前性能最強的動作生成模型,在人類主觀評測中,Wan2.2-Animate甚至超越了以 Runway Act-two代表的閉源模型。
自今年 2 月以來,通義萬相已連續(xù)開源20多款模型,在開源社區(qū)和三方平臺的下載量已超3000萬,是開源社區(qū)最受歡迎的視頻生成模型之一。通義萬相模型家族已支持文生圖、文生視頻、圖生視頻、人聲生視頻和動作生成等10多種視覺創(chuàng)作能力。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )