快手可靈AI上線:1分鐘視頻生成,1080p畫質(zhì)能打幾分?
近日,快手旗下可靈AI推出全新數(shù)字人視頻生成功能,用戶僅需上傳一張角色圖片并輸入文字或音頻,即可生成最長1分鐘、1080p分辨率、48幀率的數(shù)字人視頻。該功能目前處于公測階段,正逐步向用戶開放。這一技術的推出,再次將AI數(shù)字人生成領域的競爭推向新高度,而其實際表現(xiàn)究竟如何,值得深入探討。
從技術架構(gòu)來看,可靈AI的數(shù)字人功能基于多模態(tài)理解與視頻生成模型的深度融合。其采用基于Transformer的DiT(Diffusion Transformer)架構(gòu),該架構(gòu)在處理時序信息和實現(xiàn)細粒度控制方面具備顯著優(yōu)勢。系統(tǒng)能夠精準解析面部特征、理解語音語義,并據(jù)此推斷出合適的面部表情和細微動作,從而在視頻生成過程中保持角色的一致性??谛偷木珳释胶颓榫w動作的精細控制,成為其技術上的突出特點。
在功能適用性方面,可靈AI支持多種角色類型,包括真人、動畫角色及動物形象,并涵蓋中、英、日、韓等多語種生成能力。這一設計明顯瞄準了更廣泛的用戶群體,包括內(nèi)容創(chuàng)作者、企業(yè)營銷、教育娛樂等多個領域。其多語言支持尤其值得注意,顯示出團隊在全球化應用方面的布局。
從成本角度來看,結(jié)合會員優(yōu)惠后,可靈AI數(shù)字人生成的最低成本為0.12元/秒。以生成1分鐘視頻計算,費用約為7.2元。這一價格在行業(yè)中處于中等水平,相較于部分高端定制化數(shù)字人服務而言具有一定競爭力,但對普通用戶而言仍可能是一筆需要考慮的支出。
畫質(zhì)方面,1080p分辨率和48F幀率的配置在當前AI生成視頻領域?qū)僦猩纤疁省D軌驖M足多數(shù)短視頻平臺及社交媒體傳播的基本需求,但在電影級或超高清晰度應用場景中,仍存在提升空間。值得注意的是,幀率的提高有助于增強視頻的流暢度和自然感,這一點在人物動作和口型同步方面尤為重要。
盡管可靈AI在技術和功能方面表現(xiàn)出諸多亮點,但其實際效果仍需用戶廣泛驗證。目前公測階段的反饋將至關重要,尤其是在不同光線、角度、語音內(nèi)容條件下生成視頻的穩(wěn)定性和真實感。此外,如何處理復雜場景、多人互動及長時間語音輸入下的內(nèi)容一致性,也是其未來需要持續(xù)優(yōu)化的方向。
從行業(yè)生態(tài)角度觀察,可靈AI已計劃開放API接口,未來可能與更多第三方平臺及應用集成。這一策略有助于構(gòu)建更完善的數(shù)字人生成生態(tài)系統(tǒng),但也對其技術兼容性和服務穩(wěn)定性提出了更高要求。
總體來看,快手可靈AI的數(shù)字人功能在技術實現(xiàn)、多模態(tài)支持和成本控制方面展現(xiàn)出較強競爭力。其1080p畫質(zhì)和48幀率配置在當前市場中具備一定優(yōu)勢,但仍需在實際應用中檢驗其生成質(zhì)量和穩(wěn)定性。隨著公測的推進和用戶反饋的積累,可靈AI是否能夠真正成為數(shù)字人生成領域的標桿產(chǎn)品,仍有待觀察。
(注:本文在資料搜集、框架搭建及部分段落初稿撰寫階段使用了 AI 工具,最終內(nèi)容經(jīng)人類編輯核實事實、調(diào)整邏輯、優(yōu)化表達后完成。)
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )