在當(dāng)今數(shù)字化時(shí)代,多模態(tài)技術(shù)正以前所未有的速度改變著世界。而在這場(chǎng)科技浪潮中,國產(chǎn)視頻大模型正悄然走在前列,成為全球科技創(chuàng)新的重要力量。
3月29日,在2025年中關(guān)村論壇年會(huì)上,清華大學(xué)人工智能研究院副院長(zhǎng)、生數(shù)科技創(chuàng)始人兼首席科學(xué)家朱軍教授,發(fā)布的高可控視頻大模型Vidu Q1成為焦點(diǎn),這一關(guān)鍵科技成果的發(fā)布標(biāo)志著國產(chǎn)視頻大模型邁向了新的高度,為AI視頻生成走向“高可控”時(shí)代指明路徑。
中關(guān)村論壇作為匯聚全球頂尖科技資源與創(chuàng)新智慧的重要平臺(tái),一直以來都是前沿科技展示與交流的絕佳舞臺(tái)。2024年4月,在中關(guān)村論壇未來人工智能先鋒論壇上,生數(shù)科技聯(lián)合清華大學(xué)正式發(fā)布了中國首個(gè)全面對(duì)標(biāo)Sora的視頻大模型 Vidu,這一創(chuàng)舉在當(dāng)時(shí)便引起了業(yè)界的廣泛關(guān)注,開啟了國產(chǎn)視頻大模型發(fā)展的新篇章。時(shí)隔一年,生數(shù)科技再次回歸中關(guān)村論壇,帶來了更為強(qiáng)大的 Vidu Q1模型,它在高可控方面的進(jìn)展不僅是對(duì)自身技術(shù)實(shí)力的又一次突破,更是國產(chǎn)大模型在全球舞臺(tái)上崛起的重要標(biāo)志。
在本次中關(guān)村論壇上,朱軍教授發(fā)表了主題為《中國多模態(tài)生成的全球引領(lǐng)》的主旨演講。演講中,朱軍教授強(qiáng)調(diào)了國產(chǎn)視頻大模型在全球科技競(jìng)爭(zhēng)中所扮演的關(guān)鍵角色及取得的多次技術(shù)突破,同時(shí)也分享了作為先行者的生數(shù)科技基于實(shí)際探索和預(yù)測(cè)的Vidu未來發(fā)展路徑,可以清晰地看到多模態(tài)技術(shù)在虛實(shí)結(jié)合、與物理世界交互等方面的更多可能。此次 Vidu Q1 模型的發(fā)布,不僅展現(xiàn)了中國在視頻大模型領(lǐng)域的深厚技術(shù)積累,更彰顯了國產(chǎn)大模型在全球范圍內(nèi)的引領(lǐng)實(shí)力。
Vidu Q1 作為業(yè)內(nèi)首個(gè)高可控 AI 視頻大模型,其在多主體細(xì)節(jié)可控(特別是動(dòng)作、布局可控)、音效同步可控、畫質(zhì)增強(qiáng)等方面均取得顯著成效,這使得它在眾多視頻大模型中脫穎而出。
以多主體細(xì)節(jié)可控為例,在語義指令的基礎(chǔ)上,通過融入?yún)⒖紙D的視覺指令,Vidu Q1支持對(duì)場(chǎng)景中多主體的位置、大小、運(yùn)動(dòng)軌跡等屬性進(jìn)行更進(jìn)一步的可控,對(duì)所有動(dòng)作行為(出場(chǎng)、退場(chǎng)、坐立姿態(tài)、行動(dòng)路線)進(jìn)行精準(zhǔn)調(diào)整。用戶能夠明顯體驗(yàn)到用更低的抽卡率實(shí)現(xiàn)更高質(zhì)量的可控生成。
音效同步可控功能則確保了隨著視頻環(huán)境與畫面轉(zhuǎn)場(chǎng),Vidu Q1能夠輸出生成相應(yīng)音效,并可精準(zhǔn)控制每段音效的長(zhǎng)短區(qū)間,精準(zhǔn)設(shè)置每段音頻出現(xiàn)的時(shí)間點(diǎn),如0-2s風(fēng)聲、3-5s雨聲等,節(jié)省時(shí)間的同時(shí),也大大增強(qiáng)了視頻的沉浸感與感染力。
Vidu Q1模型通過進(jìn)一步增強(qiáng)畫質(zhì),則能夠?yàn)橛脩魩ジ忧逦?、?xì)膩、逼真的視覺體驗(yàn)。
Vidu Q1 的發(fā)布,不僅為視頻內(nèi)容創(chuàng)作領(lǐng)域帶來了革命性的變革,也為眾多行業(yè)的AI重構(gòu)提供了全新的思路與解決方案。
一直以來,AI視頻生成過程中的隨機(jī)性都是老大難問題,Vidu Q1針對(duì)AI視頻生成的痛點(diǎn),通過技術(shù)手段引入多元素控制,它不再是沒有頭緒的亂生成,而是到了人為可控,這就讓AI視頻生成與當(dāng)下精益求精制作逐漸趨向一致,對(duì)于追求極致的人來說,這是一個(gè)新的里程碑。
在動(dòng)漫領(lǐng)域,通過對(duì)角色、物體、場(chǎng)景等的精確控制,能夠讓創(chuàng)作者快速生成高質(zhì)量動(dòng)畫。日前好萊塢知名動(dòng)漫工作室Aura Productions選擇與Vidu合作,計(jì)劃制作50集動(dòng)畫短劇,其背后正是看中了Vidu在多主體一致性等可控生成方面的領(lǐng)先優(yōu)勢(shì)。
在廣告領(lǐng)域,傳統(tǒng)廣告制作流程復(fù)雜,通過視頻大模型的高可控性,可以精準(zhǔn)呈現(xiàn)品牌元素和創(chuàng)意概念。
在影視短劇領(lǐng)域,Vidu的高可控生成能力則可確保短劇畫面中角色和場(chǎng)景的連貫性。在更多領(lǐng)域,Vidu正在重構(gòu)千行百業(yè),創(chuàng)造更多可能。
此次生數(shù)科技Vidu Q1的發(fā)布,使世界看到中國科技創(chuàng)新公司通過堅(jiān)持科技自立自強(qiáng)賦能新質(zhì)生產(chǎn)力的發(fā)展。期待中國的AI視頻生成賽道玩家能夠持續(xù)在世界舞臺(tái)上舞出風(fēng)采,在百家爭(zhēng)鳴中,實(shí)現(xiàn)中國多模態(tài)技術(shù)的極大發(fā)展和人人可感知到的現(xiàn)實(shí)應(yīng)用。
(主辦方供圖)
友情鏈接: 政府 高新園區(qū)合作媒體
Copyright 1999-2024 中國高新網(wǎng)chinahightech.comAll Rights Reserved.京ICP備14033264號(hào)-5
電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證060344號(hào)主辦單位:《中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)》社有限責(zé)任公司