? 本報(bào)記者 李洋
視頻生成有望成為通用知識(shí)學(xué)習(xí)方法,在現(xiàn)實(shí)世界充當(dāng)“人工大腦”。近日,豆包大模型團(tuán)隊(duì)宣布其攜手北京交通大學(xué)與中國(guó)科學(xué)技術(shù)大學(xué)共同研發(fā)的視頻生成實(shí)驗(yàn)?zāi)P汀癡ideoWorld”正式開源,首次實(shí)現(xiàn)無(wú)需依賴語(yǔ)言模型即可認(rèn)知世界。
民生證券發(fā)布研報(bào)稱,豆包開源視頻大模型“VideoWorld”的發(fā)布,讓視頻生成成為通用知識(shí)學(xué)習(xí)方法,在現(xiàn)實(shí)世界充當(dāng)“人工大腦”,僅靠“視覺”即可學(xué)習(xí)知識(shí),并“理解”因果關(guān)系,“預(yù)測(cè)”未來(lái),有望激活“視覺市場(chǎng)”為其打開增長(zhǎng)空間。
僅靠“視覺”即可預(yù)測(cè)未來(lái)
目前,現(xiàn)有模型大多依賴語(yǔ)言或標(biāo)簽數(shù)據(jù)學(xué)習(xí)知識(shí),很少涉及純視覺信號(hào)的學(xué)習(xí)。然而,語(yǔ)言作為一種表達(dá)工具,其局限性在于無(wú)法全面捕捉真實(shí)世界中的所有復(fù)雜信息。
據(jù)了解,VideoWorld摒棄語(yǔ)言模型,通過純視覺信號(hào)進(jìn)行統(tǒng)一的理解、執(zhí)行和推理。同時(shí),VideoWorld基于一種潛在動(dòng)態(tài)模型,可高效壓縮視頻連續(xù)幀間的變化信息,顯著提升知識(shí)學(xué)習(xí)效率和效果。
“視覺模型在處理連續(xù)幀變化時(shí)能夠捕捉動(dòng)態(tài)信息。這在理解動(dòng)作序列、預(yù)測(cè)未來(lái)狀態(tài)等方面有獨(dú)特優(yōu)勢(shì)?!辟Y深人工智能專家郭濤認(rèn)為,這類模型能夠直接處理和理解圖像或視頻數(shù)據(jù),不需要先轉(zhuǎn)換成文本描述再進(jìn)行理解,因此在圖像識(shí)別、場(chǎng)景理解方面更為直觀和準(zhǔn)確。此外,視覺信息本身含有豐富的細(xì)節(jié)和上下文,可為自動(dòng)駕駛過程中的實(shí)時(shí)路況判斷、醫(yī)療影像的精確分析等特殊場(chǎng)景提供更精細(xì)的判斷依據(jù)。
“這種視頻生成模型不依賴語(yǔ)言模型,進(jìn)一步減少了對(duì)數(shù)據(jù)標(biāo)注和預(yù)訓(xùn)練的依賴,降低了開發(fā)成本和難度?!北本┦猩鐣?huì)科學(xué)院副研究員王鵬說(shuō)。
“這無(wú)疑大大提升了模型的學(xué)習(xí)效率;此外,這種大模型不需要中間的語(yǔ)言轉(zhuǎn)換,更符合人類的直觀認(rèn)知方式?!笨品降弥菐?kù)研究負(fù)責(zé)人張新原認(rèn)為。
為AI應(yīng)用帶來(lái)新的可能性
業(yè)界專家表示,VideoWorld的發(fā)布,也為人工智能領(lǐng)域帶來(lái)新的可能性。比如,在醫(yī)療影像分析中,模型能夠通過學(xué)習(xí)大量醫(yī)學(xué)影像數(shù)據(jù),輔助醫(yī)生進(jìn)行診斷和治療;在娛樂產(chǎn)業(yè),可用于電影特效制作、虛擬偶像生成等;在教育領(lǐng)域,能夠創(chuàng)建互動(dòng)式學(xué)習(xí)材料;在零售行業(yè)則可應(yīng)用于商品展示和虛擬現(xiàn)實(shí)購(gòu)物體驗(yàn)等。
民生證券發(fā)布的研究報(bào)告認(rèn)為,視覺認(rèn)知世界的能力有望激活“視覺市場(chǎng)”。
“這些應(yīng)用場(chǎng)景只是‘冰山一角’,隨著技術(shù)進(jìn)步,更多創(chuàng)意應(yīng)用將會(huì)涌現(xiàn)?!惫鶟f(shuō)。
依賴文本大模型有危機(jī)
“隨著多模態(tài)技術(shù)的發(fā)展,結(jié)合文本和圖像的綜合模型將成為趨勢(shì),單一依賴文本的大模型可能會(huì)逐漸失去競(jìng)爭(zhēng)力?!痹诠鶟磥?lái),這并不意味著語(yǔ)言大模型會(huì)被淘汰,而是促使其向更高級(jí)、更綜合的方向發(fā)展,比如增強(qiáng)對(duì)圖像的理解能力或與視覺模型更好地協(xié)同工作。
此次豆包大模型團(tuán)隊(duì)選擇開源VideoWorld,或許希望通過此舉讓更多的研究者和開發(fā)者可以接觸并使用VideoWorld,以推動(dòng)純視覺認(rèn)知技術(shù)的快速發(fā)展和應(yīng)用。從長(zhǎng)遠(yuǎn)看,作為首個(gè)無(wú)需依賴語(yǔ)言模型的視覺認(rèn)知模型,VideoWorld的開源有助于其成為行業(yè)標(biāo)準(zhǔn),影響未來(lái)相關(guān)技術(shù)的發(fā)展方向。
VideoWorld的開源,為研究者提供了一個(gè)強(qiáng)大的基準(zhǔn)模型,有助于探索更多基于視覺的學(xué)習(xí)方法和算法?!半S著更多開發(fā)者的加入,有望圍繞VideoWorld形成一個(gè)新的技術(shù)社區(qū)和生態(tài)系統(tǒng),促進(jìn)不同領(lǐng)域間交叉合作和技術(shù)融合,進(jìn)一步拓展人工智能的應(yīng)用邊界?!惫鶟f(shuō)。
關(guān)于開源面臨的一些挑戰(zhàn),業(yè)界人士認(rèn)為,開源使得競(jìng)爭(zhēng)對(duì)手可以輕松獲取技術(shù)細(xì)節(jié),可能加劇市場(chǎng)競(jìng)爭(zhēng)。當(dāng)然還有社區(qū)管理方面的挑戰(zhàn),維護(hù)一個(gè)活躍且健康的開源社區(qū)需要投入大量資源,包括技術(shù)支持、文檔維護(hù)等。
友情鏈接: 政府 高新園區(qū)合作媒體
Copyright 1999-2024 中國(guó)高新網(wǎng)chinahightech.comAll Rights Reserved.京ICP備14033264號(hào)-5
電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證060344號(hào)主辦單位:《中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)》社有限責(zé)任公司