寥寥數(shù)語生成60秒視頻,Sora能否改變影視行業(yè)?
作者:俞陶然
近期,OpenAI公司發(fā)布的文生視頻大模型Sora引發(fā)全球關(guān)注。只要輸入一句或寥寥幾句描述畫面情節(jié)的提示詞,它就能生成一段時(shí)長60秒的視頻。這些視頻的質(zhì)量和準(zhǔn)確性達(dá)到了令人驚艷的程度。
Sora的技術(shù)原理是什么?其應(yīng)用價(jià)值有多大?記者采訪了上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系教授趙海。
趙海教授介紹,Sora屬于多模態(tài)混合模型,由大語言模型和文圖生成器拼接而成。純文圖生成模型對提示詞的理解能力很弱。比如,用戶輸入“世界和平”,它往往無法生成準(zhǔn)確的圖片。如果把文圖生成器與大語言模型拼接在一起,后者就能把“世界和平”轉(zhuǎn)化為和平鴿、橄欖枝等文圖生成器“看得懂”的提示詞,從而生成切題的作品。
文圖生成器經(jīng)改造后,也能生成視頻。因此,從文圖生成器過渡到文生視頻大模型,不需要很大的技術(shù)突破,研發(fā)團(tuán)隊(duì)主要依靠的是大算力、大模型、大樣本訓(xùn)練數(shù)據(jù)等“先天條件”?!斑@些條件都是OpenAI所具備的,所以Sora的問世不能算技術(shù)革命,而是工程實(shí)踐的成功?!壁w海說。
Sora展示的一批文生視頻案例令人驚艷。比如,輸入這樣一段提示詞:“一位時(shí)尚女性走在充滿霓虹燈和城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,涂著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。”Sora根據(jù)這段話生成的60秒視頻效果頗佳,頭發(fā)、服裝等細(xì)節(jié)都沒問題,并實(shí)現(xiàn)了連貫的場景轉(zhuǎn)換,達(dá)到以假亂真的水平。
Sora與同類產(chǎn)品相比,具有三大優(yōu)勢——60秒時(shí)長、單視頻包含多角度鏡頭、遵循部分物理規(guī)律。
Sora問世前,同類產(chǎn)品只能根據(jù)提示詞生成5秒以內(nèi)的短視頻。Sora的作品不僅長達(dá)1分鐘,而且有多角度鏡頭,這些鏡頭里的人和物還能保持前后一致性,不會因角度變換而出現(xiàn)問題。在對物理規(guī)律的掌握方面,Sora也有不俗表現(xiàn),比如在其生成的一段SUV(運(yùn)動型多用途汽車)行駛視頻中,汽車影子與車身始終契合。
不過,Sora的作品也存在不少瑕疵。如輸入“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”,視頻中狼的數(shù)量會莫名改變,幾只狼憑空出現(xiàn)或消失。趙海分析:“目前的文圖生成器對數(shù)字不夠敏感,比如生成的一些手會有6根手指,今后要加強(qiáng)這方面的訓(xùn)練。”
在他看來,視頻大模型將改變影視行業(yè)的游戲規(guī)則。以技術(shù)含量最高的科幻電影為例,目前拍攝一部科幻大片往往需要數(shù)年時(shí)間,視頻大模型用于這個(gè)領(lǐng)域后,特效畫面的制作時(shí)間有望縮短到幾天,從而大幅降低科幻電影拍攝的時(shí)間成本和技術(shù)門檻。視頻攝制成本的降低,也將給傳媒行業(yè)帶來變革。今后,部分視頻的攝制也許只要在電腦前輸入一些提示詞,省去了現(xiàn)場拍攝、后期剪輯等耗時(shí)費(fèi)力的過程。(俞陶然)
版權(quán)聲明:凡注明“來源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來源中國西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。
- 春節(jié)檔票房刷新同檔期紀(jì)錄,電影市場紅紅火火
- 【我們這些年俗】幡鼓齊動
- 全國人大代表張?jiān)伱罚杭訌?qiáng)涉未成年人文創(chuàng)產(chǎn)品監(jiān)管
- 補(bǔ)足廢棄物循環(huán)利用體系建設(shè)的最大短板
- 低值可回收物如何變廢為寶
- 取消論文、項(xiàng)目等硬性要求——高校輔導(dǎo)員評職稱,更重育人實(shí)效
- 新華社經(jīng)濟(jì)隨筆:中國春節(jié),為世界經(jīng)濟(jì)注入暖意
- 各地重點(diǎn)產(chǎn)業(yè)項(xiàng)目建設(shè)“熱氣騰騰”
- 家門口的“十四冬”
- “十四冬”點(diǎn)燃群眾文化熱情