當前位置: 華文頭條 > 推薦

今年不懂這個詞,你有可能失業

2024-02-21推薦

兩只金毛犬在山頂上錄制播客,會是一個怎樣的場景?

台北時間2月16日,網友在社交媒體上寫下對AI模型Sora的這一文字提示,OpenAI行政總裁山姆·柯曼將其輸入Sora,生成了一個10秒的高畫質影片,並將其釋出在社交平台。畫面中,兩只金毛犬頭戴耳機,面前立著兩個話筒,放松地蹲坐在山間一塊紅白相間的野餐布上。金毛犬的毛發光澤、周圍的山頂環境非常逼真,幾乎和電視紀錄片別無二致。

Sora根據「兩只金毛犬在山頂上錄制播客」生成的影片 圖源:影片截圖

繼AI生成文字和圖片後,OpenAI正式涉足影片生成領域。台北時間2月16日淩晨,OpenAI釋出首個AI 文字生成影片模型Sora,使用者只需用文字描述一個場景,Sora便可生成一個時長最高可達1分鐘的影片。OpenAI僅在官網釋出數十個Sora影片,目前,該功能尚未向公眾開放,僅面向安全人員,還將向特定藝術家、設計師提供存取許可權。但Sora影片對文字提示的超高還原,迅速引爆網絡。有網友感慨,「Sora要革影視行業的命」「它將把影片內容帶入‘零基礎創作’時代」。AI和現實的界限已很難分清,「現實,不存在了」。

輝達的工程師王帥在Sora釋出後驚嘆,這是「又一個ChatGPT 時刻」。他在接受【中國新聞周刊】采訪時提到,Sora顯著提高了AI文字生成影片的能力上限,這無疑是業內共識。但Sora的產品和商業化路徑是什麽,產品如何產生價值,目前業內仍有分歧。「技術能力提高,並不意味著它能解決所有問題,幫好萊塢導演直接拍電影,不需要攝像,還遠沒有到那一步。」

Sora效果為何遠超其他模型?

即使不關註大模型技術的人,這兩天也會註意到這個社交網絡上廣為流傳的59秒影片:一位戴墨鏡、身穿紅裙皮衣、踩著皮靴的女人,漫步在東京街頭,鏡頭流暢地推到了她的臉部,你可以清晰地看到她臉上的雀斑和皮膚紋理。這個一鏡到底的影片不需要人來拍攝和剪輯,只要把一段描述輸入Sora後由AI直接生成。

由Sora生成的影片截圖,提示詞為:一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,塗著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。圖源:OpenAI官網

1分鐘的影片並不長,但對於AI文字生成影片可以算是巨大飛躍。過去一年多,ChatGPT、Midjourney等現象級爆款套用橫空出世,AI 生成文字、生成圖片技術的飛速發展讓人興奮,相比之下,AI生成影片領域雖有Runway、Pika 、Meta、谷歌等多個明星公司入局,但因技術難度更大,發展仍處於早期。2023年12月,谷歌團隊釋出影片生成模型VideoPoet,一次能生成10秒超長、連貫大動作的影片,超過其他智能生成3~4秒的模型,已足以讓業內振奮。

清華大學智能產業研究院首席研究員聶再清向【中國新聞周刊】解釋,在此之前,文字生成影片的時長短,一大原因在於,AI不知道接下來要發生什麽,因而不知道該生成怎樣的內容。

Sora的影片更長,觀眾也明顯感受到其更加符合邏輯,因為它一定程度上「展現」了對現實世界的理解能力。在OpenAI公開釋出的一個影片中,復古SUV在陡峭的山路上行駛,車身自然顛簸,輪胎揚起灰塵,因此,更讓人信服。OpenAI將這一能力稱為「世界模型的雛形」。 輝達人工智能研究院首席研究科學家Jim Fan也在社交平台感嘆,Sora並不只是創意玩具,而是一個數據驅動的物理引擎,可以對真實或虛擬世界進行模擬。

由Sora生成的影片截圖。提示詞為:鏡頭跟隨一輛帶有黑色車頂行李架的白色老式SUV,它在陡峭的山坡上一條被松樹環繞的陡峭土路上加速行駛,輪胎揚起灰塵,陽光照射在SUV上行駛土路,給整個場景投射出溫暖的光芒。土路緩緩地蜿蜒延伸至遠方,看不到其他汽車或車輛。道路兩旁都是紅杉樹,零星散落著一片片綠意。從後面看,這輛車輕松地沿著曲線行駛,看起來就像是在崎嶇的地形上行駛。土路周圍是陡峭的丘陵和山脈,上面是清澈的藍天和縷縷雲彩。

聶再清介紹說,世界模型可以簡單理解為,AI對真實世界建模,能還原對現實世界中人和物的理解,「比如拿一個紙杯,AI‘知道’很輕,如果這個杯子是鐵做的,它會很重,如果一個人開車逆行,其他車輛會嚇得減速或避讓」。

Sora能做到準確理解文字含義,並呈現逼真的畫面,在於和ChatGPT一樣的邏輯,即「大力出奇跡」。聶再清提到,此前,文字生成影片的挑戰在於,用於練習模型的影片,需要將分辨率、長寬比、時長等調整為統一格式,便捷性不夠。Sora提出用時空視覺patch(修補程式)將不同的影片數據轉化成統一的視覺數據表示,patch即相當於訓練ChatGPT過程中用到的token(文本的最小單元),每個影片不用修改格式,而是先壓縮,提取時間和空間節點的數據,直接輸入模型學習。OpenAI官方介紹,Sora可以采樣寬屏1920x1080p、垂直1080x1920p以及介於兩者之間的所有影片。采樣更加靈活,影片的數據量也會增加。

此外,訓練文本生成影片,需要大量帶有字幕的影片數據。OpenAI利用了DALL·E 3和GPT模型,為訓練的影片集中生成字幕,可以提高文本保真度以及影片的整體質素。

但在王帥看來,模型技術實際上是個公開的秘密,Sora的能力之所以如此驚艷,更關鍵的是OpenAI餵給模型的數據,「他們到底用了多大規模的數據,數據如何選擇,這些在OpenAI的報告中只是點到為止,幾乎沒有任何細節,但只有業內人士知道,這才是關鍵」。

紐約大學電腦科學助理教授謝賽寧是機器學習領域知名學者,他是擴散模型(diffusion)一篇重要論文的主要作者之一,Sora便是一個擴散模型,同時結合了ChatGPT使用的底層模式Transformer,在視覺領域實作突破。謝賽寧在社交媒體上也直言,OpenAI完全沒有談論數據來源和構建,這可能暗示數據才是Sora成功最關鍵的因素。他猜測,OpenAI可能用到了遊戲引擎數據,以及電影、紀錄片、電影長鏡頭等,數據的質素非常重要。

Sora仍存在明顯弱點

「你可以準確地畫出你的想法,然後將其變為現實。」正如參與設計Sora的OpenAI工程師添·布魯克斯所言,Sora降低了影片制作的技術門檻,但對於講故事能力的要求有所提高。人們不免擔憂,Sora的出現,對於好萊塢電影工業會產生重大影響,導演、攝像、化妝、道具、剪輯、配音等一大批從業人員或將失業。

一位不願具名的AI產業研究者在接受【中國新聞周刊】采訪時提到,生成影片工具不等於會講故事的導演、編劇,就像印刷術不能替代李白、杜甫,所以影片的大規模生成,只是顯著降低批次生產的門檻與成本,影片作品的創意性、故事性、藝術性,將在更加海量的作品競爭中要求越來越高。

現階段,Sora仍存在明顯的弱點。在社交媒體上,添·布魯克斯根據提示語「人們在海灘放松,然後一條鯊魚從水中跳了出來,讓所有人大吃一驚」,釋出了由Sora生成的影片。影片中,一位女性看到鯊魚後扭頭求救,但因扭頭角度過大,被網友戲謔是「做了驅魔人式的180度旋轉」。OpenAI也公開承認Sora當前的局限性,它不能時刻準確模擬物理世界的互動規律。比如,在它生成的影片中,一個人在跑步機上反向跑步,一些實體場景中,人或動物會自發冒出來,甚至AI將一把椅子建模成了一個柔性的物體。

OpenAI科學家添·布魯克斯在社交媒體釋出的由Sora生成的影片截圖,由於影片中女性扭頭角度過大,被網友戲謔是「做了驅魔人式的180度旋轉」。 圖源:影片截圖

在聶再清看來,現在人們看到的都是由OpenAI挑選後發出的影片,大家覺得很驚艷,但到底還有多少不完善之處,不能完全確定,還要等釋出更多影片才知道真正效果。

不同於一些技術從業者的樂觀和興奮,王帥對Sora模型的認知更為冷靜。他更在意Sora這類模型如何落地。最近有人向他詢問,Sora生成的影片中,人和車輛那麽自然,模型是怎麽控制每個物體的?但實際上,模型執行的方式與人類思考的方式截然不同,模型根本不知道有物體存在,是大數據告訴它每一部份要做成什麽樣子。生成影片依靠的是巨大的數據,如果有足夠數據,便會更好生成影片。但未來在編輯影片時,可能會出現數據分布之外的情況,如果數據沒有覆蓋到,生成效果可能不盡如人意。

王帥進一步解釋說,不只是要數據規模大,還要有更好的數據細節,「人們使用模型生成了一個效果很好的60秒影片,但這還沒有結束,人們後期如果想做影片編輯,比如摘掉那位東京街頭漫步的女士的墨鏡,如果訓練數據中沒包含這一動作的影片,或很少見,模型可能做不到這一指令,或者做得效果很差。因此,在測試時,需要做非常多的偵錯工作,是非常耗時耗力的事情。」王帥提到,Sora的學習邏輯與ChatGPT是相通的,模型學到了足夠多的數據,因而掌握了數據間的規律。但這仍和通用人工智能有區別—— Sora本質上還是在模仿訓練數據中的影片。

「一段文字提示,模型中可能會對應由上千萬的影片,目前OpenAI呈現了一個看起來足夠好的影片,大家就覺得這個模型很厲害,但你不知道它能不能很好地生成其他影片。」王帥提到,這就像是一個問題有100個答案,但它只給出一個正確答案,這意味著大模型就會做這個題了嗎?不是,除非它也能把剩下99個答案都告訴你,才說明它的理解沒有問題。

至於是否會顛覆影視行業,在王帥看來,大家現在猜測一些大方向,但很可能答案是在意料之外。「谷歌剛成立時,人們不會想到它會以做廣告盈利,人們最初對Facebook改變社交方式寄予厚望,但不會想到它未來泄露使用者數據私密的醜聞,AI技術亦是如此。多位技術人員認為只要解決技術難題就可以了,不是這樣的。技術在商業和社會層面將會帶來怎樣的影響,是一個極其復雜的系統,很難單獨用技術邏輯來理解。」

(王帥為化名。)

記者:楊智傑

編輯:杜瑋