作者
|
香草
編輯
|
李水青
距離OpenAI釋出Sora已經十幾天了,「中國版Sora」表現如何?
智東西3月1日報道,本周,我們深度體驗了字節的CapCut AI Video、騰訊的VideoCrafter2、愛詩科技的PixVerse等 8款 國產的AI視訊生成工具,設定 6道 關卡,將其生成視訊效果與Sora進行橫向測評。
▲8款工具生成結果對比,提示詞為:一位20多歲的年輕人坐在天空的雲朵上看書
縱觀國內玩家,已有 超15家 企業推出了視訊生成工具,既包括百度、阿裏、騰訊、字節等 6家 巨頭,也包括愛詩科技、生數科技、智象未來等 9家 創企。這些企業相比OpenAI做得怎麽樣?本文在第一部份做了全景式的解讀。
綜合產品易得性、視訊生成速度等因素,智東西本次選取字節的CapCut AI Video、騰訊的VideoCrafter2、右腦科技的Vega AI、愛詩科技的PixVerse、MewXAI的藝映AI、智象未來的Pixeling,以及NeverEnds和Morph Studio的同名產品8款工具進行對比,並從個人體驗的角度,嘗試從 語意理解 、 運動平滑度 、 運動程度 以及 成像品質 方面打分。
▲八款文生視訊工具總體得分對比(智東西制表)
透過體驗,我們整體感覺字節短暫上線的CapCut AI Video功能最佳,尤其勝在運動平滑度和成像品質上。
Morph Studio、NeverEnds在創企中領跑,且穩定性較高,在體驗過程中沒有出現大翻車的情況。
VideoCrafter2、Pixeling生成品質不夠穩定,出現了幾次大翻車的情況;PixVerse、Vega AI也出現了不同程度的翻車。
對比Sora如何?總體來講,智東西有以下幾點發現:
1、 字節、Morph Studio 分別領跑大廠和創企,穩定性和成像品質表現優秀。
2、大部份產品 仍處於測試階段 ,臨時下線、長時間排隊、無獨立站點成為家常便飯。
3、生成2-4秒視訊 等待時間多為3-5分鐘 甚至更久,效率較低。
4、 運動程度整體較低 ,多為平移式運動或鏡頭運動。
5、 人手、動物等仍是重災區 ,非現實場景大模型難以理解。
不過,Sora目前仍未面向大眾測試,雖然官方公布的視訊效果震撼,但產品玩起來如何仍有待實際體驗。本文文末附有8款工具的試用連結,感興趣的讀者朋友可以自行體驗,歡迎在評論區分享體驗感受和新發現~
一、9家創企、6路大廠圍攻Sora,八名選手參賽
據智東西不完全統計,目前已釋出類Sora產品的國內創業公司有以下9家,分別是Morph Studio、HiDream.ai(智象未來)、愛詩科技、MewXAI、NeverEnds、右腦科技、李白AI實驗室、Möbius以及生數科技。
它們的產品釋出時間均早於Sora,且大多都同時支持文生視訊和圖生視訊。
▲國內創業公司釋出的Sora類產品/模型(智東西統計制表,數據截至3月1日)
與創企相比,國內大廠在產品落地方面推進更加謹慎。截至發文,只有字節在海外版剪映CapCut中推出了有獨立主頁的AI視訊生成功能,但短暫釋出後便下線了,目前尚不清楚其是否基於字節1月釋出的MagicVideo-V2模型。
此外,阿裏、騰訊的部份模型雖然托管在開源社群,但實際體驗過程中生成等待時間過長,有的甚至超過1個小時,因此不在本次對比範圍內。
▲國內大廠釋出的Sora類產品/模型(智東西統計制表,數據截至2月27日)
本次出戰文生視訊大賽的8名玩家其各自支持生成的視訊時長、擴充套件功能,以及生成視訊的分辨率和幀率如下表所示(按產品名首字母排序)。
▲可試用的文生視訊工具參數對比(智東西制表)
二、六大關卡覆蓋三類場景,第六關遇培養皿全員翻車?
為了與Sora的對比更直觀,智東西將Sora官方示範視訊給出的英文提示詞輸入這些生成器。公平起見,其他擴充套件功能如鏡頭運動、反向提示詞等保持預設設定,且均選取第一次生成的視訊。
下面讓我們具體來看一下各位參賽選手在不同關卡的表現情況。
1、人物場景:步行變「漂移」,人手依然是重災區
提示詞1: 一個時髦的女人走在東京的街道上,到處都是溫暖的霓虹燈和生動的城市標誌。她穿著黑色皮夾克、紅色長裙、黑色靴子,拿著一個黑色錢包。她戴著太陽鏡,塗著紅色的口紅。她走起路來自信而隨意。街道是潮濕和反光的,創造了一個彩色燈光的鏡子效果。許多行人走來走去。
首先來看一下Sora放出的Demo,不僅長達1分鐘,且完美體現了每一處細節,還進行了景別切換,整體畫面十分驚艷。
在參賽選手這邊,首先在整體效果上,8款工具基本都呈現了一個女人走在街道上的畫面,並且對霓虹燈、城市標誌的理解也較為準確。
但細看之下,只有Pixeling、Morph Studio和CapCut較好地描繪了黑色皮夾克、紅色長裙、黑色靴子和太陽鏡,Morph Studio生成了錢包但錯將黑色錢包變成了紅色。另外5位選手則對人物細節的生成不太準確,其中VideoCrafter2的看起來甚至不太像人臉。
場景方面,各位選手的表現大同小異,其中CapCut、Morph Studio、Vega AI及NeverEnds生成畫面比較精致,但Morph Studio忽略了「潮濕」這個細節。
這道題難度較大,有很多細節上的描述,對女子的穿著、隨身物品、風格等進行了詳細的要求,稍不註意就會出現失誤。背景上,潮濕的地面和霓虹燈反光也是一大難點。
提示詞2: 一位20多歲的年輕人坐在天空的雲朵上看書。
Sora的Demo視訊展現了年輕人坐在雲朵上讀書的畫面,並且有翻書的細節。
這一關基本沒有難倒參賽選手,8款工具都生成了一個年輕人坐著讀書的畫面,不過PixVerse、Vega AI沒能讓人物坐在雲上,NeverEnds則把雲拽到了地面。VideoCrafter2、藝映AI沒有拍到人物的屁股具體在哪兒,但從其背景能夠看出大機率並不是雲。
不出意外的,人手又成了大模型跌倒的重災區,幾乎都糊作一團,有的還出現了第三只手。另外,Pixeling生成的人臉五官有些「抽象」。
從畫面風格上來看,PixVerse、藝映AI有點像三維動畫風格,整體畫面比較精致;Vega AI生成的人物最真實,但整個畫面只有背景的雲在運動。
這道題的難度中等,不同於前一個提示詞,它十分簡短並且創造了一個現實生活中不可能出現的場景,主要考驗大模型的「想象力」以及對不同主體之間關系的理解能力。
2、動物場景:柯基變麵包,稀有物種難以描繪
提示詞3: 一只柯基犬在熱帶毛伊島拍攝自己的Vlog。
這個提示詞的難點在於,如何表現柯基「拍攝自己」。Sora的演示雖然表現了這個細節,但也有些經不起推敲,自拍桿看起來像長在柯基身體上一樣怪異。不過瑕不掩瑜,視訊整體效果很精致,柯基表情靈動,還戴上了和熱帶環境相符的墨鏡。
CapCut生成的柯基非常可愛,雖然眼球有些飄逸現象,但不算明顯。遺憾的是它沒有表現「自拍」這個關鍵詞。
Morph Studio的效果也不錯,還給柯基掛上了一台攝影機。
NeverEnds描繪的柯基有點像人,不僅自己上手偵錯相機,嘴型看起來還像在說話——說好的建國後不準成精呢?另外,NeverEnds生成的柯基似乎長了六條腿,和Sora把螞蟻畫成四條腿有點雙向奔赴了。
Pixeling沒能透過這條測試,直接生成了一段「鬼畜」視訊。
開頭可愛的狗狗特寫反復變形,讓我聯想到機器學習中一個很有意思的梗——如何分辨柴犬與麵包。看來,Pixeling漏掉了這節課。
PixVerse理解了「拍攝」,但搞錯了主體,生成了一只人手來拍攝柯基犬,這只手也有些「詭異」,AI還是一如既往地在人手上栽了跟頭。此外,視訊開頭處柯基的嘴巴歪得也有些離譜。
Vega AI生成的視訊一開始比較正常,但最後1秒可愛的柯基突然變形,最後表演了一個「頭部消失術」。此外,它透過椰子樹表現了「熱帶」,但似乎漏掉了「毛伊島」這一點。
VideoCrafter2似乎只記住了「柯基」這一個關鍵詞,其他的提示詞都被它忽略了。它還給畫面加了一個神奇的光影,看起來像是夕陽余暉。
藝映AI生成的狗子畫風較為真實,整體畫面流暢,不過也沒體現「自拍」的細節。
這道題難度中等,整體來看,對提示詞理解較好的是Morph Studio和NeverEnds,PixVerse則算是勉強及格。從畫面效果上看,CapCut、Morph Studio、VideoCrafter2和藝映AI穩定性較好,畫面更加流暢。
提示詞4 :這個維多利亞鳳冠鳩(Victoria crowned pigeon)的特寫展示了它引人註目的藍色羽毛和紅色胸部。它的羽冠是由精致的花邊羽毛制成的,而它的眼睛是醒目的紅色。鳥的頭微微向一側傾斜,給人一種帝王和威嚴的印象。背景是模糊的,吸引人們註意到這只鳥引人註目的外表。
Sora演示視訊中的鳳冠鳩全方位地展示了自己的羽冠,正面、側面、背面都不在話下,羽毛也隨著頭的轉動搖搖晃晃。
如果只看畫面,除了藝映AI幾乎是甩了張靜態圖出來,其他7位選手的畫面效果都還算流暢。
CapCut、Morph Studio、NeverEnds和Pixeling生成的鳳冠鳩基本是同一個角度,沒有大振幅的運動或角度變化,PixVerse、Vega AI和VideoCrafter2則有頭部角度的變化。
從對該物種的特征還原來看,CapCut、VideoCrafter2表現較好,還原了紅色眼睛、紅色胸部、藍色身體以及藍白色的羽冠,其他6位參賽選手的還原度略低。
此外,VideoCrafter2雖然在使用指南中提到了比例調整的功能,但並沒有成功生成9:16的豎屏視訊。
這道題難度中等,主要難點在於對不常見動物特征的準確描繪。下圖是Sora生成視訊截圖與動物網站Fact Animal上的維多利亞鳳冠鳩照片對比。可以看出,Sora對該動物的還原程度很高,從身體、眼睛的顏色到喙部、羽冠的形狀基本都與照片一致。相比之下,8位元參賽選手都沒能準確表現這些特征。
▲Sora生成的(左)與真實的(右)維多利亞鳳冠鳩對比
3、「虛擬現實」場景:想象力不足,遇「小熊貓培養皿」全員翻車
提示詞5: 兩艘海盜船在一杯咖啡中航行時相互爭鬥的逼真特寫視訊。
CapCut成功將海盜船放入了咖啡杯中,但只放了一艘,自然也沒辦法「相互爭鬥」。
Morph Studio則將兩艘海盜船放進了兩個咖啡杯,還自作主張地添加了海洋背景。
NeverEnds、藝映AI也將船放進了咖啡杯,同時在背景繪制了大海和更多海盜船。NeverEnds還給咖啡加了拉花。
不過,能將海盜船準確地生成在咖啡杯裏已經算比較好的了,其他4位元參賽選手在這條提示詞上各有各的「翻車」方式。
Pixeling直接將海盜船印在了杯子上。
PixVerse分別生成了咖啡杯、海盜船,但穩定性較差,前景中的咖啡杯最後變形成了一艘船。
Vega AI也犯了同樣的錯誤,並且海洋和沙灘的分界線有些模糊。
VideoCrafter2則連海盜船都沒能出現,只有幾個看起來像海盜帽子的小東西搖來搖去。
這道題難度較大,船在咖啡中航行是不可能在現實中出現的場景,因此必然缺乏能完全與之對應的訓練數據,這就很考驗大模型的「想象力」。
提示詞6: 一個培養皿,裏面長著一片竹林,裏面有小熊貓在跑來跑去。
這輪比拼十分精彩,幾乎是全員翻車。遺憾的是在智東西還沒來得及測試更多提示詞時,CapCut AI Video就下線了,缺席本輪比賽。
Morph Studio生成的培養皿看起來像一顆水晶球,小熊貓還玩起了「影分身」。
NeverEnds是對幾個關鍵詞描繪最準確的,不過還是錯把竹林畫在了培養皿外面,並且只有鏡頭運動,畫面上的主體幾乎靜止。
Pixeling準確描繪了培養皿,但「竹林」和小熊貓都仿佛變成了水中的倒影,且和動物關中的柯基一樣,小熊貓糊作一團。
PixVerse的視訊中沒有出現培養皿。
Vega AI生成了一個帶蓋的「培養皿」,並且搞反了它和竹林之間的包含關系,優點是小熊貓的穩定性較高。
VideoCrafter2生成的小熊貓神態比較靈動,幾只小熊貓各自有各自的運動軌跡,但漏掉了培養皿這個關鍵詞。
藝映AI在這關翻車比較嚴重,是唯一一個看不出來畫的是什麽動物的選手,穩定性也不高。
這道題的難度也很高,不僅創造了非現實場景,小熊貓「跑來跑去」這個動線很大的場景也是一大痛點。總的來說,這一關在語意理解上優勝的是Morph Studio、NeverEnds,在畫面效果上有優勢的是Vega AI和VideoCrafter2。
結語:國內AI視訊商業化任重道遠
在智東西體驗這些產品或模型的過程中,遇到了不少令人「頭禿」的突發情況。如字節的CapCut AI Video、阿裏的ModelScope T2V等待時間過長,生數科技的PixWeaver、萬興科技的Filmora頻頻出現Bug等,各種各樣的不確定因素成為體驗路上的攔路虎。
▲等待時間過長、無法生成等情況出現
從不同場景來看,AI在生成人物、常見動物等要素時理解能力表現較好,但當遇到稀有動物、非現實場景等元素時常常翻車,這可能與訓練數據量不足有關。
經過一番體驗,智東西對國產AI視訊工具的印象也大大改觀。雖然要追趕甚至超越Sora還有很長的路要走,但至少能和海外其他明星產品如Pika、Runway等一決高下。
近幾年來,國內雖然湧現出很多AI視訊玩家,但大部份集中在數位人、AI剪輯等賽道,真正的文生視訊類產品不多。在Sora爆火之後,我們期待國內湧現出更多視訊生成選手,再現「百模大戰」的壯觀景象。
附各工具試用連結:
CapCut AI Video:
Morph Studio:
NeverEnds:
Pixeling:
https://hidream.ai/#/Pixeling
PixVerse:
Vega AI:
VideoCrafter2:
discord.gg/RQENrunu92
藝映AI: