當前位置: 華文頭條 > 文化

全網第一個「中國版Sora」橫評!15家企業對決,字節領跑

2024-03-01文化

作者 | 香草
編輯 | 李水青

距離OpenAI釋出Sora已經十幾天了,「中國版Sora」表現如何?

智東西3月1日報道,本周,我們深度體驗了字節的CapCut AI Video、騰訊的VideoCrafter2、愛詩科技的PixVerse等 8款 國產的AI視訊生成工具,設定 6道 關卡,將其生成視訊效果與Sora進行橫向測評。

▲8款工具生成結果對比,提示詞為:一位20多歲的年輕人坐在天空的雲朵上看書

縱觀國內玩家,已有 超15家 企業推出了視訊生成工具,既包括百度、阿裏、騰訊、字節等 6家 巨頭,也包括愛詩科技、生數科技、智象未來等 9家 創企。這些企業相比OpenAI做得怎麽樣?本文在第一部份做了全景式的解讀。

綜合產品易得性、視訊生成速度等因素,智東西本次選取字節的CapCut AI Video、騰訊的VideoCrafter2、右腦科技的Vega AI、愛詩科技的PixVerse、MewXAI的藝映AI、智象未來的Pixeling,以及NeverEnds和Morph Studio的同名產品8款工具進行對比,並從個人體驗的角度,嘗試從 語意理解 運動平滑度 運動程度 以及 成像品質 方面打分。

▲八款文生視訊工具總體得分對比(智東西制表)

透過體驗,我們整體感覺字節短暫上線的CapCut AI Video功能最佳,尤其勝在運動平滑度和成像品質上。

Morph Studio、NeverEnds在創企中領跑,且穩定性較高,在體驗過程中沒有出現大翻車的情況。

VideoCrafter2、Pixeling生成品質不夠穩定,出現了幾次大翻車的情況;PixVerse、Vega AI也出現了不同程度的翻車。

對比Sora如何?總體來講,智東西有以下幾點發現:

1、 字節、Morph Studio 分別領跑大廠和創企,穩定性和成像品質表現優秀。

2、大部份產品 仍處於測試階段 ,臨時下線、長時間排隊、無獨立站點成為家常便飯。

3、生成2-4秒視訊 等待時間多為3-5分鐘 甚至更久,效率較低。

4、 運動程度整體較低 ,多為平移式運動或鏡頭運動。

5、 人手、動物等仍是重災區 ,非現實場景大模型難以理解。

不過,Sora目前仍未面向大眾測試,雖然官方公布的視訊效果震撼,但產品玩起來如何仍有待實際體驗。本文文末附有8款工具的試用連結,感興趣的讀者朋友可以自行體驗,歡迎在評論區分享體驗感受和新發現~

一、9家創企、6路大廠圍攻Sora,八名選手參賽

據智東西不完全統計,目前已釋出類Sora產品的國內創業公司有以下9家,分別是Morph Studio、HiDream.ai(智象未來)、愛詩科技、MewXAI、NeverEnds、右腦科技、李白AI實驗室、Möbius以及生數科技。

它們的產品釋出時間均早於Sora,且大多都同時支持文生視訊和圖生視訊。

▲國內創業公司釋出的Sora類產品/模型(智東西統計制表,數據截至3月1日)

與創企相比,國內大廠在產品落地方面推進更加謹慎。截至發文,只有字節在海外版剪映CapCut中推出了有獨立主頁的AI視訊生成功能,但短暫釋出後便下線了,目前尚不清楚其是否基於字節1月釋出的MagicVideo-V2模型。

此外,阿裏、騰訊的部份模型雖然托管在開源社群,但實際體驗過程中生成等待時間過長,有的甚至超過1個小時,因此不在本次對比範圍內。

▲國內大廠釋出的Sora類產品/模型(智東西統計制表,數據截至2月27日)

本次出戰文生視訊大賽的8名玩家其各自支持生成的視訊時長、擴充套件功能,以及生成視訊的分辨率和幀率如下表所示(按產品名首字母排序)。

▲可試用的文生視訊工具參數對比(智東西制表)

二、六大關卡覆蓋三類場景,第六關遇培養皿全員翻車?

為了與Sora的對比更直觀,智東西將Sora官方示範視訊給出的英文提示詞輸入這些生成器。公平起見,其他擴充套件功能如鏡頭運動、反向提示詞等保持預設設定,且均選取第一次生成的視訊。

下面讓我們具體來看一下各位參賽選手在不同關卡的表現情況。

1、人物場景:步行變「漂移」,人手依然是重災區

提示詞1: 一個時髦的女人走在東京的街道上,到處都是溫暖的霓虹燈和生動的城市標誌。她穿著黑色皮夾克、紅色長裙、黑色靴子,拿著一個黑色錢包。她戴著太陽鏡,塗著紅色的口紅。她走起路來自信而隨意。街道是潮濕和反光的,創造了一個彩色燈光的鏡子效果。許多行人走來走去。

首先來看一下Sora放出的Demo,不僅長達1分鐘,且完美體現了每一處細節,還進行了景別切換,整體畫面十分驚艷。

在參賽選手這邊,首先在整體效果上,8款工具基本都呈現了一個女人走在街道上的畫面,並且對霓虹燈、城市標誌的理解也較為準確。

但細看之下,只有Pixeling、Morph Studio和CapCut較好地描繪了黑色皮夾克、紅色長裙、黑色靴子和太陽鏡,Morph Studio生成了錢包但錯將黑色錢包變成了紅色。另外5位選手則對人物細節的生成不太準確,其中VideoCrafter2的看起來甚至不太像人臉。

場景方面,各位選手的表現大同小異,其中CapCut、Morph Studio、Vega AI及NeverEnds生成畫面比較精致,但Morph Studio忽略了「潮濕」這個細節。

這道題難度較大,有很多細節上的描述,對女子的穿著、隨身物品、風格等進行了詳細的要求,稍不註意就會出現失誤。背景上,潮濕的地面和霓虹燈反光也是一大難點。

提示詞2: 一位20多歲的年輕人坐在天空的雲朵上看書。

Sora的Demo視訊展現了年輕人坐在雲朵上讀書的畫面,並且有翻書的細節。

這一關基本沒有難倒參賽選手,8款工具都生成了一個年輕人坐著讀書的畫面,不過PixVerse、Vega AI沒能讓人物坐在雲上,NeverEnds則把雲拽到了地面。VideoCrafter2、藝映AI沒有拍到人物的屁股具體在哪兒,但從其背景能夠看出大機率並不是雲。

不出意外的,人手又成了大模型跌倒的重災區,幾乎都糊作一團,有的還出現了第三只手。另外,Pixeling生成的人臉五官有些「抽象」。

從畫面風格上來看,PixVerse、藝映AI有點像三維動畫風格,整體畫面比較精致;Vega AI生成的人物最真實,但整個畫面只有背景的雲在運動。

這道題的難度中等,不同於前一個提示詞,它十分簡短並且創造了一個現實生活中不可能出現的場景,主要考驗大模型的「想象力」以及對不同主體之間關系的理解能力。

2、動物場景:柯基變麵包,稀有物種難以描繪

提示詞3: 一只柯基犬在熱帶毛伊島拍攝自己的Vlog。

這個提示詞的難點在於,如何表現柯基「拍攝自己」。Sora的演示雖然表現了這個細節,但也有些經不起推敲,自拍桿看起來像長在柯基身體上一樣怪異。不過瑕不掩瑜,視訊整體效果很精致,柯基表情靈動,還戴上了和熱帶環境相符的墨鏡。

CapCut生成的柯基非常可愛,雖然眼球有些飄逸現象,但不算明顯。遺憾的是它沒有表現「自拍」這個關鍵詞。

Morph Studio的效果也不錯,還給柯基掛上了一台攝影機。

NeverEnds描繪的柯基有點像人,不僅自己上手偵錯相機,嘴型看起來還像在說話——說好的建國後不準成精呢?另外,NeverEnds生成的柯基似乎長了六條腿,和Sora把螞蟻畫成四條腿有點雙向奔赴了。

Pixeling沒能透過這條測試,直接生成了一段「鬼畜」視訊。

開頭可愛的狗狗特寫反復變形,讓我聯想到機器學習中一個很有意思的梗——如何分辨柴犬與麵包。看來,Pixeling漏掉了這節課。

PixVerse理解了「拍攝」,但搞錯了主體,生成了一只人手來拍攝柯基犬,這只手也有些「詭異」,AI還是一如既往地在人手上栽了跟頭。此外,視訊開頭處柯基的嘴巴歪得也有些離譜。

Vega AI生成的視訊一開始比較正常,但最後1秒可愛的柯基突然變形,最後表演了一個「頭部消失術」。此外,它透過椰子樹表現了「熱帶」,但似乎漏掉了「毛伊島」這一點。

VideoCrafter2似乎只記住了「柯基」這一個關鍵詞,其他的提示詞都被它忽略了。它還給畫面加了一個神奇的光影,看起來像是夕陽余暉。

藝映AI生成的狗子畫風較為真實,整體畫面流暢,不過也沒體現「自拍」的細節。

這道題難度中等,整體來看,對提示詞理解較好的是Morph Studio和NeverEnds,PixVerse則算是勉強及格。從畫面效果上看,CapCut、Morph Studio、VideoCrafter2和藝映AI穩定性較好,畫面更加流暢。

提示詞4 :這個維多利亞鳳冠鳩(Victoria crowned pigeon)的特寫展示了它引人註目的藍色羽毛和紅色胸部。它的羽冠是由精致的花邊羽毛制成的,而它的眼睛是醒目的紅色。鳥的頭微微向一側傾斜,給人一種帝王和威嚴的印象。背景是模糊的,吸引人們註意到這只鳥引人註目的外表。

Sora演示視訊中的鳳冠鳩全方位地展示了自己的羽冠,正面、側面、背面都不在話下,羽毛也隨著頭的轉動搖搖晃晃。

如果只看畫面,除了藝映AI幾乎是甩了張靜態圖出來,其他7位選手的畫面效果都還算流暢。

CapCut、Morph Studio、NeverEnds和Pixeling生成的鳳冠鳩基本是同一個角度,沒有大振幅的運動或角度變化,PixVerse、Vega AI和VideoCrafter2則有頭部角度的變化。

從對該物種的特征還原來看,CapCut、VideoCrafter2表現較好,還原了紅色眼睛、紅色胸部、藍色身體以及藍白色的羽冠,其他6位參賽選手的還原度略低。

此外,VideoCrafter2雖然在使用指南中提到了比例調整的功能,但並沒有成功生成9:16的豎屏視訊。

這道題難度中等,主要難點在於對不常見動物特征的準確描繪。下圖是Sora生成視訊截圖與動物網站Fact Animal上的維多利亞鳳冠鳩照片對比。可以看出,Sora對該動物的還原程度很高,從身體、眼睛的顏色到喙部、羽冠的形狀基本都與照片一致。相比之下,8位元參賽選手都沒能準確表現這些特征。

▲Sora生成的(左)與真實的(右)維多利亞鳳冠鳩對比

3、「虛擬現實」場景:想象力不足,遇「小熊貓培養皿」全員翻車

提示詞5: 兩艘海盜船在一杯咖啡中航行時相互爭鬥的逼真特寫視訊。

CapCut成功將海盜船放入了咖啡杯中,但只放了一艘,自然也沒辦法「相互爭鬥」。

Morph Studio則將兩艘海盜船放進了兩個咖啡杯,還自作主張地添加了海洋背景。

NeverEnds、藝映AI也將船放進了咖啡杯,同時在背景繪制了大海和更多海盜船。NeverEnds還給咖啡加了拉花。

不過,能將海盜船準確地生成在咖啡杯裏已經算比較好的了,其他4位元參賽選手在這條提示詞上各有各的「翻車」方式。

Pixeling直接將海盜船印在了杯子上。

PixVerse分別生成了咖啡杯、海盜船,但穩定性較差,前景中的咖啡杯最後變形成了一艘船。

Vega AI也犯了同樣的錯誤,並且海洋和沙灘的分界線有些模糊。

VideoCrafter2則連海盜船都沒能出現,只有幾個看起來像海盜帽子的小東西搖來搖去。

這道題難度較大,船在咖啡中航行是不可能在現實中出現的場景,因此必然缺乏能完全與之對應的訓練數據,這就很考驗大模型的「想象力」。

提示詞6: 一個培養皿,裏面長著一片竹林,裏面有小熊貓在跑來跑去。

這輪比拼十分精彩,幾乎是全員翻車。遺憾的是在智東西還沒來得及測試更多提示詞時,CapCut AI Video就下線了,缺席本輪比賽。

Morph Studio生成的培養皿看起來像一顆水晶球,小熊貓還玩起了「影分身」。

NeverEnds是對幾個關鍵詞描繪最準確的,不過還是錯把竹林畫在了培養皿外面,並且只有鏡頭運動,畫面上的主體幾乎靜止。

Pixeling準確描繪了培養皿,但「竹林」和小熊貓都仿佛變成了水中的倒影,且和動物關中的柯基一樣,小熊貓糊作一團。

PixVerse的視訊中沒有出現培養皿。

Vega AI生成了一個帶蓋的「培養皿」,並且搞反了它和竹林之間的包含關系,優點是小熊貓的穩定性較高。

VideoCrafter2生成的小熊貓神態比較靈動,幾只小熊貓各自有各自的運動軌跡,但漏掉了培養皿這個關鍵詞。

藝映AI在這關翻車比較嚴重,是唯一一個看不出來畫的是什麽動物的選手,穩定性也不高。

這道題的難度也很高,不僅創造了非現實場景,小熊貓「跑來跑去」這個動線很大的場景也是一大痛點。總的來說,這一關在語意理解上優勝的是Morph Studio、NeverEnds,在畫面效果上有優勢的是Vega AI和VideoCrafter2。

結語:國內AI視訊商業化任重道遠

在智東西體驗這些產品或模型的過程中,遇到了不少令人「頭禿」的突發情況。如字節的CapCut AI Video、阿裏的ModelScope T2V等待時間過長,生數科技的PixWeaver、萬興科技的Filmora頻頻出現Bug等,各種各樣的不確定因素成為體驗路上的攔路虎。

▲等待時間過長、無法生成等情況出現

從不同場景來看,AI在生成人物、常見動物等要素時理解能力表現較好,但當遇到稀有動物、非現實場景等元素時常常翻車,這可能與訓練數據量不足有關。

經過一番體驗,智東西對國產AI視訊工具的印象也大大改觀。雖然要追趕甚至超越Sora還有很長的路要走,但至少能和海外其他明星產品如Pika、Runway等一決高下。

近幾年來,國內雖然湧現出很多AI視訊玩家,但大部份集中在數位人、AI剪輯等賽道,真正的文生視訊類產品不多。在Sora爆火之後,我們期待國內湧現出更多視訊生成選手,再現「百模大戰」的壯觀景象。

附各工具試用連結:

CapCut AI Video:

Morph Studio:

NeverEnds:

Pixeling:
https://hidream.ai/#/Pixeling

PixVerse:

Vega AI:

VideoCrafter2:
discord.gg/RQENrunu92

藝映AI: