全網第一個「中國版Sora」橫評！15家企業對決，字節領跑

2024-03-01文化

作者 | 香草
編輯 | 李水青

距離OpenAI釋出Sora已經十幾天了，「中國版Sora」表現如何？

智東西3月1日報道，本周，我們深度體驗了字節的CapCut AI Video、騰訊的VideoCrafter2、愛詩科技的PixVerse等 8款國產的AI視訊生成工具，設定 6道關卡，將其生成視訊效果與Sora進行橫向測評。

▲8款工具生成結果對比，提示詞為：一位20多歲的年輕人坐在天空的雲朵上看書

縱觀國內玩家，已有 超15家 企業推出了視訊生成工具，既包括百度、阿裏、騰訊、字節等 6家巨頭，也包括愛詩科技、生數科技、智象未來等 9家創企。這些企業相比OpenAI做得怎麽樣？本文在第一部份做了全景式的解讀。

綜合產品易得性、視訊生成速度等因素，智東西本次選取字節的CapCut AI Video、騰訊的VideoCrafter2、右腦科技的Vega AI、愛詩科技的PixVerse、MewXAI的藝映AI、智象未來的Pixeling，以及NeverEnds和Morph Studio的同名產品8款工具進行對比，並從個人體驗的角度，嘗試從 語意理解 、 運動平滑度 、 運動程度 以及 成像品質 方面打分。

▲八款文生視訊工具總體得分對比（智東西制表）

透過體驗，我們整體感覺字節短暫上線的CapCut AI Video功能最佳，尤其勝在運動平滑度和成像品質上。

Morph Studio、NeverEnds在創企中領跑，且穩定性較高，在體驗過程中沒有出現大翻車的情況。

VideoCrafter2、Pixeling生成品質不夠穩定，出現了幾次大翻車的情況；PixVerse、Vega AI也出現了不同程度的翻車。

對比Sora如何？總體來講，智東西有以下幾點發現：

1、 字節、Morph Studio 分別領跑大廠和創企，穩定性和成像品質表現優秀。

2、大部份產品 仍處於測試階段 ，臨時下線、長時間排隊、無獨立站點成為家常便飯。

3、生成2-4秒視訊 等待時間多為3-5分鐘 甚至更久，效率較低。

4、 運動程度整體較低 ，多為平移式運動或鏡頭運動。

5、 人手、動物等仍是重災區 ，非現實場景大模型難以理解。

不過，Sora目前仍未面向大眾測試，雖然官方公布的視訊效果震撼，但產品玩起來如何仍有待實際體驗。本文文末附有8款工具的試用連結，感興趣的讀者朋友可以自行體驗，歡迎在評論區分享體驗感受和新發現~

一、9家創企、6路大廠圍攻Sora，八名選手參賽

據智東西不完全統計，目前已釋出類Sora產品的國內創業公司有以下9家，分別是Morph Studio、HiDream.ai（智象未來）、愛詩科技、MewXAI、NeverEnds、右腦科技、李白AI實驗室、Möbius以及生數科技。

它們的產品釋出時間均早於Sora，且大多都同時支持文生視訊和圖生視訊。

▲國內創業公司釋出的Sora類產品/模型（智東西統計制表，數據截至3月1日）

與創企相比，國內大廠在產品落地方面推進更加謹慎。截至發文，只有字節在海外版剪映CapCut中推出了有獨立主頁的AI視訊生成功能，但短暫釋出後便下線了，目前尚不清楚其是否基於字節1月釋出的MagicVideo-V2模型。

此外，阿裏、騰訊的部份模型雖然托管在開源社群，但實際體驗過程中生成等待時間過長，有的甚至超過1個小時，因此不在本次對比範圍內。

▲國內大廠釋出的Sora類產品/模型（智東西統計制表，數據截至2月27日）

本次出戰文生視訊大賽的8名玩家其各自支持生成的視訊時長、擴充套件功能，以及生成視訊的分辨率和幀率如下表所示（按產品名首字母排序）。

▲可試用的文生視訊工具參數對比（智東西制表）

二、六大關卡覆蓋三類場景，第六關遇培養皿全員翻車？

為了與Sora的對比更直觀，智東西將Sora官方示範視訊給出的英文提示詞輸入這些生成器。公平起見，其他擴充套件功能如鏡頭運動、反向提示詞等保持預設設定，且均選取第一次生成的視訊。

下面讓我們具體來看一下各位參賽選手在不同關卡的表現情況。

1、人物場景：步行變「漂移」，人手依然是重災區

提示詞1： 一個時髦的女人走在東京的街道上，到處都是溫暖的霓虹燈和生動的城市標誌。她穿著黑色皮夾克、紅色長裙、黑色靴子，拿著一個黑色錢包。她戴著太陽鏡，塗著紅色的口紅。她走起路來自信而隨意。街道是潮濕和反光的，創造了一個彩色燈光的鏡子效果。許多行人走來走去。

首先來看一下Sora放出的Demo，不僅長達1分鐘，且完美體現了每一處細節，還進行了景別切換，整體畫面十分驚艷。

在參賽選手這邊，首先在整體效果上，8款工具基本都呈現了一個女人走在街道上的畫面，並且對霓虹燈、城市標誌的理解也較為準確。

但細看之下，只有Pixeling、Morph Studio和CapCut較好地描繪了黑色皮夾克、紅色長裙、黑色靴子和太陽鏡，Morph Studio生成了錢包但錯將黑色錢包變成了紅色。另外5位選手則對人物細節的生成不太準確，其中VideoCrafter2的看起來甚至不太像人臉。

場景方面，各位選手的表現大同小異，其中CapCut、Morph Studio、Vega AI及NeverEnds生成畫面比較精致，但Morph Studio忽略了「潮濕」這個細節。

這道題難度較大，有很多細節上的描述，對女子的穿著、隨身物品、風格等進行了詳細的要求，稍不註意就會出現失誤。背景上，潮濕的地面和霓虹燈反光也是一大難點。

提示詞2： 一位20多歲的年輕人坐在天空的雲朵上看書。

Sora的Demo視訊展現了年輕人坐在雲朵上讀書的畫面，並且有翻書的細節。

這一關基本沒有難倒參賽選手，8款工具都生成了一個年輕人坐著讀書的畫面，不過PixVerse、Vega AI沒能讓人物坐在雲上，NeverEnds則把雲拽到了地面。VideoCrafter2、藝映AI沒有拍到人物的屁股具體在哪兒，但從其背景能夠看出大機率並不是雲。

不出意外的，人手又成了大模型跌倒的重災區，幾乎都糊作一團，有的還出現了第三只手。另外，Pixeling生成的人臉五官有些「抽象」。

從畫面風格上來看，PixVerse、藝映AI有點像三維動畫風格，整體畫面比較精致；Vega AI生成的人物最真實，但整個畫面只有背景的雲在運動。

這道題的難度中等，不同於前一個提示詞，它十分簡短並且創造了一個現實生活中不可能出現的場景，主要考驗大模型的「想象力」以及對不同主體之間關系的理解能力。

2、動物場景：柯基變麵包，稀有物種難以描繪

提示詞3： 一只柯基犬在熱帶毛伊島拍攝自己的Vlog。

這個提示詞的難點在於，如何表現柯基「拍攝自己」。Sora的演示雖然表現了這個細節，但也有些經不起推敲，自拍桿看起來像長在柯基身體上一樣怪異。不過瑕不掩瑜，視訊整體效果很精致，柯基表情靈動，還戴上了和熱帶環境相符的墨鏡。

CapCut生成的柯基非常可愛，雖然眼球有些飄逸現象，但不算明顯。遺憾的是它沒有表現「自拍」這個關鍵詞。

Morph Studio的效果也不錯，還給柯基掛上了一台攝影機。

NeverEnds描繪的柯基有點像人，不僅自己上手偵錯相機，嘴型看起來還像在說話——說好的建國後不準成精呢？另外，NeverEnds生成的柯基似乎長了六條腿，和Sora把螞蟻畫成四條腿有點雙向奔赴了。

Pixeling沒能透過這條測試，直接生成了一段「鬼畜」視訊。

開頭可愛的狗狗特寫反復變形，讓我聯想到機器學習中一個很有意思的梗——如何分辨柴犬與麵包。看來，Pixeling漏掉了這節課。

PixVerse理解了「拍攝」，但搞錯了主體，生成了一只人手來拍攝柯基犬，這只手也有些「詭異」，AI還是一如既往地在人手上栽了跟頭。此外，視訊開頭處柯基的嘴巴歪得也有些離譜。

Vega AI生成的視訊一開始比較正常，但最後1秒可愛的柯基突然變形，最後表演了一個「頭部消失術」。此外，它透過椰子樹表現了「熱帶」，但似乎漏掉了「毛伊島」這一點。

VideoCrafter2似乎只記住了「柯基」這一個關鍵詞，其他的提示詞都被它忽略了。它還給畫面加了一個神奇的光影，看起來像是夕陽余暉。

藝映AI生成的狗子畫風較為真實，整體畫面流暢，不過也沒體現「自拍」的細節。

這道題難度中等，整體來看，對提示詞理解較好的是Morph Studio和NeverEnds，PixVerse則算是勉強及格。從畫面效果上看，CapCut、Morph Studio、VideoCrafter2和藝映AI穩定性較好，畫面更加流暢。

提示詞4 ：這個維多利亞鳳冠鳩（Victoria crowned pigeon）的特寫展示了它引人註目的藍色羽毛和紅色胸部。它的羽冠是由精致的花邊羽毛制成的，而它的眼睛是醒目的紅色。鳥的頭微微向一側傾斜，給人一種帝王和威嚴的印象。背景是模糊的，吸引人們註意到這只鳥引人註目的外表。

Sora演示視訊中的鳳冠鳩全方位地展示了自己的羽冠，正面、側面、背面都不在話下，羽毛也隨著頭的轉動搖搖晃晃。

如果只看畫面，除了藝映AI幾乎是甩了張靜態圖出來，其他7位選手的畫面效果都還算流暢。

CapCut、Morph Studio、NeverEnds和Pixeling生成的鳳冠鳩基本是同一個角度，沒有大振幅的運動或角度變化，PixVerse、Vega AI和VideoCrafter2則有頭部角度的變化。

從對該物種的特征還原來看，CapCut、VideoCrafter2表現較好，還原了紅色眼睛、紅色胸部、藍色身體以及藍白色的羽冠，其他6位參賽選手的還原度略低。

此外，VideoCrafter2雖然在使用指南中提到了比例調整的功能，但並沒有成功生成9:16的豎屏視訊。

這道題難度中等，主要難點在於對不常見動物特征的準確描繪。下圖是Sora生成視訊截圖與動物網站Fact Animal上的維多利亞鳳冠鳩照片對比。可以看出，Sora對該動物的還原程度很高，從身體、眼睛的顏色到喙部、羽冠的形狀基本都與照片一致。相比之下，8位元參賽選手都沒能準確表現這些特征。

▲Sora生成的（左）與真實的（右）維多利亞鳳冠鳩對比

3、「虛擬現實」場景：想象力不足，遇「小熊貓培養皿」全員翻車

提示詞5： 兩艘海盜船在一杯咖啡中航行時相互爭鬥的逼真特寫視訊。

CapCut成功將海盜船放入了咖啡杯中，但只放了一艘，自然也沒辦法「相互爭鬥」。

Morph Studio則將兩艘海盜船放進了兩個咖啡杯，還自作主張地添加了海洋背景。

NeverEnds、藝映AI也將船放進了咖啡杯，同時在背景繪制了大海和更多海盜船。NeverEnds還給咖啡加了拉花。

不過，能將海盜船準確地生成在咖啡杯裏已經算比較好的了，其他4位元參賽選手在這條提示詞上各有各的「翻車」方式。

Pixeling直接將海盜船印在了杯子上。

PixVerse分別生成了咖啡杯、海盜船，但穩定性較差，前景中的咖啡杯最後變形成了一艘船。

Vega AI也犯了同樣的錯誤，並且海洋和沙灘的分界線有些模糊。

VideoCrafter2則連海盜船都沒能出現，只有幾個看起來像海盜帽子的小東西搖來搖去。

這道題難度較大，船在咖啡中航行是不可能在現實中出現的場景，因此必然缺乏能完全與之對應的訓練數據，這就很考驗大模型的「想象力」。

提示詞6： 一個培養皿，裏面長著一片竹林，裏面有小熊貓在跑來跑去。

這輪比拼十分精彩，幾乎是全員翻車。遺憾的是在智東西還沒來得及測試更多提示詞時，CapCut AI Video就下線了，缺席本輪比賽。

Morph Studio生成的培養皿看起來像一顆水晶球，小熊貓還玩起了「影分身」。

NeverEnds是對幾個關鍵詞描繪最準確的，不過還是錯把竹林畫在了培養皿外面，並且只有鏡頭運動，畫面上的主體幾乎靜止。

Pixeling準確描繪了培養皿，但「竹林」和小熊貓都仿佛變成了水中的倒影，且和動物關中的柯基一樣，小熊貓糊作一團。

PixVerse的視訊中沒有出現培養皿。

Vega AI生成了一個帶蓋的「培養皿」，並且搞反了它和竹林之間的包含關系，優點是小熊貓的穩定性較高。

VideoCrafter2生成的小熊貓神態比較靈動，幾只小熊貓各自有各自的運動軌跡，但漏掉了培養皿這個關鍵詞。

藝映AI在這關翻車比較嚴重，是唯一一個看不出來畫的是什麽動物的選手，穩定性也不高。

這道題的難度也很高，不僅創造了非現實場景，小熊貓「跑來跑去」這個動線很大的場景也是一大痛點。總的來說，這一關在語意理解上優勝的是Morph Studio、NeverEnds，在畫面效果上有優勢的是Vega AI和VideoCrafter2。

結語：國內AI視訊商業化任重道遠

在智東西體驗這些產品或模型的過程中，遇到了不少令人「頭禿」的突發情況。如字節的CapCut AI Video、阿裏的ModelScope T2V等待時間過長，生數科技的PixWeaver、萬興科技的Filmora頻頻出現Bug等，各種各樣的不確定因素成為體驗路上的攔路虎。

▲等待時間過長、無法生成等情況出現

從不同場景來看，AI在生成人物、常見動物等要素時理解能力表現較好，但當遇到稀有動物、非現實場景等元素時常常翻車，這可能與訓練數據量不足有關。

經過一番體驗，智東西對國產AI視訊工具的印象也大大改觀。雖然要追趕甚至超越Sora還有很長的路要走，但至少能和海外其他明星產品如Pika、Runway等一決高下。

近幾年來，國內雖然湧現出很多AI視訊玩家，但大部份集中在數位人、AI剪輯等賽道，真正的文生視訊類產品不多。在Sora爆火之後，我們期待國內湧現出更多視訊生成選手，再現「百模大戰」的壯觀景象。

附各工具試用連結：

CapCut AI Video：

Morph Studio：

NeverEnds：

Pixeling：
https://hidream.ai/#/Pixeling

PixVerse：

Vega AI：

VideoCrafter2：
discord.gg/RQENrunu92

藝映AI：