繁榮背後存隱憂，美AI巨頭被控秘密「侵吞」數據

2024-04-19推薦

人工智慧（AI）迅速發展離不開對模型的訓練。然而，高品質數據短缺以及部份領域封閉式的數據生態似乎成為AI發展的掣肘。

據多家外媒報道，OpenAI、谷歌和Meta等公司正尋求線上資訊來訓練最新的AI系統。但他們無視既定政策，蓄意改變規則，並試圖規避版權法。

收集數據「走捷徑」

英國【泰晤士報】近日刊文指出，科技巨頭一直在「走捷徑」為其AI系統收集訓練數據。OpenAI開發了一款名為Whisper的語音辨識工具，可將YouTube視訊中的音訊檔轉錄為純文本文件，從而建立一個口語對話資料來源，幫助訓練其下一代基於文本的GPT-4演算法。

美國【商業內幕】網報道稱，YouTube在其官網明令禁止「獨立」於其之外的應用程式使用其視訊內容。而OpenAI的數據並非意外收集的。

實際上，OpenAI員工知道這樣做會涉足法律灰色地帶。OpenAI總裁格雷格·布羅克曼甚至親自參與了所使用視訊的收集。但OpenAI依然認為這是合理的，最終獲得了超過100萬小時的轉錄視訊。

最大的謎團在於，OpenAI如何存取足夠多的YouTube視訊來完成這項工作。

當OpenAI技術長公尺拉·穆拉蒂被問及該公司是否使用YouTube視訊來訓練Sora時，她表示並不確定。當再次被問及訓練數據的來源時，她表示不會透露細節。

【紐約時報】稱，與OpenAI一樣，谷歌也轉錄了YouTube視訊，為其AI模型收集文本，這可能侵犯了視訊創作者的版權。去年，谷歌還更改了其服務條款。此番動機意圖明顯，即允許AI對來自谷歌文件中公開可用文件的數據以及上傳到谷歌地圖的餐館評論等其他材料進行訓練。

AI面臨「數據瓶頸」

對於科技公司來說，龐大的數據「肥料」是生成式AI的核心養分，也是大模型發展的必爭之地。唯有足夠的數據才能指導技術即時生成與人類創作相似的文本、影像、聲音和視訊，實作系統創新。

但隨著AI發展，現有互聯網資訊量的不足、高品質文本數據的匱乏以及科技巨頭優質數據的壟斷，都可能導致AI「養分不足」。即便谷歌和Meta擁有數十億使用者，每天都會產生搜尋查詢和社交媒體貼文，但這些數據在很大程度上受到私密法和自身政策的限制，無法讓AI利用這些內容。

這些科技公司的處境似乎十分窘迫。據人工智慧研究機構Epoch稱，科技公司最快將於2026年耗盡互聯網上的高品質數據。這些公司使用數據的速度超過了產生數據的速度。

Meta同樣也遇到了訓練數據可用性限制。該公司打算采取一些措施，例如支付圖書授權費用，甚至直接收購一家大型出版商。Meta也曾作出以私密為中心的變革，因此它使用消費者數據的方式顯然也受到了限制。

在人類數據告急的情況下，不少公司甚至試圖用AI「餵」AI。包括微軟、OpenAI在內的公司正在把大模型生成的結果，也就是所謂的「合成數據」，「餵」給參數更小的模型。但有研究認為，合成數據最終將讓AI「自食其果」。

因版權被多方狀告

【紐約時報】去年起訴OpenAI和微軟，稱其在未經授權的情況下使用受版權保護的新聞文章來訓練AI聊天機器人。OpenAI和微軟回應稱，這屬於「合理使用」，或者說是版權法允許的，因為他們為了不同的目的而改造了這些作品。

去年，超過1萬個貿易團體、作者、公司和其他人士向美國版權局送出了有關AI模型使用創意作品的意見。

生成式AI的迅速興起引發了一場全球性的高品質數據競賽。然而，在這個新領域中，關於什麽是合法的、道德的，沒有明確規定。

【商業內幕】網稱，目前，谷歌、OpenAI和其他科技公司正在辯解，認為將受版權保護的內容用於AI模型訓練是合法的，但監管機構及法院尚未對此作出裁決。

美國電影制作人、前演員及作家賈斯汀·貝特曼告訴版權局，AI模型在未經授權或付費的情況下獲取了其作品內容。她稱，「這是美國最大的盜竊案。」（科技日報記者張佳欣）