2024年，開源AI潛力更大？

2024-01-31推薦

點選藍字

關註我們

關註並星標

從此不迷路

電腦視覺研究院

公眾號ID ｜ 電腦視覺研究院

Yi-VL 模型開源地址：

https://huggingface.co/01-ai

https://www.modelscope.cn/organization/01ai

電腦視覺研究院專欄

Column of Computer Vision Institute

開源社群為人工智慧發展做了什麽？

開源（OS）正在驅動生成式 AI 的創新。得益於像 GitHub 和 Hugging Face 等學術研究平台，我們得以見證 AI 技術的蓬勃發展。但值得註意的是，OpenAI、Anthropic 等越來越多的科技公司選擇不公開模型的程式碼和權重。

指責大型科技公司閉源的聲音從未停止，昨天，前特斯拉 AI 總監，OpenAI 的創始成員 Andrej Karpathy 發了一條推特暗指「閉源」對人才的限制：

在人工智慧領域，我認為你數不出來 30 個 30 歲以下的聞名者。在公司結構圖裏，他們在 CEO 的 5 層之下。他們通常不上 Twitter，他們的 LinkedIn 沒有維護，他們不上播客，他們可能曾經發表過文章，但現在不再發表。他們是今天的愛因史坦，直接發明和創造奇跡。我希望他們不被隱藏在大科技公司和初創公司裏，以換取豐厚的薪水，但事實就是如此。

Meta 首席 AI 科學家、圖靈獎獲得者 Yann LeCun 也立馬附和道：

如果他們在一家實行開源研究的公司工作，他們的名字就會出現在論文和 Github 上，他們會在會議和研討會上發表演講，他們會被邀請在學術界舉辦研討會，他們甚至可能會獲獎。但是他們沒有選擇這樣，我們將再也無法聽到他們的聲音。

盡管閉源的技術巨頭為 AI 技術開發投入了大量金錢、計算資源、數據等成本，但開源社群的發展速度和成果表現總能迎頭趕上。

最近，數據洞察初創公司 Synaptic 對開源社群 2023 年的發展情況進行了全面細致的歸納總結，以下是總結文章的核心內容。

2023 年，一份由谷歌泄露的內部檔吸引了大批「吃瓜群眾」。谷歌觀察到開源 AI 已經巧妙而有效地搶占了谷歌和 OpenAI 等大型科技公司的市場份額，並且開源 AI 在速度、適應力、私密性和整體效率等方面都更強。有些開源 AI 模型，如 Mistral、Llama 在受歡迎程度和效能方面正在迅速超越閉源模型。

因此，開源 AI 吸引了來自開發人員、研究人員和投資者的極大興趣。2023 年，Github 見證了開發者對生成式 AI 計畫的貢獻同比增長了 148%。過去 2 年，開源 AI 領域接收的投資超過 80 億美元。

OS AI 生態系：

AI 計畫和貢獻者大幅增長

對於生成式 AI 模型而言，「開源」意味著模型的原始碼、所有用於訓練模型權重和參數都是可公開存取、可用、可修改的，並且允許轉載。

基於這個定義，開源人工智慧棧包括構建生成式 AI 應用程式的一套綜合工具，其中包含基礎模型（如 Llama、Mistral）、開發工具和框架（如 Langchain、Fixie）、模型訓練平台（如 Weights & Biases、Anyscale）和監控工具（Datadog、Seldon）。

更多的開發人員和新計畫持續加入，開源 AI 蓬勃發展

開源的生成式 AI 計畫正在顯著增長，貢獻者數量也在不斷增加。去年，Github 的貢獻者數量同比增長 148%，通生成式 AI 計畫總數同比增長 248%。截至 2023 年，Github 上有 6 萬個通用人工智慧計畫，Huggingface 上有超過 40 萬個模型。

貢獻者不再局限於美國和歐洲，來源越來越全球化

大多數開源計畫確實來自美國和歐洲，然而，在 2023 年，對生成式 AI 貢獻最多的個人開發者卻來自印度和日本。到 2027 年，印度預計將超過美國，成為 Github 上最大的開發者社群。

第一季度後觀光團熱度減退，深度貢獻者數量穩步增加

2023 這一年，生成式 AI 經歷了從「廣泛炒作」到「更加專註和價值為導向的參與」到「幻滅低谷」三個階段的轉變。年初 ChatGPT 掀起的 AI 熱潮在第一季度達到頂點後逐步「退燒」，最初的興奮讓位於長期專註的研究。

在 GitHub 程式碼庫中，標星數量的增長趨勢也出現了相似的變化 —— 自第一季度以來，增長速度開始放緩。與此同時，專註於研發的開發者數量穩步增長，2023 年累計增加了 148%。

Python 是開源 AI 的首選語言

盡管 Javascript 是 2023 年度 Github 上最受歡迎的程式語言，但在 AI 領域，Python 卻成為了首選。這得益於 Python 內建的如 TensorFlow 和 PyTorch 等綜合機器學習庫，它們為機器學習計畫提供了強大的支持，並能擴充套件到各種生成式 AI 計畫中。Python 在數據處理方面的靈活性以及其獨立於平台的特性，使其成為各種 AI 計畫的理想選擇。

Mojo 是 Python 的一個變種，它兼備 Python 的實用性與 C++ 的效能，越來越受開發者的歡迎。在 2023 年的第四季度，Mojo 在 Github 上的 Star 數增長了 73%，這說明 Mojo 受到了開發人員們的喜愛。

AI 程式碼倉庫傾向於更具保護性的授權

有相當一部份 AI 程式碼倉庫使用 Apache 授權證，開發人員可以根據該授權證對衍生計畫申請專利。Apache 授權證具備完備的法條，因此相比其他授權證能提供更好的專利保護。盡管在 Github 上最受歡迎的是開源的 MIT 授權證，但可以預見的是，生成式 AI 開發者希望透過更具保護性的授權來保護他們的心血。

市場趨勢：多個計畫 / 初創公司

在生成式 AI 技術堆疊中湧現

基礎模型和開發工具是初創公司的重點領域

在生成式 AI 領域，超過 60% 的新公司都選擇了基礎模型和開發者工具作為核心計畫。這是 AI 堆疊的核心要素，也是構成、部署和管理各種用途的生成式 AI 套用的基礎。模型訓練、微調工具、監控工具和雲端運算服務等其他領域的創新圍繞著這些核心要素展開。

高品質的開源 AI 減少了對專有技術大公司的依賴，但數據是關鍵

開源 AI 技術的數量和品質的不斷增強，為開發人員和初創企業提供了與專有技術的大公司競爭的實力。Mixtral 8x7B 在聊天對話以及整體效能方面均優於閉源的 GPT 3.5。其他模型如 Llama、Yi 也不遑多讓。

然而，閉源大型科技公司仍具備一個重要優勢：它們能夠獲得大量數據資源。最近的一些開源模型（如 Llama-2 或 Mistral 7B）並未公開其訓練數據，這表明數據很可能是生成式 AI 取得突破的關鍵專有要素。

投資概況：2022-23 年融資活動強勁

由於對大量數據、研究人力和計算資源的嚴重依賴，與普通企業相比，開源 AI 需要更大的資金投入。

2022 至 23 年，有 75% 的開源 AI 初創公司獲得了資本投資。基礎模型和模型訓練 / 微調軟體吸引了 70% 以上的投資資金。

輝達是人工智慧芯片的領先制造商，也是該領域的戰略投資者，它領投了 Mistral AI 和 Adept AI 等頂級初創公司。

基礎模型：開源模型的普及程度

和效能正在趕超閉源模型

基礎模型的開放程度各不相同，例如，Llama-2 的程式碼可以公開存取，但其訓練數據尚未公開。當模型的核心元件（原始碼、訓練權重和參數）可公開獲取，且使用、修改和釋出不受限制時，模型才是真正的「開源」模型。

開源 LLM Falcon 和 Bloom 獲得了大量擁護

阿布達比技術創新研究所（Abu Dhabi's Technology Innovation Institute）開發的大型語言模型 Falcon 和合作研究組織 BigScience 建立的 BLOOM 在 Huggingface 上的下載量最高，超過了 Meta 的 Llama2。

近期推出的 Mistral AI 模型 Mistral 7B 和 Mixtral 8x7B 也很受歡迎，在 Huggingface 上的下載量超過了許多成熟的模型。

開源模型並不落後於閉源模型

雖然 GPT4 和 Claude 等閉源大模型在聊天機器人排行榜上名列前茅，但 Mistral、Vicuna、Yi、Llama 等開源模型正在迎頭趕上，這對生態系來說是個好兆頭。

不過根據 MMLU 基準，閉源模型仍然領先一步。MMLU 基準包含人文、社會科學和 STEM 等 57 個學科的知識和解決問題的技能測試，衡量的是一個模型的綜合效能，在這方面，GPT 和 Gemini 等閉源模型仍然優於開源模型。

開源開發提高了模型的效率

使用開源人工智慧的初創公司並不像大型科技公司那樣擁有豐富的數據資源或計算能力，因此它們有動力建立更高效的模型，以更低的計算需求提供高品質的結果。Mixtral 8x7B 是一個 85B 參數的「專家混合」模型，其算力僅相當於一個 14B 模型。就效率和效果而言，它優於所有其他開源模型，包括更大的 Llama-2 70B。這對於模型的本地套用（如移動語音助手）至關重要。

Github 數據顯示開發人員的興趣所在

作為開發人員與開源 AI 計畫互動並做出貢獻的主要平台，GitHub 的數據往往可以反映開源計畫的吸重力。

AutoGPT、Modular 的 Mojo 受到了開發人員的高度關註。

AutoGPT 是一款基於 GPT-4 構建的自主人工智慧助手，受到了開發人員的極大關註。該模型能夠充當 AI 智慧體，將大型任務分解為各種子任務，而無需使用者輸入，然後將這些子任務連結在一起並按順序執行以產生更大的結果。AutoGPT 還能夠連線到互聯網，從而可以檢索其任務的最新資訊。

Modular 的 Mojo 是 Python 的變體，專為高效能 AI 應用程式量身客製，平衡了 C++ 和 Rust 等語言的效率與 Python 的簡單性。Mojo 的核心目標是簡化 AI 開發、無縫整合 AI/ML 基礎設施並提供強大的效能。

此外，Pytorch、Huggingface、AutoGPT 和 Supabase 在 Github 計畫參與度方面脫穎而出。

展望未來

1、開源不僅僅是生成式 AI 的「遊樂場」，它還是創新的前沿。

開源人工智慧正在積極創新。2023 年，Github 的貢獻者年增長率為 148%，生成式 AI 計畫的年增長率為 248%，HuggingFace 擁有超過 40 萬個模型。生成式 AI 的開源堆疊在各個類別（從基礎模型到基礎設施和工具）都具有競爭力或優於專有產品。

2、開源模型在效能上與旗艦版專有模型相差不遠，並且在效率上處於領先地位，以較低的計算量和數據量就能實作其效能。

Mistral、Vicuna、Yi 和 Llama 等開源模型正在迅速追趕 GPT-4 和 Claude 等閉源模型，Mixtral-8x7B 在 Elo 和 MMLU 評級中甚至超過了 GPT-3.5。開源社群正在構建計算效率更高的模型，這對於在邊緣裝置（例如手機）上本地部署人工智慧至關重要。

3、獲取高品質、豐富的數據將成為 OS AI 模型的限制功能。

數據將成為大模型開發的關鍵戰場。最近的模型，例如以「開源」形式釋出的 Llama-2、Mistral-7B，選擇不公開其模型訓練數據。當然，大型科技公司將在數據方面擁有顯著的優勢。合成數據平台（如 Gretel）可以潛在地增強訓練和微調，但預計數據保護將會加強。

4、大量關於 AI 智慧體的開發正在進行，預計基於 AI 智慧體的應用程式很快就會上市。

雖然 AI 智慧體在面向客戶的應用程式中仍然處於實驗階段和新生階段，但 Github 數據表明開發人員對智慧體有濃厚且持續的興趣。截至目前，Github 上有 70 多個 AI Agent 儲存庫，其中 AutoGPT、Bloop、XAgent 等儲存庫獲得了顯著的關註度（8-10K+ star）和參與度（30 + 個貢獻者）。AI 智慧體絕對是一個值得關註的領域。

5、預計優秀的開源人工智慧計畫將在 2024 年吸引大筆融資。

開源人工智慧領域的初創公司已經看到了一些非常大的交易和跨階段的活躍融資。Mistral AI 在最近完成 4.87 億美元的交易後成為 AI 獨角獸。AutoGPT、Supabase 和 DeciAI 準備在未來 1-2 年內進行幾輪融資。

參考連結：

https://synaptic.com/resources/free-weights-open-source-ai.html?continueFlag=d8af5585700ff63ab0513fb2db85ed31

https://twitter.com/karpathy/status/1748816969858720232

https://twitter.com/ylecun/status/1748858074855580097

END

轉載請聯系本公眾號獲得授權

電腦視覺研究院學習群等你加入！

ABOUT

電腦視覺研究院

電腦視覺研究院主要涉及深度學習領域，主要致力於目標檢測、目標跟蹤、影像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的論文演算法新框架，提供論文一鍵下載，並分享實戰計畫。研究院主要著重」技術研究「和「實踐落地」。研究院會針對不同領域分享實踐過程，讓大家真正體會擺脫理論的真實場景，培養愛動手編程愛動腦思考的習慣！