當前位置: 華文頭條 > 推薦

多模態生成發文量大漲!最新成果統一Transformer和Diffusion!

2024-09-04推薦

最近多模態生成領域也在「神仙打架」,比如Meta的全新訓練方法Transfusion,用單個模型就能同時生成文本和影像!

還有之前華為、清華提出的個人化多模態內容生成技術PMG,生成的內容可「量身客製」,更能滿足偏好。

這些效果炸裂的新成果證明了 多模態生成一直是研究熱門 ,更實際點的證明還有:

  • 從學術角度來看,今年CVPR等頂會的收錄論文中,多模態生成是最熱門的研究主題之一。
  • 從就業角度來看,多模態生成的人才需求也比較大,很多公司都有相應的崗位,比較好拿offer。
  • 因此多模態生成依舊是我們非常好的選擇,想抓緊投中頂會給自己加碼的同學可以考慮。這裏為了幫助各位快速了解這個方向目前的最新動態,我整理好了 10篇 多模態生成今年最新的論文 給各位作參考,程式碼基本都有。

    論文原文+開原始碼需要的同學關註「學姐帶你玩AI」公眾號,那邊回復「多模態生成」獲取。

    Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

    方法: 論文一個多模態模型訓練的配方Transfusion,可以處理離散數據(如文本或程式碼)和連續數據(例如影像、音訊和視訊數據)。Transfusion結合了語言建模損失函式(下一個詞預測)和擴散模型,透過單一的transformer來訓練混合模態序列,使其能夠無縫地生成離散和連續的模態,例如同時生成文本和影像。

    創新點:

  • Transfusion是一個統一的多模態模型,可以同時生成文本和影像,不需要資訊的遺失。
  • 在文本到影像生成和影像到文本生成任務中,Transfusion模型在FID和CLIP得分方面表現優於Chameleon模型,且在相同的計算復雜度下,Transfusion模型的FID得分約為Chameleon模型的一半。
  • Transfusion模型在學習文本到文本預測任務上的效率也更高,達到了Chameleon模型計算復雜度的50%到60%的困惑度。
  • PMG: Personalized Multimodal Generation with Large Language Models

    方法: 論文提出了一種基於大語言模型(LLMs)的個人化多模態生成方法(PMG),首先將使用者行為轉化為自然語言,以便LLM能夠理解並提取使用者的偏好。然後,將使用者偏好輸入生成器(如多模態LLM或擴散模型)以生成個人化內容。

    創新點:

  • 提出了一種個人化多模態生成方法(PMG),首次將LLMs套用於個人化多模態生成任務,實作了一系列套用場景的個人化生成。
  • 引入了基於使用者行為的使用者偏好表示方法,結合顯式關鍵詞和隱式嵌入,有效地捕捉使用者的偏好資訊,用於生成過程的條件。
  • 使用加權求和的方式平衡準確性得分和個人化得分,實作了生成內容在準確性和個人化之間的良好平衡。
  • ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation

    方法: ANOLE是一個開源的多模態模型,專註於交錯影像-文本生成。它基於Meta AI的Chameleon模型,透過高效微調少量參數來增強影像和多模態生成能力,而無需依賴擴散模型。

    創新點:

  • ANOLE采用自回歸方法進行影像和文本的生成,這使得它能夠產生連貫且高品質的交錯影像-文本序列。
  • ANOLE透過微調不到40M的參數,使用大約6000個樣本,有效地實作了視覺和多模態生成能力,體現了它在大型多模態模型中引入復雜功能時的高數據和參數效率。
  • 提供了一個用於自回歸多模態模型的訓練和推理的統一框架,降低了開發和實驗的門檻。
  • Generative Multimodal Models are In-Context Learners

    方法: 論文介紹了一個名為 Emu2 的大型多模態生成模型,它透過大規模多模態序列的訓練,具備了強大的多模態上下文學習能力。Emu2 能夠處理包括文本、影像-文本對和交錯的影像-文本-視訊等在內的多種數據型別,並且在少量樣本或簡單指令的情況下解決多模態任務。

    創新點:

  • Emu2透過大規模多模態序列的統一自回歸目標進行預訓練,能夠預測下一個多模態元素(無論是視覺嵌入還是文本標記)。
  • 在少量樣本或簡單指令的情況下,Emu2展現出解決多模態任務的能力,包括需要即時推理的視覺提示和基於物件的生成任務。
  • 透過對Emu2進行指令微調,模型能夠在遵循特定指令的情況下,在大型多模態模型的問答基準測試和開放式主題驅動生成等具有挑戰性的任務上實作新的最佳狀態。
  • 論文原文+開原始碼需要的同學關註「學姐帶你玩AI」公眾號,那邊回復「多模態生成」獲取。