OVO：線上蒸餾一次視覺Transformer搜尋

2024-02-16推薦

點選藍字

關註我們

關註並星標

從此不迷路

電腦視覺研究院

公眾號ID ｜ 電腦視覺研究院

論文地址： https://arxiv.org/pdf/2212.13766.pdf

電腦視覺研究院專欄

Column of Computer Vision Institute

transformers 在視覺任務方面顯示出巨大的潛力，然後......

一、概要

最近，Pure transformers在視覺任務方面顯示出巨大的潛力。然而，它們在中小數據集中的準確性並不令人滿意。盡管一些現有方法引入了CNN作為教師，透過蒸餾來指導訓練過程，但教師和學生網絡之間的差距將導致次優績效。在這項工作中，研究員提出了一種新的具有線上蒸餾的One-shot Vision transformer搜尋框架，即OVO。OVO對教師和學生網絡的子網路進行采樣，以獲得更好的蒸餾結果。得益於線上蒸餾，超網中的數千個子網路訓練有素，無需額外的微調或再訓練。在實驗中，OVO Ti在ImageNet和CIFAR-100上分別達到73.32%和75.2%的top-1精度。

二、ViT超網訓練的困境

在AutoFormer中的超網訓練期間，在每個訓練叠代中均勻地采樣子網路α=（α（1）。。。α（i）。。。α（l））。采樣權重w=（w（1）。。。w（i）。。。w（l））被更新，而其余部份被凍結。然而，超網訓練對於ViT來說並不穩定，每個超網需要很長的訓練周期（500個周期）才能獲得其組裝子網路的滿意效能。其他方法使用三明治采樣策略，對多個子網絡（包括最大、最小和兩個隨機選擇）進行采樣，然後將每個小批次的梯度聚集在一起。當采用三明治采樣策略時，超網訓練的計算成本更高。

三、超網線上蒸餾訓練

當訓練教師和學生網絡時，研究者在[ Single path one-shot neural architecture search with uniform sampling ]中提出的每次叠代中更新一個隨機采樣的子網絡。使用GT標簽訓練來自教師超網絡的子網絡，同時使用KD訓練采樣的學生網絡。配備線上蒸餾，一次性NAS能夠以高效和有效的方式搜尋Transform架構。與經典的一次性NAS方法相比，新提出的方法有兩個優點。1）更快的收斂。來自CNN的知識提供了電感偏置，這有助於每個Transform塊比之前的獨立訓練更快地收斂。2）更好的子網路效能。透過線上蒸餾訓練的子網路可以在中小數據集上獲得更好的效能。

四、Search Pipeline

在超網完成訓練後，進行前進演化搜尋，以最大化分類精度選擇子網絡。在前進演化搜尋開始時，隨機抽取N個架構作為種子。所有子網絡都基於從超網繼承的權重在驗證數據集上進行評估。選擇前k個架構作為父代，透過交叉和變異生成下一代。對於交叉，兩個隨機選擇的父網絡交叉，以在每一代中產生一個新網絡。當進行突變時，父網絡首先以概率Pd對其深度進行突變，然後以概率Pm對每個塊進行突變，以產生新的架構。

五、實驗

將搜尋到的最優模型的效能與ImageNet上最先進的CNN和ViT的效能進行了比較。在ImageNet-1K上訓練OVO的超集合，並使用指定的參數大小搜尋目標Transform模型。在超網完成訓練後，子網路直接繼承權重，而無需額外的再訓練和其他後處理。下表中報告了效能。很明顯，OVO比其他最先進的模型具有更高的精度。

轉載請聯系本公眾號獲得授權

電腦視覺研究院學習群等你加入！

電腦視覺研究院 主要涉及 深度學習 領域，主要致力於 人臉檢測、人臉辨識，多目標檢測、目標跟蹤、影像分割等 研究方向。 研究院 接下來會不斷分享最新的論文演算法新框架，我們這次改革不同點就是，我們要著重」研究 「。之後我們會針對相應領域分享實踐過程，讓大家真正體會 擺脫理論 的真實場景，培養愛動手編程愛動腦思考的習慣！

電腦視覺研究院

公眾號ID ｜ ComputerVisionGzq

🔗