當前位置: 華文頭條 > 推薦

OVO:線上蒸餾一次視覺Transformer搜尋

2024-02-16推薦

點選藍字

關註我們

關註並星標

從此不迷路

電腦視覺研究院

公眾號ID 電腦視覺研究院

論文地址: https://arxiv.org/pdf/2212.13766.pdf

電腦視覺研究院專欄

Column of Computer Vision Institute

transformers 在視覺任務方面顯示出巨大的潛力,然後......

一、概要

最近,Pure transformers在視覺任務方面顯示出巨大的潛力。然而,它們在中小數據集中的準確性並不令人滿意。盡管一些現有方法引入了CNN作為教師,透過蒸餾來指導訓練過程,但教師和學生網絡之間的差距將導致次優績效。在這項工作中,研究員提出了一種新的具有線上蒸餾的One-shot Vision transformer搜尋框架,即OVO。OVO對教師和學生網絡的子網路進行采樣,以獲得更好的蒸餾結果。得益於線上蒸餾,超網中的數千個子網路訓練有素,無需額外的微調或再訓練。在實驗中,OVO Ti在ImageNet和CIFAR-100上分別達到73.32%和75.2%的top-1精度。

二、ViT超網訓練的困境

在AutoFormer中的超網訓練期間,在每個訓練叠代中均勻地采樣子網路α=(α(1)。。。α(i)。。。α(l))。采樣權重w=(w(1)。。。w(i)。。。w(l))被更新,而其余部份被凍結。然而,超網訓練對於ViT來說並不穩定,每個超網需要很長的訓練周期(500個周期)才能獲得其組裝子網路的滿意效能。其他方法使用三明治采樣策略,對多個子網絡(包括最大、最小和兩個隨機選擇)進行采樣,然後將每個小批次的梯度聚集在一起。當采用三明治采樣策略時,超網訓練的計算成本更高。

三、超網線上蒸餾訓練

當訓練教師和學生網絡時,研究者在[ Single path one-shot neural architecture search with uniform sampling ]中提出的每次叠代中更新一個隨機采樣的子網絡。使用GT標簽訓練來自教師超網絡的子網絡,同時使用KD訓練采樣的學生網絡。配備線上蒸餾,一次性NAS能夠以高效和有效的方式搜尋Transform架構。與經典的一次性NAS方法相比,新提出的方法有兩個優點。1) 更快的收斂。來自CNN的知識提供了電感偏置,這有助於每個Transform塊比之前的獨立訓練更快地收斂。2) 更好的子網路效能。透過線上蒸餾訓練的子網路可以在中小數據集上獲得更好的效能。

四、Search Pipeline

在超網完成訓練後,進行前進演化搜尋,以最大化分類精度選擇子網絡。在前進演化搜尋開始時,隨機抽取N個架構作為種子。所有子網絡都基於從超網繼承的權重在驗證數據集上進行評估。選擇前k個架構作為父代,透過交叉和變異生成下一代。對於交叉,兩個隨機選擇的父網絡交叉,以在每一代中產生一個新網絡。當進行突變時,父網絡首先以概率Pd對其深度進行突變,然後以概率Pm對每個塊進行突變,以產生新的架構。

五、實驗

將搜尋到的最優模型的效能與ImageNet上最先進的CNN和ViT的效能進行了比較。在ImageNet-1K上訓練OVO的超集合,並使用指定的參數大小搜尋目標Transform模型。在超網完成訓練後,子網路直接繼承權重,而無需額外的再訓練和其他後處理。下表中報告了效能。很明顯,OVO比其他最先進的模型具有更高的精度。

© The Ending

轉載請聯系本公眾號獲得授權

電腦視覺研究院學習群等你加入!

電腦視覺研究院 主要涉及 深度學習 領域,主要致力於 人臉檢測、人臉辨識,多目標檢測、目標跟蹤、影像分割等 研究方向。 研究院 接下來會不斷分享最新的論文演算法新框架,我們這次改革不同點就是,我們要著重」 研究 「。之後我們會針對相應領域分享實踐過程,讓大家真正體會 擺脫理論 的真實場景,培養愛動手編程愛動腦思考的習慣!

電腦視覺研究院

公眾號ID ComputerVisionGzq

🔗