當前位置: 華文頭條 > 推薦

YoloCS:有效降低特征圖空間復雜度(附論文下載)

2024-01-18推薦

關註並星標

從此不迷路

電腦視覺研究院

公眾號ID 電腦視覺研究院

學習群 掃碼在主頁獲取加入方式

論文地址:YOLOCS: Object Detection based on Dense Channel Compression for Feature Spatial Solidification (arxiv.org)

電腦視覺研究院專欄

Column of Computer Vision Institute

透過壓縮特征圖的空間分辨率,提高了物件檢測的準確性和速度。本文的主要貢獻在於引入了一種新的特征空間固化方法,能夠有效地降低特征圖的時空復雜度,提高物件檢測的效率和準確性。

01

總 述

在今天分享中,研究者檢查了在特征純化和梯度反向傳播過程中通道特征和摺積核之間的關聯,重點是網路內的前向和反向傳播。因此,研究者提出了一種稱為密集通道壓縮的特征空間固化方法。根據該方法的核心概念,引入了兩個用於骨幹網路和頭部網路的創新模組:用於特征空間固化結構的密集通道壓縮(DCFS)和非對稱多級壓縮解耦頭部(ADH)。當整合到YOLOv5模型中時,這兩個模組表現出非凡的效能,從而產生了一個被稱為YOLOCS的改進模型。

在MSCOCO數據集上評估,大、中、小YOLOCS模型的AP分別為50.1%、47.6%和42.5%。在保持與YOLOv5模型的推理速度顯著相似的情況下,大、中、小YOLOCS模型分別以1.1%、2.3%和5.2%的優勢超過YOLOv5的AP。

02

背 景

近年來,目標檢測技術在電腦視覺領域受到了廣泛關註。其中,基於單發多框演算法的目標檢測技術(Single Shot Multi Box Detector,SSD)和基於摺積神經網路的目標檢測技術(Convolutional Neural Networks,CNN)是兩種最常用的目標檢測技術。然而,由於單發多框演算法的精度較低,而基於摺積神經網路的目標檢測技術的計算復雜度較高,因此,尋找一種高效且精度較高的目標檢測技術成為了當前研究的熱點之一。

Dense Channel Compression(DCC)是一種新型的摺積神經網路壓縮技術,它透過對摺積神經網路中的特征圖進行空間固化,從而實作對網路參數的壓縮和加速。然而,DCC技術在目標檢測領域的套用尚未得到充分的研究。

因此,提出了一種基於Dense Channel Compression的目標檢測技術,命名為YOLOCS(YOLO with Dense Channel Compression)。YOLOCS技術將DCC技術與YOLO(You Only Look Once)演算法相結合,實作了對目標檢測的高效且精度較高的處理。具體來說,YOLOCS技術透過DCC技術對特征圖進行空間固化,從而實作對目標位置的精確定位;同時,YOLOCS技術利用YOLO演算法的單發多框演算法特點,實作對目標類別分類的快速計算。


03

新框架

  • Dense Channel Compression for Feature Spatial Solidification Structure (DCFS)

  • 在提出的方法中(上圖(c))中,研究者不僅解決了網路寬度和深度之間的平衡問題,還透過3×3摺積壓縮了來自不同深度層的特征,在輸出和融合特征之前將通道數量減少了一半。這種方法使研究者能夠在更大程度上細化來自不同層的特征輸出,從而在融合階段增強特征的多樣性和有效性。

    此外,來自每一層的壓縮特征都帶有更大的摺積核權重(3×3),從而有效地擴充套件了輸出特征的感受野。將這種方法稱為特征空間固化的密集通道壓縮。用於特征空間固化的密集通道壓縮背後的基本原理依賴於利用較大的摺積核來促進通道壓縮。該技術具有兩個關鍵優點:首先,它擴充套件了前向傳播過程中特征感知的感受域,從而確保了區域相關的特征細節被納入,以最大限度地減少整個壓縮階段的特征損失。其次,誤差反向傳播過程中誤差細節的增強允許更準確的權重調整。

    為了進一步闡明這兩個優點,使用具有兩種不同核型別(1×1和3×3)的摺積來壓縮兩個通道,如下圖:

    DCFS的網路結構如下圖所示。采用三層瓶頸結構,在網路前向傳播的過程中逐漸壓縮通道。半通道3×3摺積套用於所有分支,然後是批次處理歸一化(BN)和啟用函式層。隨後,使用1×1摺積層來壓縮輸出特征通道,以匹配輸入特征通道。

  • Asymmetric Multi-level Channel Compression Decoupled Head (ADH)

  • 為了解決YOLOX模型中的解耦頭問題,研究者進行了一系列的研究和實驗。研究結果揭示了解耦頭部結構的利用與相關損失函式之間的邏輯相關性。具體而言,對於不同的任務,應根據損失計算的復雜性調整解耦頭的結構。此外,當將解耦的頭部結構套用於各種任務時,由於最終輸出維度的差異,將前一層的特征通道(如下圖)直接壓縮為任務通道可能會導致顯著的特征損失。這反過來又會對模型的整體效能產生不利影響。

    此外,當考慮提出的用於特征空間固化的密集通道壓縮方法時,直接減少最終層中的通道數量以匹配輸出通道可能會導致前向傳播過程中的特征遺失,從而降低網路效能。同時,在反向傳播的背景下,這種結構可能會導致次優誤差反向傳播,阻礙梯度穩定性的實作。為了應對這些挑戰,引入了一種新的解耦頭,稱為非對稱多級通道壓縮解耦頭(如下圖(b))。

    具體而言,研究者深化了專用於目標評分任務的網路路徑,並使用3個摺積來擴充套件該任務的感受野和參數數量。同時,沿著通道維度壓縮每個摺積層的特征。該方法不僅有效地減輕了與目標評分任務相關的訓練難度,提高了模型效能,而且大大減少了解耦頭部模組的參數和GFLOP,從而顯著提高了推理速度。此外,使用1摺積層來分離分類和邊界框任務。這是因為對於匹配的正樣本,與兩個任務相關聯的損失相對較小,因此避免了過度擴充套件。這種方法大大降低了解耦頭中的參數和GFLOP,最終提高了推理速度。


    04

    實驗視覺化

    Ablation Experiment on MS-COCO val2017

    Comparison of YOLOCS, YOLOX and YOLOv5- r6.1[7] in terms of AP on MS-COCO 2017 test-dev

    © THE END

    轉載請聯系本公眾號獲得授權

    電腦視覺研究院學習群等你加入!

    ABOUT

    電腦視覺研究院

    電腦視覺研究院主要涉及深度學習領域,主要致力於目標檢測、目標跟蹤、影像分割等研究方向。研究院始終分享最新論文演算法框架,平台著重」研究「和「實踐」。後期會針對相應領域分享實踐過程,讓大家真正體會擺脫理論的真實場景,培養愛動手編程愛動腦思考的習慣!