在過去的幾十年裡,計算機視覺技術發生了翻天覆地的變化,從用於手寫數字識別的簡單模型(如 LeNet)開始,發展到能夠進行實時物體檢測和語義分割的深度架構。重要的里程碑包括 AlexNet、VGG 和 ResNet 等基礎 CNN,它們引入了 ReLU 啟用和殘差連線等創新技術。後來的 DenseNet、EfficientNet 和 ConvNeXt 等模型通過密集連線、複合縮放和現代設計進一步推動了這一領域的發展。物體檢測器也從基於區域的方法(R-CNN、Faster R-CNN)發展到像 YOLO 這樣的單級檢測器,並在 YOLOv12 中達到頂峰。SAM、DINO、CLIP 和 ViT 等突破性技術正在重塑機器解讀視覺資料的方式。在本文中,您將瞭解到 34 種頂級計算機視覺模型、它們所面臨的挑戰和用途。
開端:手寫數字識別與早期CNN
早期的計算機視覺主要是識別 MNIST 資料集上的手寫數字。這些模型簡單而具有革命性,因為它們證明了機器可以從原始畫素資料中學習有用的表徵。最早的突破之一是由 Yann LeCun 設計的 LeNet(1998 年)。
LeNet 引入了卷積神經網路(CNN)的基本構件:用於特徵提取的卷積層、用於下采樣的池化層以及用於分類的全連線層。它為後來的深度架構奠定了基礎。
想了解第一個模型是如何訓練的,請觀看此視訊。
排名前30位的計算機視覺模型
下面我們將深入探討深度學習革命模型:
1. AlexNet (2012)
AlexNet 改變了遊戲規則。它在 2012 年的 ImageNet 挑戰賽中獲勝,證明了在 GPU 上訓練的深度網路可以大大超越傳統方法。
主要創新:
- ReLU 啟用:與早期的飽和啟用函式(如 tanh 和 sigmoid)不同,AlexNet 推廣使用 ReLU–一種非飽和啟用函式,通過降低梯度消失的可能性,大大加快了訓練速度。
- 丟棄和資料擴充:為了解決過度擬合問題,研究人員引入了 dropout,並應用了大量資料增強技術,為更深層次的架構鋪平了道路。
Source: AlexNet Model Architecture
2. VGG-16和VGG-19 (2014)
VGG 網路通過堆疊許多小型(3×3)卷積濾波器,使簡單性和深度成為焦點。它們的統一架構不僅提供了直接、可重複的設計,使其成為理想的基線和遷移學習的最愛,而且奇數卷積層的使用確保了每個濾波器都有一個明確的中心。這種對稱性有助於保持各層空間表示的一致性,並支援更有效的特徵提取。
他們帶來了什麼?
- 深度與簡潔:VGG 通過小型濾波器專注於深度,證明了增加網路深度可以帶來更好的效能。其簡單明瞭的架構使其在基線和遷移學習中大受歡迎。
Source: VGG Models Architecture
拓展視野:Inception V3(2015-2016 年)
Source: “We need to go Deeper” – Inception Movie
電影《盜夢空間》可能是 Inception 架構的靈感來源,它突出強調了那句名言:“We must go deeper”。同樣,Inception 模型通過同時在多個尺度上處理影象來深入研究影象。它們引入了並行卷積層的概念,在單個模組中加入不同大小的濾波器,使網路能夠一次性捕捉精細和粗略的細節。這種多尺度方法不僅增強了特徵提取能力,還提高了網路的整體表現力。
Source: Inception v3 Model Architecture
關鍵創新:
- 1×1 卷積:與 VGG 統一的 3×3 架構相比,這些濾波器不僅降低了維度,從而減少了引數數量和計算成本,而且還在不犧牲空間解析度的情況下注入了非線性。這種降維是 Inception 高效的主要因素,使其比 VGG 模型更輕便,同時仍能捕捉豐富的特徵。
Source: Internal Inception Module Structure
- 多尺度處理:Inception 模組通過並行卷積層同時處理多個濾波器大小的輸入,使網路能夠捕捉不同尺度的資訊。這種多尺度方法尤其擅長處理影象中不同大小的物體。
3. ResNet (2015)
ResNet 通過引入跳越連線(也稱為殘差連線),使梯度直接從後面的層流回前面的層,從而徹底改變了深度學習。這一創新設計有效緩解了梯度消失問題,而這一問題曾使深度網路的訓練變得極具挑戰性。ResNet 各層學習的是殘差函式(所需輸出與輸入之間的差值),而不是每層學習一個完整的變換,這樣更容易優化。這種方法不僅能加快訓練過程中的收斂速度,還能構建數百甚至數千層的網路。
關鍵創新:
- 殘差學習:ResNet 允許各層學習殘差函式(所需輸出與輸入之間的差值),從而緩解了梯度消失問題,使訓練具有數百個層的網路成為可能。
- 跳轉連線:這些連線可促進梯度流,在不大幅增加訓練複雜度的情況下,訓練出深度極高的模型。
- 更深入的網路:殘差學習帶來的突破為更深入的架構鋪平了道路,這些架構在 ImageNet 等基準測試中創造了新的記錄,並影響了無數後續模型,包括 DenseNet 和 Inception-ResNet。
Source: ResNet Model Architecture
功能重用和效率的進一步提高
現在,讓我們來探討功能重用和效率方面的進一步進展:
4. DenseNet (2016)
DenseNet 基於跳轉連線的理念,以前饋的方式將每一層與其他每一層連線起來。
主要創新:
- 密集連線:與傳統深度網路相比,這種設計促進了特徵重用,改善了梯度流,減少了引數數量,同時仍能實現高效能。
- 引數效率:由於各層可以重複使用前幾層的特徵,因此 DenseNet 所需的引數少於深度相似的傳統深度網路。這種效率不僅降低了記憶體和計算需求,還最大限度地減少了過度擬合。
- 增強的特徵傳播:通過串聯輸出而不是求和(如殘差連線),DenseNet 保留了細粒度細節,並鼓勵網路學習更多樣化的特徵,這也是其在基準測試中取得高效能的原因之一。
- 隱式深度監督:每一層都能通過直接連線有效接收損失函式的監督,從而實現更穩健的訓練和更好的收斂性。
Source: DenseNet Model Architecture
5. EfficientNet (2019)
EfficientNet 引入了一種複合縮放方法,可統一縮放深度、寬度和影象解析度。
主要創新:
- 複合縮放:通過仔細平衡這三個維度,效能網路實現了最先進的精確度,與以前的網路相比,引數明顯減少,計算成本也更低。
- 優化效能:通過仔細調整網路各維度之間的平衡,效能網路達到了一個甜蜜點,即精度的提高不會以引數或 FLOP 的過高增長為代價。
- 架構搜尋:通過神經架構搜尋(NAS)進一步完善了效能網路的設計,這有助於確定每個規模的最佳配置。這一自動化流程提高了網路的效率和對各種部署方案的適應性。
- 資源感知設計:EfficientNet 的計算需求較低,因此特別適合部署在資源有限的移動和邊緣裝置上。
Source: EfficientNet Model Architecture
“MBConv” 代表移動倒置瓶頸卷積(Mobile Inverted Bottleneck Convolution)。它是最初在 MobileNetV2 中推廣的一個構建模組,後來被效能網路採用。
6. ConvNeXt (2022)
ConvNeXt 代表著 CNN 的現代演進,它從視覺變換器最近的成功中汲取靈感,同時保留了卷積架構的簡單性和高效性。
主要創新:
- 現代化設計:ConvNeXt 從變壓器架構中汲取靈感,重新思考傳統的 CNN 設計,縮小了 CNN 與 ViT 之間的效能差距,同時保持了 CNN 眾所周知的高效性。
- 增強的特徵提取:ConvNeXt 採用了先進的設計方案,如改進的歸一化方法、修正的卷積塊和更好的下采樣技術,從而提供了卓越的特徵提取和表示能力。
- 可擴充套件性:ConvNeXt 可有效擴充套件,適用於從資源有限的裝置到高效能伺服器等各種任務和部署場景。ConvNeXt 的設計理念強調,無需放棄卷積網路的基本原理,對現有架構進行現代化改造就能獲得巨大收益。
Source:ConvNeXt Model Architecture
未來一瞥:超越CNN
雖然傳統的 CNN 奠定了基礎,但這一領域後來又出現了新的架構,如視覺轉換器(ViT、DeiT、Swin Transformer)和 CLIP 等多模態模型,它們進一步擴充套件了計算機視覺系統的功能。這些模型通過結合視覺和文字資料,越來越多地用於需要跨模態理解的應用中。它們推動了影象字幕、視覺問題解答等領域的創新解決方案。
基於區域的檢測器的演變:從R-CNN到Faster R-CNN
在 YOLO 等單級檢測器出現之前,基於區域的方法是物體檢測的主流策略。基於區域的卷積神經網路(R-CNN)引入了兩步流程,從根本上改變了我們檢測影象中物體的方式。讓我們深入瞭解一下這一系列模型的演變過程。
7. R-CNN開創性的區域提案
R-CNN(2014 年)是最早將 CNN 的強大功能與物體檢測相結合的方法之一。其方法可概括為兩個主要階段:
- 區域建議生成:R-CNN 首先使用選擇性搜尋(Selective Search)等演算法從影象中生成約 2000 個候選區域(或區域建議)。這些建議有望涵蓋所有潛在物件。
- 特徵提取和分類:系統會將每個提議區域扭曲為固定大小,並通過深度 CNN(如 AlexNet 或 VGG)提取特徵向量。然後,一組特定類別的線性支援向量機(SVM)會對每個區域進行分類,而單獨的迴歸模型則會完善邊界框。
Source: RCNN Model Architecture
關鍵創新與挑戰:
- 突破性效能:R-CNN 證明,與傳統的手工特徵相比,CNN 能顯著提高物體檢測的準確性。
- 計算瓶頸:使用 CNN 處理每幅影象上千個區域的計算成本高昂,推理時間長。
- 多階段管道:不同階段的分離(區域提議、特徵提取、分類和邊界框迴歸)使訓練過程變得複雜而繁瑣。
8. Fast R-CNN簡化流程
R-CNN (2015) 通過引入幾項關鍵改進,解決了 R-CNN 的許多低效問題:
- 特徵提取的單一前向傳遞:Fast R-CNN 通過 CNN 一次處理整個影象,建立一個卷積特徵圖,而不是單獨處理區域。然後將區域建議對映到該特徵圖上,從而顯著減少冗餘。
- ROI 池:Fast R-CNN 的 ROI 池層可從共享特徵圖上的區域建議中提取固定大小的特徵向量。這樣,網路就能高效處理不同大小的區域。
- 端到端訓練:通過將分類和邊界框迴歸結合到一個網路中,Fast R-CNN 簡化了訓練管道。多工損失函式用於聯合優化這兩項任務,從而進一步提高檢測效能。
Source: Fast RCNN Model Architecture
主要優勢
- 提高速度:與 R-CNN 相比,通過避免冗餘計算和利用共享特徵,Fast R-CNN 大幅提高了推理速度。
- 簡化管道:統一的網路架構允許端到端訓練,使模型更易於微調和部署。
9. Faster R-CNN:實時建議
Faster R-CNN (2015)通過解決區域建議瓶頸問題實現了下一次飛躍:
- 區域建議網路(RPN):Faster R-CNN 以完全卷積的區域建議網路(RPN)取代了選擇性搜尋等外部區域建議演算法。RPN 與主檢測網路相整合,共享卷積特徵,近乎實時地生成高質量的區域建議。
- 統一架構:RPN 和 Faster R-CNN 檢測網路合併為一個端到端可訓練模型。這種整合進一步簡化了檢測流程,減少了計算量和延遲。
Source: Faster RCNN Model Architecture
關鍵創新:
- 端到端訓練:更快的 R-CNN 通過使用神經網路進行區域建議,加快了處理速度,增強了實際應用性。
- 速度和效率:更快的 R-CNN 使用神經網路進行區域建議,縮短了處理時間,提高了實際應用性。
10. 超越Faster R-CNN:Mask R-CNN
Mask R-CNN(2017 年)雖然不屬於原始 R-CNN 系列,但它在 Faster R-CNN 的基礎上增加了一個用於例項分割的分支:
- 例項分割:掩碼 R-CNN 在畫素級別對物體形狀進行分類、完善邊界框和預測二進位制掩碼。
- ROIAlign:ROIAlign 是對 ROI pooling 的改進,它避免了對特徵進行苛刻的量化,從而獲得更精確的掩碼預測。
Source: Mask RCNN Model Architecture
影響:Mask R-CNN 是例項分割的標準,為檢測和分割任務提供了一個多功能框架。
YOLO的演變:從YOLOv1到YOLOv12
YOLO(You Only Look Once)系列物體檢測器不斷突破速度和精度的極限,重新定義了實時計算機視覺。下面簡要介紹了每個版本的發展歷程:
Source: YOLO Releases Yet
11. YOLOv1 (2016年)
最初的 YOLO 將整個物體檢測管道統一到一個卷積網路中。它將影象劃分為網格,並在一次前向傳遞中直接預測邊界框和類概率。儘管 YOLOv1 在速度上具有革命性的意義,但它在準確定位小物體和處理重疊檢測方面仍有困難。
12. YOLOv2/YOLO9000(2017年)
在原始設計的基礎上,YOLOv2 引入了錨點框以改進邊界框預測,並納入了批量歸一化和高解析度分類器。與前代產品相比,YOLOv2 能夠在檢測和分類資料集上進行訓練(因此被稱為“YOLO9000”),在降低計算成本的同時顯著提高了效能。
13. YOLOv3 (2018年)
YOLOv3 採用了更深入的 Darknet-53 主幹網,並引入了多尺度預測。通過在三個不同尺度上進行預測,它能更好地處理各種大小的物體,並提高了準確性,使其成為適用於各種真實世界場景的強大模型。
Source: YOLO v3 Model Architecture
14. YOLOv4 (2020年)
YOLOv4 通過跨階段部分網路(CSP)、空間金字塔池化(SPP)和路徑聚合網路(PAN)等增強功能進一步優化了檢測管道。這些創新提高了準確性和速度,解決了類不平衡和改進特徵融合等難題。
15. YOLOv5(2020年)
YOLOv5 由 Ultralytics 在 PyTorch 平臺上釋出,強調易用性、模組化和部署靈活性。它提供了從奈米到超大型的多種模型尺寸,使使用者能夠根據不同的硬體能力在速度和準確性之間取得平衡。
Source: YOLO v5 Model Architecture
16. YOLOv6 (2022年)
YOLOv6 引入了進一步的優化,包括改進的主幹網設計和先進的訓練策略。其架構側重於最大限度地提高計算效率,因此特別適合對實時性要求極高的工業應用。
17. YOLOv7 (2022年)
YOLOv7 繼續演進,對特徵聚合進行了微調,並引入了新型模組,以提高速度和準確性。它在訓練技術和層優化方面的改進使其成為實時物體檢測(尤其是在邊緣裝置上)的頂級競爭者。
18. YOLOv8(2023年)
YOLOv8 通過整合分割、影象分類甚至姿態估計等功能,將模型的多功能性擴充套件到了物體檢測之外。它建立在 YOLOv5 和 YOLOv7 的基礎上,同時在廣泛的應用中提供更好的可擴充套件性和魯棒性。
Source: YOLO v8 Model Architecture
19. YOLOv9 (2024年)
YOLOv9 引入了可程式設計梯度資訊(PGI)和廣義高效層聚合網路(GELAN)等關鍵架構創新。這些變化提高了網路的效率和準確性,特別是在輕量級模型中保留了重要的梯度資訊。
20. YOLOv10 (2024年)
YOLOv10 進一步完善了設計,通過一對一的頭部方法消除了推理過程中對非最大抑制(NMS)的需求。該版本通過採用輕量級分類頭和空間通道解耦下采樣等先進技術,優化了速度和準確性之間的平衡。不過,其嚴格的一對一預測策略有時會使其在處理重疊物件時效果不佳。
21. YOLOv11(2024年9月)
YOLOv11 是 Ultralytics 釋出的另一個版本,它整合了跨階段部分自注意(C2PSA)等現代模組,並用更高效的替代模組(如 C3k2 模組)取代了舊模組。這些改進提高了模型的特徵提取能力和檢測小型重疊物體的能力,為 YOLO 系列樹立了新的標杆。
Source: YOLO v11 Architecture
22. YOLOv12(2025年2月)
最新版本 YOLOv12 引入了以注意力為中心的設計,以實現最先進的實時檢測。YOLOv12 融合了區域注意力(A2)模組和殘差高效層聚合網路(R-ELAN)等創新技術,在高精度和快速推理之間取得了平衡。雖然其複雜的架構增加了計算開銷,但它為在物體檢測中實現更細緻的上下文理解鋪平了道路。
Source: YOLO v12 Architecture
如果您想了解有關 YOLO v12 模型的更多資訊,請 點選此處。
23. 單次多框檢測器(SSD)
單次多框檢測器(SSD)是一種創新的物體檢測演算法,通過深度卷積神經網路的單次前向傳遞實現快速、準確的檢測。與先生成區域建議再進行分類的兩階段檢測器不同,SSD 可同時直接預測邊界框位置和類別概率,因此在實時應用中異常高效。
主要功能和創新
- 統一的單槍架構:SSD 一次性處理影象,將物件定位和分類整合到一個網路中。這種統一的方法消除了與單獨區域建議階段相關的計算開銷,實現了快速推理。
- 多尺度特徵圖:通過在基礎網路(通常是像 VGG16 這樣的截斷分類網路)上新增額外的卷積層,SSD 可以生成不同解析度的多個特徵圖。這種設計可以讓檢測器有效捕捉不同大小的物體–高解析度地圖用於捕捉小物體,低解析度地圖用於捕捉大物體。
- 預設(錨定)框:SSD 會在特徵地圖的每個位置分配一組預定義的預設邊界框(也稱為錨點框)。這些框有不同的比例和長寬比,以適應不同形狀的物體。然後,網路會預測對這些預設框的調整(偏移),以更好地適應影象中的實際物體,並預測每個物體類別的置信度分數。
- 多尺度預測:每個特徵圖都能獨立進行預測。這種多尺度方法意味著 SSD 並不侷限於一種物體尺寸,而是可以同時檢測影象中的大、中、小型物體。
- 高效的損失和訓練策略:SSD 採用綜合損失函式,包括用於邊界框迴歸的定位損失(通常為 Smooth L1 損失)和用於分類任務的置信度損失(通常為 softmax 損失)。為了處理大量背景預設框與相對較少的前景預設框之間的不平衡問題,SSD 採用硬負挖掘技術,將訓練重點放在最具挑戰性的負例項上。
Source: SSD Model Architecture
架構概述
- 基礎網路:SSD 通常從預先訓練好的 CNN(如 VGG16)開始,該 CNN 在全連線層之前已被截斷。該網路可從輸入影象中提取豐富的特徵表徵。
- 附加摺積層:在基礎網路之後,會新增額外的層,以逐步縮小空間維度。這些附加層可生成多種尺度的特徵圖,對於檢測各種尺寸的物體至關重要。
- 預設方框機制:在這些多尺度特徵圖的每個空間位置,都會放置一組不同尺度和長寬比的預設方框。對於每個預設方框,網路都會進行預測:
- 邊框偏移:根據精確的物件位置調整預設方框。
- 類得分:每個物體類別出現的概率。
- 端到端設計:從特徵提取到預測層的整個網路都是以端到端的方式進行訓練的。這種綜合訓練方法有助於同時優化定位和分類。
影響和應用案例
SSD 的高效、單鏡頭設計使其成為自動駕駛、視訊監控和機器人等需要實時物體檢測的應用的熱門選擇。SSD 能夠在單幅影象中檢測不同尺度的多個物體,因此特別適用於對速度和準確性要求極高的動態環境。
SSD的結論
SSD 是一種兼具速度和準確性的開創性物體檢測模型。SSD 創新性地使用了多尺度卷積邊界框預測,因此能有效捕捉不同形狀和大小的物體。引入更多精心選擇的預設邊界框,增強了其適應性和效能。
SSD 是一種多功能的獨立物體檢測解決方案,也是大型系統的基礎。它兼顧了速度和精度,對實時物體檢測、跟蹤和識別具有重要價值。總之,SSD 代表了計算機視覺領域的重大進步,能有效地應對現代應用所面臨的挑戰。
主要啟示
- 實證結果表明,SSD 在準確性和速度方面往往優於傳統的物體檢測模型。
- 固態硬碟採用多尺度方法,能有效檢測同一影象中不同大小的物體。
- SSD 是一種適用於各種計算機視覺應用的多功能工具。
- SSD 以其實時或接近實時的物體檢測能力而聞名。
- 使用更多的預設方框可以讓 SSD 更好地適應複雜場景和具有挑戰性的物體變化。
24. U-Net:語義分割的支柱
U-Net 最初是為生物醫學影象分割而開發的。它採用對稱編碼器-解碼器架構,其中編碼器通過卷積和池化逐步提取上下文資訊,而解碼器則使用上取樣層來恢復空間解析度。跳轉連線將編碼器和解碼器中的相應層連線起來,從而實現了細粒度特徵的重複使用。
Source: UNET Model Architecture
領域應用
- 生物醫學成像:U-Net 是 MRI 和 CT 掃描中腫瘤和器官分割等任務的黃金標準。
- 遙感與衛星影象:其精確定位能力使其適用於土地覆蓋分類和環境監測。
- 一般影象分割:廣泛應用於需要畫素預測的應用,包括自動駕駛(如道路分割)和視訊監控。
架構概述
- 編碼器-解碼器結構:收縮路徑捕捉上下文,擴張路徑恢復解析度。
- 跳轉連線:這些連線可確保在上取樣過程中保留並重復使用高解析度特徵,從而提高定位精度。
- 對稱性:網路的對稱設計有利於高效學習和精確重建分割圖。
主要啟示
- U-Net 的設計針對精確的畫素級分割進行了優化。
- 它在對精細細節定位至關重要的領域表現出色。
- 該架構的簡潔性和魯棒性使其成為分割研究的基礎模型。
25. Detectron2:全面的檢測工具包
Detectron2 是 Facebook AI Research 在 PyTorch 中構建的下一代物體檢測和分割平臺。它將 Faster R-CNN、Mask R-CNN 和 RetinaNet 等最先進的演算法整合到一個統一的框架中,簡化了模型開發、訓練和部署。
Source: Detectron2 Model Architecture
領域應用
- 自動駕駛:實現對車輛、行人和路標的穩健檢測和分割。
- 監控:廣泛應用於安防系統,實時檢測和跟蹤個人與物體。
- 工業自動化:應用於質量控制、缺陷檢測和機器人操縱任務。
架構概述
- 模組化設計:Detectron2 靈活的元件(骨幹、頸部、頭部)允許輕鬆定製和整合不同的演算法。
- 預訓練模型:豐富的預訓練模型庫支援針對特定應用的快速原型開發和微調。
- 端到端框架:提供內建資料增強、訓練程式和評估指標,以簡化工作流程。
主要啟示
- Detectron2 為尖端物體檢測和分割提供了一站式解決方案。
- 其模組性和廣泛的預訓練選項使其成為研究和實際應用的理想選擇。
- 該框架與 PyTorch 的整合簡化了各個領域的採用和定製。
26. DINO:自我監督學習的革命性變革
DINO(無標籤蒸餾)是一種自監督學習方法,它利用視覺轉換器來學習穩健的表徵,而無需依賴標記資料。通過匹配影象不同增強檢視之間的表徵,DINO 能有效提煉出對下游任務有用的特徵。
領域應用
- 影象分類:通過 DINO 學習到的豐富的自監督表徵可進行微調,以實現高精度分類。
- 物體檢測與分割:其特徵可用於檢測任務,即使標註資料有限,也能提高模型的效能。
- 無監督特徵提取:非常適合註釋資料集稀缺的領域,如衛星影象或利基工業應用。
架構概述
- 變壓器骨幹網:DINO 採用變換器架構,擅長對影象中的長距離依賴關係和全域性上下文進行建模。
- 自我擴充套件:網路通過比較同一影象的不同檢視進行學習,在沒有明確標籤的情況下對齊表示。
- 多檢視一致性:這可確保特徵對光照、比例和視角的變化具有魯棒性。
Source: DINO Model Architecture
主要啟示
- DINO 是一種功能強大的工具,適用於標註資料有限的場景,大大減少了人工標註的需要。
- 它的自監督框架可為各種計算機視覺任務提供強大且可轉移的特徵。
- DINO 基於變壓器的方法凸顯了現代視覺系統向無監督學習的轉變。
27. CLIP:連線視覺與語言
CLIP(對比語言-影象預訓練)是 OpenAI 開發的一個具有里程碑意義的模型,可在共享嵌入空間中對齊影象和文字。CLIP 在海量影象-文字對資料集上進行訓練,學會將視覺內容與自然語言聯絡起來。這種對齊方式使其能夠執行零鏡頭分類和其他多模態任務,而無需針對具體任務進行微調。
領域應用
- 零鏡頭分類:CLIP 只需使用自然語言提示,就能識別各種物件,即使未針對特定分類任務進行明確訓練也是如此。
- 影象標題和檢索:其共享嵌入空間可實現有效的跨模態檢索–無論是查詢與文字描述相匹配的影象,還是根據視覺輸入生成標題。
- 創意應用:從藝術生成到內容管理,CLIP 將文字與影象連線起來的能力使其成為許多創意和解釋領域的寶貴工具。
結構概述
- 雙編碼器設計:CLIP 採用兩個獨立的編碼器,一個用於影象(通常是視覺轉換器或 CNN),另一個用於文字(轉換器)。
- 對比學習:對模型進行訓練,以最大化匹配影象-文字對之間的相似性,同時最小化不匹配影象-文字對之間的相似性,從而在共享的潛在空間中有效地對齊兩種模式。
- 共享嵌入空間:這種統一的空間可實現無縫的跨模態檢索和零鏡頭推理,從而使 CLIP 具有非常廣泛的用途。
Source: CLIP Model Architecture
主要啟示
- CLIP 通過結合自然語言重新定義了視覺理解,為零鏡頭分類提供了一個強大的框架。
- 其多模態方法為影象字幕、視覺問題解答等高階應用鋪平了道路。
- 該模型影響了新一代視覺語言系統,為 BLIP 等後續創新奠定了基礎。
28. BLIP:引導式語言影象預訓練
BLIP 以 CLIP 等模型的成功為基礎,引入了一種結合對比學習和生成學習的引導方法。BLIP 的設計目的是加強視覺和文字模式之間的協同作用,使其特別適用於需要從影象中理解和生成自然語言的任務。
領域應用
- 影象字幕:BLIP 擅長為影象生成自然語言描述,在視覺內容和人類語言之間架起了一座橋樑。
- 視覺問題解答(VQA):通過有效整合視覺和文字線索,BLIP 可以準確回答有關影象的問題。
- 多模態檢索:與 CLIP 相似,BLIP 的統一嵌入空間可根據文字查詢高效檢索影象(反之亦然)。
- 創意內容生成:BLIP 的生成功能可用於藝術和創意應用,在這些應用中,從視覺資料中合成敘述或上下文是必不可少的。
架構概述
- 靈活的編碼器-解碼器結構:根據任務的不同,BLIP 可以採用雙編碼器設定(類似於 CLIP)來完成檢索任務,也可以採用編碼器-解碼器框架來完成生成任務,如字幕和 VQA。
- 引導訓練:BLIP 使用引導機制來迭代完善其語言-視覺對齊,這有助於學習穩健的、與任務無關的表徵,即使是在註釋資料有限的情況下。
- 多目標學習:它將對比學習(對齊影象和文字)與生成目標(生成連貫的語言)相結合,從而形成了一個既能有效理解又能根據視覺輸入生成自然語言的模型。
Source: BLIP Model Architecture
主要啟示
- BLIP 擴充套件了 CLIP 建立的視覺語言正規化,增加了生成元件,使其成為需要從影象建立語言的任務的理想選擇。
- 它的引導方法可產生穩健、細粒度的多模態表徵,突破了影象字幕和 VQA 的極限。
- BLIP 在處理判別和生成任務方面的多功能性使其成為現代多模態人工智慧工具包中的重要工具。
29. 視覺轉換器(ViT)及其後繼者
視覺轉換器(ViT)將最初為自然語言處理而設計的轉換器架構應用於計算機視覺任務,標誌著一種模式的轉變。ViT 將影象視為一連串補丁,類似於文字中的詞塊,因此它能比傳統的 CNN 更有效地模擬全域性依賴關係。
領域應用
- 影象分類:ViT 在 ImageNet 等基準測試中取得了一流的效能,尤其是在大規模場景中。
- 遷移學習:ViT 學習到的表徵非常適用於物體檢測、分割等任務。
- 多模態系統:ViT 是許多整合視覺和文字資訊的現代多模態模型的支柱。
架構概述
- 補丁嵌入:ViT 將影象劃分為固定大小的補丁,然後將其扁平化併線性投射到嵌入空間中。
- 變換器編碼器:補丁嵌入序列由變換器編碼器層處理,利用自我注意捕捉長距離依賴關係。
- 位置編碼:由於變換器缺乏固有的空間結構,因此需要新增位置編碼以保留空間資訊。
Source: ViT Model Architecture
後繼者及其創新
DeiT(資料高效影象轉換器):
- 主要創新:通過蒸餾實現更高效的資料訓練,即使在資料有限的情況下也能實現高效能。
- 應用:適用於無法獲得大型資料集的情況。
斯溫變換器
- 主要創新:通過移動視窗引入分層表示,實現高效的多尺度特徵提取。
- 應用:適用於需要詳細、區域性資訊的任務,如物體檢測和分割。
其他變體(BEiT、T2T-ViT、CrossViT、CSWin Transformer):
- 主要創新:這些後繼者改進了標記化,提高了計算效率,並更好地平衡了區域性和全域性特徵表示。
- 應用:它們可執行從影象分類到複雜場景理解等一系列任務。
主要啟示
- 視覺變形器利用全域性自我關注為整個影象的關係建模,開創了計算機視覺的新紀元。
- DeiT 和 Swin Transformer 等後繼產品以 ViT 為基礎,解決了資料效率和可擴充套件性方面的難題。
- 基於變換器的模型的發展正在重塑計算機視覺,使新的應用成為可能,並顯著提高了既定基準的效能。
任意細分模型(SAM)和 SAM 2:互動式細分的變革
由 Meta AI 開發的 Segment Anything Model (SAM) 及其後續產品 SAM 2 是一種開創性的模型,旨在使物體分割更容易使用、更高效。這些模型已成為內容創作、計算機視覺研究、醫學影像和視訊編輯等行業不可或缺的工具。
讓我們來分析一下它們的架構、演變,以及它們如何與 YOLO 等框架無縫整合,用於例項分割。
30. SAM:架構和主要功能
- 視覺轉換器(ViT)骨幹: SAM 使用功能強大的基於 ViT 的編碼器來處理輸入影象,學習深層次、高解析度的特徵圖。
- 可提示分割: 使用者可提供點、方框或文字提示,SAM 無需額外培訓即可生成物件遮罩。
- 掩碼解碼器: 解碼器處理影象嵌入和提示,生成高精度的分割掩碼。
- 零鏡頭分割: SAM 可以分割它在訓練過程中從未見過的影象中的物體,顯示出卓越的泛化能力。
Source: SAM 2 Model Architecture
Source: SAM Research Paper
影象編碼器
影象編碼器是 SAM 架構的核心,它是一個複雜的元件,負責處理輸入影象並將其轉換為一組全面的特徵。該編碼器採用基於變換器的方法,就像在高階 NLP 模型中看到的那樣,將影象壓縮為一個密集的特徵矩陣。該矩陣是模型識別各種影象元素的基礎。
提示編碼器
提示編碼器是 SAM 有別於傳統影象分割模型的一個獨特方面。它可以解釋各種形式的輸入提示,無論是基於文字的提示、點提示、粗略遮罩提示,還是這些提示的組合提示。這樣,模型就能根據輸入的要求,專注於影象中的特定區域或物件。
掩碼解碼器
掩碼解碼器是進行神奇分割的地方。它綜合來自影象和提示編碼器的資訊,生成準確的分割掩碼。該元件負責最終輸出,確定影象中每個片段的精確輪廓和區域。
對於有效的影象分割來說,這些元件之間如何相互作用與它們的功能同樣重要: 影象編碼器首先要詳細瞭解整個影象,將其分解為引擎可以分析的特徵。然後,提示編碼器新增上下文,根據提供的輸入(無論是簡單的點還是複雜的文字描述)集中模型的注意力。最後,遮罩解碼器利用這些綜合資訊對影象進行精確分割,確保輸出與輸入提示的意圖一致。
31. SAM 2:進步與新功能
- 視訊分割:SAM 2 將其功能擴充套件到了視訊領域,只需少量使用者輸入即可實現逐幀物件跟蹤。
- 高效推理:優化的模型架構縮短了推理時間,實現了實時應用。
- 提高掩碼精度:完善的解碼器設計和更好的損失函式提高了掩碼質量,即使在複雜的場景中也是如此。
- 記憶體效率:SAM 2 可處理更大的資料集和更長的視訊序列,而不會耗盡硬體資源。
與用於例項分割的 YOLO 相容
- SAM 可與YOLO(You Only Look Once)模型搭配,用於例項分割任務。
- 工作流程:YOLO 可快速檢測物件例項,並提供邊界框作為 SAM 的提示,SAM 可使用高精度掩碼細化這些區域。
- 使用案例: 這種組合廣泛應用於實時物體跟蹤、自動駕駛和醫學影象分析。
主要啟示
- 多功能性: SAM 和 SAM 2 可適應影象和視訊,因此適用於動態環境。
- 使用者輸入最少: 這些模型基於提示的方法簡化了分割任務,減少了手動註釋的需要。
- 可擴充套件性: 從小規模的影象任務到長時間的視訊序列,SAM 模型都能處理各種工作負載。
- 面向未來: 它們與 YOLO 等先進模型的相容性確保了它們在計算機視覺領域不斷髮展的過程中依然具有價值。
SAM 和 SAM 2 將尖端的深度學習技術與實用的可用性相結合,為互動式分割設定了新的標準。無論您是要構建視訊編輯工具還是推進醫學研究,這些模型都能提供強大、靈活的解決方案。
特別推薦
- ByteTrack 是一種先進的多物件跟蹤演算法,因其能夠可靠地在視訊幀中保持物件特徵而大受歡迎。其強大的效能和效率使其成為自動駕駛、視訊監控和機器人應用的理想選擇。
- MediaPipe 由谷歌開發,是一個多功能框架,可為實時 ML 任務提供預構建的跨平臺解決方案。從手部跟蹤和人臉檢測到姿態估計和物體跟蹤,MediaPipe 的即用管道實現了高質量計算機視覺解決方案的平民化,使研究和工業領域的快速原型開發和部署成為可能。
- Florence 由微軟公司開發,是一種統一的視覺語言模型,旨在高效處理各種計算機視覺任務。通過利用在海量資料集上訓練的基於變換器的架構,Florence 可以執行影象標題、物件檢測、分割和視覺問題解答。它的多功能性和一流的準確性使其成為研究多模態人工智慧系統、內容理解和人機互動的研究人員和開發人員的寶貴工具。
小結
從簡陋的手寫數字識別到今天的尖端模型,計算機視覺模型的發展歷程展示了非凡的創新。LeNet 等先驅者引發了一場革命,AlexNet、ResNet 等對其進行了改進,DenseNet 和 ConvNeXt 推動了效率和可擴充套件性的進步。物體檢測從 R-CNN 發展到迅速的 YOLOv12,而 U-Net、SAM 和 Vision Transformers 則在分割和多模態任務方面表現出色。就我個人而言,我更喜歡 YOLOv8,因為它速度快,儘管 SSD 和 Fast R-CNN 以較慢的速度提供了更高的準確性。
評論留言