1. Image Classification

  • ResNet (Residual Networks) – Çok derin ağları mümkün kılmak için artık bağlantılar sunmuştur (ör. ResNet-50, ResNet-152).
  • EfficientNet – B0–B7 varyantlarını kullanarak doğruluk ve verimliliği dengeleyen model.
  • Vision Transformer (ViT) – Transformer mimarisini görüntü sınıflandırmasına uygular; büyük veri kümelerinde CNN'leri geride bırakır.
  • ConvNeXt – Transformer'dan ilham alan modern CNN mimarisi; yüksek doğruluk sağlar.

2. Object Detection

  • YOLO (You Only Look Once) – Gerçek zamanlı tespit (YOLOv5, YOLOv8, YOLO-NAS).
  • Faster R-CNN – Bölge öneri ağları kullanan iki aşamalı dedektör (yüksek doğruluk ama daha yavaş).
  • RetinaNet – Sınıf dengesizliğiyle başa çıkmak için focal loss kullanır (tek aşamalı dedektör).
  • DETR (Detection Transformer) – Transformer'larla uçtan uca nesne tespiti.

3. Semantic Segmentation

  • U-Net – Tıbbi görüntü segmentasyonunda popülerdir (skip bağlantılı encoder-decoder yapısı).
  • DeepLab (v3+) – Atrous konvolüsyon ve ASPP ile çok ölçekli bağlam kullanır.
  • Mask R-CNN – Piksel düzeyinde segmentasyon için Faster R-CNN'i genişletir.
  • Segment Anything Model (SAM) – Meta tarafından geliştirilen sıfır örnekle segmentasyon yapabilen temel model.

4. Instance Segmentation

  • Mask R-CNN – Nesne tespiti ile segmentasyonu birleştirir.
  • YOLOv8-Seg YOLO'yu örnek tabanlı segmentasyon için genişletir.
  • SOLOv2 – – Nesne maskelerini tek aşamada doğrudan tahmin eder.

5. Pose Estimation

  • OpenPose – Gerçek zamanlı çok kişili iskelet/anahtar nokta tespiti.
  • HRNet – Doğru poz tahmini için yüksek çözünürlüklü özellikleri korur.
  • AlphaPose – Tıkanma ve kalabalık sahnelerde başarılı poz tahmini yapar.

6. Video Analysis

  • SlowFast – Aksiyon tanıma için çift yollu ağ (yavaş + hızlı geçici modelleme).
  • 3D ResNet – ResNet'i üç boyutlu video verisine genişletir.
  • TimeSformer – Video anlayışı için transformer tabanlı model.