1. Image Classification
- ResNet (Residual Networks) – Çok derin ağları mümkün kılmak için artık bağlantılar sunmuştur (ör. ResNet-50, ResNet-152).
- EfficientNet – B0–B7 varyantlarını kullanarak doğruluk ve verimliliği dengeleyen model.
- Vision Transformer (ViT) – Transformer mimarisini görüntü sınıflandırmasına uygular; büyük veri kümelerinde CNN'leri geride bırakır.
- ConvNeXt – Transformer'dan ilham alan modern CNN mimarisi; yüksek doğruluk sağlar.
2. Object Detection
- YOLO (You Only Look Once) – Gerçek zamanlı tespit (YOLOv5, YOLOv8, YOLO-NAS).
- Faster R-CNN – Bölge öneri ağları kullanan iki aşamalı dedektör (yüksek doğruluk ama daha yavaş).
- RetinaNet – Sınıf dengesizliğiyle başa çıkmak için focal loss kullanır (tek aşamalı dedektör).
- DETR (Detection Transformer) – Transformer'larla uçtan uca nesne tespiti.
3. Semantic Segmentation
- U-Net – Tıbbi görüntü segmentasyonunda popülerdir (skip bağlantılı encoder-decoder yapısı).
- DeepLab (v3+) – Atrous konvolüsyon ve ASPP ile çok ölçekli bağlam kullanır.
- Mask R-CNN – Piksel düzeyinde segmentasyon için Faster R-CNN'i genişletir.
- Segment Anything Model (SAM) – Meta tarafından geliştirilen sıfır örnekle segmentasyon yapabilen temel model.
4. Instance Segmentation
- Mask R-CNN – Nesne tespiti ile segmentasyonu birleştirir.
- YOLOv8-Seg YOLO'yu örnek tabanlı segmentasyon için genişletir.
- SOLOv2 – – Nesne maskelerini tek aşamada doğrudan tahmin eder.
5. Pose Estimation
- OpenPose – Gerçek zamanlı çok kişili iskelet/anahtar nokta tespiti.
- HRNet – Doğru poz tahmini için yüksek çözünürlüklü özellikleri korur.
- AlphaPose – Tıkanma ve kalabalık sahnelerde başarılı poz tahmini yapar.
6. Video Analysis
- SlowFast – Aksiyon tanıma için çift yollu ağ (yavaş + hızlı geçici modelleme).
- 3D ResNet – ResNet'i üç boyutlu video verisine genişletir.
- TimeSformer – Video anlayışı için transformer tabanlı model.

