Veri büyütme veri analizinde, eldeki verilerin biraz değiştirilmiş kopyalarını veya mevcut verilerden yeni oluşturulan sentetik verileri ekleyerek veri miktarını artırmak için kullanılan bir tekniktir.
Veri Büyütme Yöntemleri:
- LPCC
Tabular (Biyokimyasal/Sayısal) Veriler İçin Veri Büyütme Yöntemleri
Tabular verilerde LPCC kullanamazsınız, LPCC sadece ses/sinyal verilerine özel olduğu için tabular verilerde kullanılamaz. Tabular verilerde elinizdeki az veriyi büyütmek veya dengelemek için şu yöntemleri kullanabilirsiniz:
SMOTE (Synthetic Minority Over-sampling Technique): Azınlık sınıfındaki iki veri noktası arasına rastgele yeni noktalar çizerek sentetik veri üretir.
CTGAN (Conditional GAN): Tabular veriler için özelleştirilmiş bir Yapay Sinir Ağı mimarisidir. Gerçek verilerin istatistiksel dağılımını öğrenerek tamamen yeni ve gerçekçi hasta kayıtları/satırları üretir.
Gaussian Noise Injection: Mevcut veri satırlarına çok küçük standart sapmalı rastgele gürültüler ekleyerek (veri + np.random.normal(0, 0.01)) yeni satırlar türetmek.
Alt Örnekleme (under-sampling) Yöntemi: Çoğunluk sınıfından rastgele örnekleri azaltır ve Azınlık sınıfına eşitler

