3.3.1. Veri Kalitesi

Şekil 3.47. Veri Kalitesi.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)
Yapay zekâ sistemleri, veri üzerinde çalışır ve başarısı tamamen kullanılan verinin kalitesine bağlıdır. Yapay zekâ modellerini eğitmek için kullanılan verilerin kalitesi, bu modellerin doğruluğunu ve güvenilirliğini doğrudan etkiler. Ancak, yüksek kaliteli veri sağlamak, yapay zekâ geliştirme sürecindeki en büyük zorluklardan biridir.
Veri Kalitesinin Önemi
- Temiz ve temsil edici veriler, modellerin doğru tahminler yapmasını sağlar. Buna karşılık, düşük kaliteli veriler, yanlı (biased) veya yanlış sonuçlara yol açabilir.
- Eğer algoritma kötü kalitede verilerle beslenirse, modelden elde edeceğimiz tahminler ve öneriler de kötü olacaktır.
Yaygın Zorluklar
- Eksik Veri (Missing Data)
- Verilerdeki boşluklar, modelin olayları yanlış anlamasına neden olabilir.
- Örnek: Belirli bir bölgede satılan evler hakkında veri topladığımızı düşünelim. Bazı evler için oda sayısı eksik olabilir. Bu durumda modeli bu eksik bilgilerle eğitemeyiz.
- Çözüm:
- Eksik bilgilere sahip evleri veri setinden çıkarmak.
- Eksik değerleri ortalama veya medyan gibi tahminlerle doldurmak (imputation).
- Gürültülü Veri (Noisy Data)
- Tutarsız veya alakasız veriler hatalara yol açar.
- Örnek: Evlerin fiyat bilgilerini içeren bir veri setinde bazı evlerin fiyatlarının negatif olduğunu varsayalım. Bir evin fiyatı negatif olamayacağı için bu veriler yanlıştır.
- Çözüm:
- Gürültülü verileri tespit edip veri setinden çıkarmak.
- Veri temizleme algoritmaları kullanarak hatalı verileri düzeltmek.
- Dengesiz Veri (Unbalanced Data)
- Bazı kategorilerin aşırı temsil edilmesi modelde yanlılığa sebep olabilir.
- Örnek: Dolandırıcılık tespiti veri setlerinde dolandırıcılık işlemlerinin sayısı, yasal işlemlere göre çok daha azdır. Eğer model bu dengesizlik düzeltilmeden eğitilirse, dolandırıcılık vakalarını algılamada başarısız olabilir.
- Çözüm:
- SMOTE (Synthetic Minority Oversampling Technique): Az temsil edilen sınıfın örneklerini artırarak denge sağlamak.
- Ağırlıklı Kayıp Fonksiyonları: Azınlık sınıfa daha fazla ağırlık vererek modelin dengesizliği dikkate almasını sağlamak.