3.1.3. Veri Keşfi (Exploratory Data Analysis – E.D.A.) Nedir ve Neden Önemlidir?

Şekil 3.11 Veri Keşfi.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)

Veri Keşfi (E.D.A.) Nedir?

Veri keşfi, yapay zekâ geliştirme yaşam döngüsündeki kritik adımlardan biridir. Bu süreç; verinin temel özelliklerini özetlemeyi, kalıpları (pattern) belirlemeyi ve değişkenler arasındaki ilişkileri ortaya çıkarmayı içerir. E.D.A. (Exploratory Data Analysis – Keşifsel Veri Analizi), yalnızca keşifle sınırlı kalmaz; aynı zamanda anomalileri, aykırı değerleri ve eksik verileri tespit ederek özellik (veri, girdi) mühendisliği, model seçimi ve veri ön işleme için sağlam bir zemin hazırlar. Profesyoneller için E.D.A., verilerin uygulanabilir içgörüler sunduğu bir aşamadır ve yapay zekâ projelerini organizasyonel hedeflerle uyumlu hâle getirmek açısından kritik bir rol oynar.
Örnek: Bir perakendeci, işlem verilerini analiz ederek mevsimsel satın alma trendlerini keşfedebilir ya da yüksek değerli işlemlere sahip müşteri segmentlerini belirleyebilir.

E.D.A.’nın (Veri Keşfinin) Önemi
  • Temel Hazırlık Sağlar
    E.D.A., veriyi derinlemesine anlamayı mümkün kılarak, özellik mühendisliği ve veri ön işleme kararlarını yönlendirir.

  • Kalıpları Ortaya Çıkarır
    İş stratejisini şekillendirebilecek ilişkileri ve trendleri belirlemeye yardımcı olur.

  • Güvenilirlik Sağlar
    Eksik değerleri, aykırı gözlemleri veya tutarsızlıkları tespit ederek modelin güvenilirliğini artırır ve performansı olumsuz etkileyebilecek sorunların önüne geçer.

Veri Keşfinin Temel Unsurları

Şekil 3.12 Veri Keşfinin Temel Unsurları.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)

1. Anomali Tespiti
  • Aykırı Değerler (Outliers)
    Hataları ya da istisnai durumları temsil edebilir.
    Örnek: İşlem değerlerinde ani bir artış, VIP müşterileri veya olası veri giriş hatalarını gösterebilir.
  • Eksik Değerler
    Eksik veriler analizleri bozabilir ve önyargılı (bias) modellere yol açabilir.
  • Çözüm Teknikleri
    Tahmin (Imputation): Eksik değerleri ortalama, medyan veya benzer özelliklere dayanarak tahminle doldurun.
    Silme (Dropping): Çok fazla eksik veriye sahip satır veya sütunlar, içgörüleri önemli ölçüde etkilemiyorsa veri setinden çıkarılabilir.
2. Korelasyonlar ve İlişkiler

Veri keşfi, değişkenler arasındaki ilişkileri analiz ederek özellik seçimi ve model tasarımında rehberlik eder.

  • Sayısal İlişkiler
    Değişkenler arasındaki etkileşimleri görmek için korelasyon matrisleri kullanılır.
    Örnek: Reklam harcamaları ile satışlar arasındaki güçlü bir korelasyon, bütçe tahsisini daha verimli hâle getirmenize yardımcı olabilir.

  • Kategorik İlişkiler
    Bar grafikleri gibi görselleştirme araçları ile kategorik değişkenler arasındaki ilişkiler analiz edilir.
    Örnek: Ürün kategorisine göre müşteri memnuniyeti incelenerek ürün yelpazesi optimize edilebilir.

  • Özellik Seçimi (Feature Selection)
    Çoklu doğrusal ilişki (multicollinearity) gibi durumları önlemek adına, gereksiz ya da fazlalık oluşturan giriş değişkenleri çıkarılmalıdır.
    Örnek: Hem yıllık hem de aylık satış verileri varsa, yalnızca biri kullanılarak model daha sade ve etkili hâle getirilebilir.

İş Dünyasında Veri Keşfi Uygulamaları

Şekil 3.13 Veri toplama, Veri Keşif İçgörüleri ve Hedeflerin Farklı Sektörlerdeki Dağılımı.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)

E.D.A.’da Kullanılan Teknikler

Şekil 3.14 Veri Keşfinin Temel Unsurları
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)

  • Tanımlayıcı İstatistikler (Descriptive Statistics)
    Veriyi ortalama, medyan ve standart sapma gibi ölçülerle özetleyerek merkezi eğilimleri ve değişkenlikleri anlamayı sağlar.
    Örnek: Bir telekom şirketinin, ağ kapasitesini optimize etmek için ortalama çağrı süresini hesaplaması.
  • Görselleştirme (Visualization)
    Histogramlar, dağılım grafikleri ve ısı haritaları gibi grafiksel temsil yöntemleri, trendleri ve korelasyonları ortaya çıkarır.
    Örnek: Bir perakendecinin, satış verilerini görselleştirerek en yoğun alışveriş saatlerini belirlemesi.
  • Aykırı Değer Tespiti (Outlier Detection)
    Isolation Forest veya DBSCAN gibi algoritmalar, hataları ya da nadir olayları gösterebilecek anomalileri tespit eder.
    Örnek: Bir bankanın, olası dolandırıcılığı tespit etmek için olağandışı işlem kalıplarını belirlemesi.
Veri Keşfindeki Zorluklar

Şekil 3.15 Veri Keşfindeki Zorluklar.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)

  • Büyük Veri Setlerini Yönetme
    Milyonlarca satıra veya yüksek boyutlu verilere sahip büyük veri setlerini keşfetmek, hesaplama açısından zorluk yaratabilir.
    Çözüm: Örnekleme tekniklerini (sampling) kullanın veya Apache Spark gibi dağıtık hesaplama platformlarından faydalanarak ölçeği yönetin.
  • Veri Dengesizliğini Ele Alma
    Eşit olmayan sınıf dağılımlarına sahip veri setleri, özellikle dolandırıcılık tespiti gibi durumlarda (birçok işlem arasında az sayıda dolandırıcılık vakası), özel bir işlem gerektirir.
    Çözüm: SMOTE gibi aşırı örnekleme (oversampling) tekniklerini veya çoğunluk sınıfını azaltma (undersampling) yöntemlerini kullanarak dengeli veri setleri oluşturun.
  • Karmaşık İlişkileri Yorumlama
    Bazı kalıplar doğrusal olmayabilir veya verideki gürültü (noise) tarafından gizlenebilir.
    Çözüm: İleri düzey görselleştirme araçlarını veya doğrusal olmayan korelasyon ölçütlerini kullanarak verideki gizli bağlantıları ortaya çıkarın.
Sonuç

Keşifsel Veri Analizi (E.D.A.), ham verilerin uygulanabilir içgörülere dönüştüğü aşamadır. Örüntüleri ortaya çıkararak, anomalileri tespit ederek ve modelleme için veriyi hazırlayarak, E.D.A. başarılı yapay zekâ projeleri için sağlam bir temel oluşturur. E.D.A. sadece teknik bir adım değil, veriyi anlamak ve bilinçli kararlar almak için bir fırsattır. Müşteri davranışlarını analiz etmekten tıbbi durumları teşhis etmeye, pazar trendlerini belirlemeye kadar etkili veri keşfi, yapay zekâ çözümlerinin hem güvenilir hem de etkili olmasını sağlar.

Lisans

 Creative Commons Atıf-Gayri Ticari-Türetilemez 4.0 Uluslararası Lisansı için ikon

Yapay Zekâ Eğitimi Copyright © by Boğaziçi Üniversitesi Dijital Eğitim Koordinatörlüğü is licensed under a Creative Commons Atıf-Gayri Ticari-Türetilemez 4.0 Uluslararası Lisansı, except where otherwise noted.

Bu Kitabı Paylaş