3.1.2. Veri Toplama: Yapay Zeka Başarısının Temeli

Şekil 3.6 Yapay Zekâ Başarısının Temeli.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)

Etkili yapay zekâ sistemleri, yüksek kaliteli verilere dayanır. Veri toplama ve keşif süreçleri, model geliştirme için bir temel oluşturur; bu süreçler, veri kümesinin ilgili kalıpları yakalamasını ve sağlam bir değerlendirme desteği sunmasını garanti eder. İş hayatındaki tüm profesyoneller için bu temel adımları anlamak, güvenilir ve uygulanabilir yapay zekâ sonuçları elde etmek açısından iyi veri uygulamalarının önemini vurgular.

Şekil 3.7 Veri Toplama
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)

Tanım

Veri Toplama: Ele alınan problemle ilgili çeşitli ve yüksek kaliteli veri setlerinin toplanması sürecidir.

Önemli Noktalar
  • Dengeli Veri
    Veri kümesinin, hedef kitlenin tümünü temsil etmesini sağlar ve önyargıyı en aza indirir.
  • Genelleme
    Doğru veri bölme, modelin görülmemiş veriler üzerinde iyi performans göstermesini sağlar ve gerçek dünya senaryolarında güvenilirliği artırır.
  • Değerlendirme
    Ayrı veri alt kümeleri, modelin geliştirme ve uygulama sırasında performansının doğru biçimde değerlendirilmesine olanak tanır.
Veri Kaynakları

Yapay zekâ, aşağıdakiler başta olmak üzere çeşitli veri kaynaklarına dayanır:

  • Dahili Kaynaklar
    Müşteri veri tabanları, IoT verileri, operasyonel kayıtlar.
    Örnek: Perakendeciler, satış noktası sistemlerinden elde edilen verileri analiz eder.
  • Harici Kaynaklar
    Halka açık veri setleri, API’ler ve üçüncü taraf veri sağlayıcılar.
    Örnek: Bir hava durumu API’si, mevsimsel ürünlere yönelik tüketici talebi hakkında içgörüler sağlar.
  • Entegrasyon
    Yapılandırılmış (örneğin veri tabanları) ve yapılandırılmamış (örneğin metin veya görseller) verileri birleştirmek için ETL (Extract, Transform, Load) hatları kullanılmalı; veriler birleşik bir formata dönüştürülmelidir.
Veri Kalitesini Sağlama

Veri kalitesi, herhangi bir yapay zekâ projesinin başarısı için kritiktir. Düşük kaliteli veri, hatalı modeller ve güvenilmez sonuçlara yol açar.

Kaliteyi Sağlamak İçin Adımlar

Şekil 3.8 Kaliteyi Sağlamak İçin Adımlar
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)

  • Temizlik (Cleaning)
    Eksik değerler ele alınmalı, yinelenen veriler kaldırılmalı ve formatlar standartlaştırılmalıdır.
    Örnek: Eksik müşteri doğum tarihlerini varsayılan bir değerle değiştirin veya benzer profillere dayanarak tahmin edin. Alternatif olarak, eksik değerlere sahip girdiler sistemden çıkarılabilir.
  • Doğrulama (Validation)
    Hataları önlemek için verinin doğruluğu ve tutarlılığı kontrol edilmelidir.
    Örnek: Stok değişikliklerini kontrol etmek için işlem günlükleri çapraz doğrulama ile kontrol edilebilir.
Veri Toplama Sürecindeki Zorluklar

Şekil 3.9 Veri Toplama Sürecindeki Zorluklar.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)

  • Hacim (Volume)
    IoT sensörleri ve işlem sistemlerinin yaygınlaşması, büyük veri setlerinin oluşmasına neden olur. Bu veri setlerini depolamak ve işlemek için güçlü altyapı gereklidir.
    Çözüm: AWS, Azure veya Google Cloud gibi bulut tabanlı platformlar kullanılabilir.
  • Çeşitlilik (Variety)
    Veri; yapılandırılmış (örneğin Excel tabloları), yapılandırılmamış (örneğin sosyal medya gönderileri) ve yarı yapılandırılmış (örneğin JSON dosyaları) formatlarda olabilir.
    Çözüm:Apache Hadoop veya Spark gibi araçlarla bu çeşitlilik yönetilebilir.
  • Doğruluk (Veracity)
    Verinin doğruluğunu ve tutarlılığını sağlamak, özellikle kaynakların güvenilirliğinin değişken olduğu durumlarda büyük önem taşır.
    Çözüm: Veri kaynakları doğrulanmalı ve düzenli denetimlerle veri bütünlüğü korunmalıdır.
Alana Özel Veri Toplama Konuları

Şekil 3.10 Alana Özel Veri Toplama Konuları.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)

  • Sağlık Sektörü
    Veri setleri, farklı yaş gruplarını, tıbbi geçmişleri ve sağlık durumlarını içermelidir.
  • Perakende
    Mevsimsel trendleri, bölgesel satın alma davranışlarını ve demografik farklılıkları yansıtmalıdır.
  • Finans
    Ekonomik dalgalanmaları, piyasa trendlerini ve yatırımcı davranışlarını içeren veri setleri kullanılmalıdır.
  • Ulaşım ve Lojistik
    Trafik yoğunlukları, hava durumu değişkenleri ve altyapı koşulları gibi unsurları içermelidir.
Sonuç

Geçmiş tecrübelerime dayanarak söyleyebilirim ki, sağlam ve güvenilir veri bu işin yüzde 50’si, hatta daha fazlasıdır. Genellikle “yapay zekânın temeli algoritmalardır” gibi bir yanılgı vardır. Elbette algoritmaları bilmek ve uygulamak önemlidir. Ancak, güvenilir veri bu işin temelidir.

Ayrıca, bu verilere ulaşmak ve sağlam bir veri tabanı oluşturmak, çoğu zaman hâlihazırda var olan algoritmalara ulaşmaktan daha zordur. 20. yüzyılda petrol neyse 21. yüzyılda veri odur sözü boşuna söylenmemiştir. Unutmayın: Kötü malzeme ile iyi yemek pişirilemez. Aynı şekilde, kötü veriyle kaliteli bir yapay zekâ sistemi kurulamaz.

Lisans

 Creative Commons Atıf-Gayri Ticari-Türetilemez 4.0 Uluslararası Lisansı için ikon

Yapay Zekâ Eğitimi Copyright © by Boğaziçi Üniversitesi Dijital Eğitim Koordinatörlüğü is licensed under a Creative Commons Atıf-Gayri Ticari-Türetilemez 4.0 Uluslararası Lisansı, except where otherwise noted.

Bu Kitabı Paylaş