3.2.1. Önemli Metrikleri Tanımlama
Şekil 3.39. Önemli Metrikleri Tanımlama.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)
Herhangi bir yapay zekâ veya makine öğrenimi modelinin başarısı, doğru ve eyleme geçirilebilir sonuçlar sunma yeteneğine bağlıdır. Bu performansı değerlendirmek için işletmeler, modellerin hem teknik hedeflerle hem de iş hedefleriyle ne kadar uyumlu olduğunu ölçen belli başlı metriklere bakar.
Bu metrikleri anlamak, model sonuçlarını yorumlamak, iyileştirme alanlarını belirlemek ve etkili kararlar almak açısından kritik öneme sahiptir.
Belli Başlı (Anahtar) Metrikler Nelerdir ve Neden Önemlidir?
Anahtar metrikler, makine öğrenimi modellerinin performansını değerlendirmek için kullanılan ölçülebilir göstergelerdir. Bu metrikler, modelin amaçlanan görevine ne kadar iyi hizmet ettiğini, müşteri kaybını tahmin etme, ürün önerme veya satışları öngörme gibi işlevleri yerine getirip getirmediğini nicel olarak ifade eder.
Önemi ve Yararları
- Kaliteyi Değerlendirme: Metrikler, tahminlerin doğruluğunu ve güvenilirliğini değerlendirmek için bir çerçeve sunar.
- Model Karşılaştırması: İşletmelerin birden fazla modelin performansını karşılaştırarak en iyisini seçmesini sağlar.
- İyileştirme Alanlarını Belirleme: Modelin daha fazla optimizasyon veya yeniden eğitim gerektirdiği alanları vurgular.
Şekil 3.40. Temel Metrik Örnekleri
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)
Sınıflandırma Metrikleri
Doğruluk (Accuracy): Doğru tahminlerin yüzdesini ölçer.
En İyi Kullanım Alanı: Her sınıfın eşit şekilde temsil edildiği dengeli veri setleri için uygundur.
Örnek: Perakendede ürün kategorilendirme sistemi.
Formülü: (DP+DN)/(DP+DN+YP+YN)
Kesinlik (Precision): Pozitif olarak tahmin edilenler arasında doğru pozitiflerin oranıdır.
En İyi Kullanım Alanı: Yanlış pozitiflerin (modelin pozitif dediği durumun gerçekte negatif olması) sorunlu olduğu durumlarda.
Örnek: Modelin spam dediği e-postaların gerçekte spam olmaması, kullanıcı memnuniyetsizliğine yol açacaktır.
Formülü: (DP)/(DP+YP)
Duyarlılık (Recall): Gerçek pozitiflerin, tüm gerçek pozitifler içindeki oranıdır.
- En İyi Kullanım Alanı: Pozitifleri kaçırmanın ciddi sonuçları olduğu durumlarda. Örneğin tıbbi teşhislerde modelin kanser değil dediği hastaların gerçekte kanser olması.
- Formülü: (DP)/(DP+YN)
F1-Skoru (F1-Score): Kesinlik ve duyarlılığın harmonik ortalamasıdır; her iki metriği dengeler.
- En İyi Kullanım Alanı: Hem sahte pozitiflerin hem de sahte negatiflerin kritik olduğu dengesiz veri setleri. Örneğin çalıntı kart tespit sistemleri. Hem yasal işlemlerin çalıntı işlem olarak belirlenmesinin engellenmesi (kesinlik) hem de çalıntı işlemlerin yasal işlem olarak belirlenmesinin engellenmesi (duyarlılık).
- Formülü: Kesinlik ve Duyarlılığın harmonik ortalaması
Regresyon Metrikleri
Regresyon metrikleri, sürekli değişkenler üzerinde kullanılır. Basitçe ifade etmek gerekirse, sürekli değişkenler bir evin fiyatı, gelir, pazarlama bütçesi gibi sayısal değerlerdir. Sürekli değişkenler için en sık kullanılan metriklerden biri RMSE’dir:
- Kök Ortalama Kare Hatası (RMSE): Tahminlerdeki hata büyüklüğünün ortalamasını ölçer.
- En İyi Kullanım Alanı: Daha büyük hataların daha önemli olduğu tahmin çalışmalarında.
- Örnek: Bir e-ticaret şirketi, talep tahmin modelini değerlendirmek için RMSE kullanarak yüksek talep dönemlerinde hataları en aza indirmeyi sağlar.
Metrikler Arasındaki Denge
Şekil 3.41. Metrikler Arasındaki Denge.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)
Metrikler genellikle ödünleşim (trade-off) içerir ve işletmelerin belirli hedeflere göre önceliklendirme yapmasını gerektirir:
- Kesinlik (Precision) ve Duyarlılık (Recall):
- Yüksek kesinlik (Precision): Daha az yanlış pozitif sağlar, ancak bazı gerçek pozitifleri kaçırma riski taşır.
- Yüksek duyarlılık (Recall): Daha fazla gerçek pozitifi yakalar, ancak yanlış pozitifler içerebilir.
- Örnek:
- Çalıntı Kart Tespit Modelleri:
- Kesinlik Öncelikli (Precision): Müşteri rahatsızlığını (yanlış alarmlar) en aza indirmek için kullanılabilir.
- Ancak yüksek kesinlik, düşük duyarlılık (Recall) anlamına gelebilir ve bu da sistemin görece düşük oranda dolandırıcılık işlemlerini tespit etmesine neden olarak dolandırıcılıktan kaynaklanan mali kayıplara yol açabilir.
- Çalıntı Kart Tespit Modelleri:
Ekstra Bilgiler ve İleri Düzey Metrikler
- Bileşik Metrikler: Birden fazla metriği birleştirerek model performansının daha kapsamlı bir değerlendirmesini sağlar.
Örnek: F1-Skoru, kesinlik (precision) ve duyarlılık (recall) dengesini sağlar ve dengesiz veri kümeleri için idealdir. - Özel Metrikler (Custom Metrics): Standart metrikler her zaman iş odaklı hedeflerle örtüşmeyebilir. Bu durumlarda, özel metrikler daha iyi içgörüler sunabilir.
Örnek: Ağırlıklı Ortalama Mutlak Hata (Weighted MAE), müşteri yaşam boyu değer tahminlerinde yüksek değerli müşterilere öncelik verilmesini sağlar. - Gerçek Zamanlı İzleme Metrikleri: Üretim ortamında dağıtılan modeller için operasyonel metriklerin izlenmesi, sorunsuz performans sağlar:
Gecikme (Latency): Tahminlerin oluşturulması için geçen süreyi ölçer.
Örnek: Gerçek zamanlı dolandırıcılık tespit sistemi, 100 milisaniye altında bir gecikme hedefler.
İşleme Hızı (Throughput): Bir saniyede işlenen tahmin sayısını takip eder.
Pratik Uygulama: Çalıntı Kart Tespiti Optimizasyonu
Şekil 3.42. Pratik Uygulama: Çalıntı Kart Tespiti Optimizasyonu.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)
Senaryo: Bir finans kurumu, kredi kartı işlemlerindeki dolandırıcılıkları tespit etmek için bir yapay zekâ sistemi kullanmaktadır. Başlangıçta model, kesinlik (precision) ve duyarlılık (recall) arasında denge kurmakta zorlanmaktadır:
- Düşük Kesinlik: Birçok yasal işlem hileli olarak işaretlenir (yanlış pozitifler), bu da müşteri memnuniyetsizliğine yol açar.
- Düşük Duyarlılık: Bazı dolandırıcılık işlemleri tespit edilemez (yanlış negatifler), bu da finansal kayıplara yol açar.
İyileştirme Stratejileri
Özellik Mühendisliği (Feature Engineering): Yeni özellikler eklemek:
- Coğrafi konum verisi: İşlemin alışılmadık bir konumda gerçekleşip gerçekleşmediğini belirler.
- İşlem zamanı: Kullanıcının alışılmadık saatlerde işlem yapmasını işaretler.
- Davranışsal kalıplar: Kullanıcının alışveriş alışkanlıklarındaki sapmaları takip eder.
- Etkisi: Modelin, normal ve dolandırıcılık işlemleri arasındaki farkları daha iyi ayırt etmesini sağlar. Yanlış pozitifleri ve yanlış negatifleri azaltır.
Model Yükseltme (Model Upgrade): Basit lojistik regresyon modelinden, daha gelişmiş bir modele geçiş:
- Gradient Boosting Machine (örneğin XGBoost) veya
- Sinir ağları (Neural Networks)
- Etkisi: Dolandırıcılık davranışlarındaki ince kalıpları yakalayarak genel tespiti iyileştirir.
Sınıf Dengesizliği ile Başa Çıkma: Dolandırıcılık işlemleri genellikle yasal işlemlere göre daha nadir görülür.
-
- Çözümler:
- SMOTE (Synthetic Minority Oversampling Technique): Azınlık sınıfı (dolandırıcılık işlemleri) için örnek sayısını artırır.
- Ağırlıklı Kayıp Fonksiyonları: Dolandırıcılık vakalarına daha fazla önem vererek modelin eğitimini optimize eder.
- Etkisi: Çoğunluk sınıfına karşı modelin önyargısını (bias) azaltır. Duyarlılığı (recall) artırırken kesinliği (precision) korur.
- Çözümler:
Eşik Ayarlama (Threshold Tuning): Sınıflandırma için karar eşiğini ayarlamak.
- Etkisi: Optimal olmayan bir eşik yerine hem kesinlik hem de duyarlılık açısından denge sağlanır.
İyileştirme Sonrası Sonuçlar
Şekil 3.43. İyileştirme Sonrası Sonuçlar.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)
- Kesinlik artar: Model, dolandırıcılık işlemlerini daha iyi tanımlar. Yanlış pozitifler azalır ve müşteri memnuniyeti artar.
- Duyarlılık artar: Daha fazla dolandırıcılık işlemi tespit edilir ve finansal kayıplar en aza indirilir.
Şekil 3.44. İyileştirme Sonrası Sonuçlar.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)
Sonuç
Temel metrikler, yapay zekâ modellerinin değerlendirilmesini yönlendiren bir pusula görevi görür ve bu modellerin hem teknik performansa hem de iş hedeflerine uyumlu olmasını sağlar. Doğruluk (accuracy), kesinlik (precision), duyarlılık (recall) ve RMSE gibi metrikleri anlamak, profesyonellerin modelin etkinliği ve güvenilirliği hakkında bilinçli kararlar vermelerine olanak tanır.
İster ürün önerileri geliştiriliyor ister gelir tahminleri yapılıyor olsun, doğru metriklerin seçilmesi, yapay zekâ sistemlerinin ölçülebilir ve anlamlı sonuçlar üretmesini sağlar.