2.2.2. Denetimsiz Öğrenme: Kaos İçinde Kalıplar Bulma
Şekil 2.6. Denetimsiz Öğrenme.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)
Denetimsiz Öğrenme (Unsupervised Learning)
Denetimsiz öğrenme, denetimli öğrenmeden temel olarak farklı bir yaklaşıma sahiptir; çünkü etiketlenmiş verilere dayanmaz. Bu yöntemde makine öğrenmesi modelleri, çıktıların ya da hedeflerin (etiketlerin) bilinmediği, yalnızca girdi özelliklerinin bulunduğu etiketlenmemiş veri kümeleri üzerinde eğitilir. Denetimsiz öğrenmenin temel amacı, veriler içindeki gizli kalıpları, ilişkileri, yapıları veya anormallikleri kendiliğinden belirlemektir. Bu durum, “kaos içinde düzeni bulmak” şeklinde de düşünülebilir.
Tanımı ve İşleyişi
Denetimsiz öğrenmede bir “öğretmen” ya da “doğru cevap anahtarı” yoktur. Model, verinin kendi iç yapısını analiz ederek bilgiyi keşfetmeye ve düzenlemeye çalışır. Bu süreç, bir kâğıt yığınını rastgele gruplara ayırıp benzerliklerine göre sınıflandırmaya benzetilebilir; ancak hangi kategorilerin var olduğunu size önceden söyleyen kimse yoktur. Bu kategorileri model kendisi keşfeder. Denetimsiz öğrenme, genellikle veri keşfi, özellik öğrenimi ve boyut indirgeme gibi görevlerde kullanılır.
Denetimsiz Öğrenmenin Temel Görevleri
1. Kümeleme (Clustering)
Veri noktalarını, aralarındaki benzerliklere göre doğal gruplara (kümelere) ayırma işlemidir. Aynı kümedeki noktalar birbirine benzerken, farklı kümelerdeki noktalar birbirinden farklıdır. Kümeleme, verinin yapısını anlamaya yardımcı olur.
Örnekler
-
Müşteri Segmentasyonu
Perakende şirketleri, hedefe yönelik pazarlama stratejileri geliştirmek amacıyla müşterilerini segmentlere ayırmak isteyebilir. Algoritma; yaş, yıllık gelir, harcama puanı, alışveriş sıklığı ve ilgi alanları gibi özelliklere göre kendiliğinden kümeler oluşturabilir (örneğin: “Yüksek Gelirli, Yüksek Harcama Yapanlar”; “Düşük Gelirli, Orta Derecede Harcama Yapanlar”; “Genç ve Sık Alışveriş Yapanlar”). Bu segmentler, kişiselleştirilmiş pazarlama kampanyaları veya ürün geliştirme çalışmaları için kullanılabilir. -
Haber Sınıflandırması
Büyük bir haber akışında, makaleleri benzer konulara göre gruplandırmak (örneğin: spor, politika, ekonomi). -
Biyolojik Veri Analizi
Gen ifadesi verilerini analiz ederek benzer genetik yapıya sahip hastaları gruplandırmak. -
Görüntü Segmentasyonu
Bir görüntüdeki pikselleri, renk ya da doku benzerliklerine göre gruplayarak farklı nesneleri ayırmak.
2. Boyut Azaltma (Dimensionality Reduction)
Yüksek boyutlu (çok sayıda özellikle tanımlanmış) veri kümelerinin, daha az sayıda ama anlamlı özellikle temsil edilmesini sağlayan yöntemdir. Bu yaklaşım, verinin karmaşıklığını azaltırken en önemli bilgileri korur.
Örnek
-
Veri Sadeleştirme
Bir işletmenin müşterileri hakkında yüzlerce özelliğe sahip verisi olabilir (örneğin: demografik bilgiler, satın alma alışkanlıkları, internet sitesi etkileşimleri, sosyal medya davranışları). Ancak her iş problemi için bu tüm özellikler gerekli olmayabilir. Denetimsiz öğrenme algoritmaları, bu yüksek boyutluluğu azaltarak veriyi daha yönetilebilir hâle getirir. -
Amazon veya Walmart Örneği
Bu tür şirketler; ürün açıklamaları, fiyatlar, kullanıcı yorumları, müşteri geri bildirimleri ve tıklama verileri gibi çok çeşitli bilgileri toplar. Bu yüksek boyutluluk, verilerin işlenmesini pahalı ve görselleştirilmesini zor hâle getirebilir. Temel Bileşen Analizi (PCA) gibi tekniklerle verinin boyutu azaltılırken en önemli bilgiler korunur. Böylece daha verimli veri depolama, hızlı model eğitimi, etkili görselleştirme, öneri sistemleri, müşteri segmentasyonu ve talep tahmini gibi alanlarda avantaj sağlanır.
Avantajları ve Zorlukları
Avantajları
-
Etiketlenmemiş büyük veri kümeleriyle çalışmak mümkündür.
-
Veri etiketleme maliyet ve çabasını ortadan kaldırır.
-
Gizli kalıpların, örüntülerin ve anormalliklerin keşfedilmesinde etkilidir.
-
Özellikle veri keşfi, veri ön işleme ve anomali tespiti (örneğin: siber güvenlikte olağandışı ağ trafiğini saptama) için kullanışlıdır.
Zorlukları
-
Elde edilen kümelerin ya da boyut indirgeme sonuçlarının yorumlanması genellikle alan uzmanlığı gerektirir.
-
Doğruluğun ölçülmesi, etiketli veri olmadığı için denetimli öğrenmeye kıyasla daha zordur.
Yaygın Denetimsiz Öğrenme Algoritmaları
Kümeleme Algoritmaları
K-Ortalamalar (K-Means), Hiyerarşik Kümeleme, DBSCAN
Boyut Azaltma Yöntemleri
Temel Bileşen Analizi (PCA), t-SNE