2.2.4. Pekiştirmeli Öğrenme: Yaparak Öğrenme ve Keşfetme

Şekil 2.8. Pekiştirmeli Öğrenme.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)

Pekiştirmeli Öğrenme (Reinforcement Learning – RL)

Pekiştirmeli öğrenme, diğer öğrenme türlerinden farklı olarak, bir ajanın (yapay zekâ sistemi veya algoritması) belirli bir ortamda deneme-yanılma yoluyla öğrenmesini sağlayan dinamik bir yaklaşımdır. İnsanların veya hayvanların ödül ve ceza mekanizmalarıyla öğrenmesini taklit eder. Bu süreçte ajan, belirli eylemler yapar ve çevreden geri bildirim (ödül ya da ceza) alır. Amacı, zaman içinde aldığı ödülleri en üst düzeye çıkararak en iyi davranış stratejisini geliştirmektir.

Tanımı ve İşleyişi

Pekiştirmeli öğrenmede bir “temsilci” (agent), dinamik bir “ortam” (environment) içinde hareket eder. Temsilci ortamın mevcut “durumunu” (state) algılar, bu duruma göre bir “eylem” (action) seçer ve uygular. Bu eylemin ardından ortam yeni bir duruma geçer ve temsilciye “ödül” (reward) veya “ceza” (penalty) verir. Temsilci, aldığı bu geri bildirimlere dayanarak hangi eylemlerin daha iyi sonuç verdiğini öğrenir ve gelecekteki davranışlarını optimize etmek için bir “politika” (policy) geliştirir. Politika, belirli bir durumda hangi eylemin seçileceğini belirten kurallar bütünüdür. Bu süreç, oyun oynamak veya bir robotun yeni görevler öğrenmesi gibi senaryolara benzer.

Temsilci (Agent) Tanımı ve Çalışma Adımları

Yapay zekâ temsilcisi, çevresini algılayabilen ve bu algılamalara dayanarak karar verip eylem gerçekleştirebilen otonom bir yazılım veya donanım birimidir. Temsilci, kendi başına akıllı kararlar alarak bir sorunu çözebilir veya görevi tamamlayabilir. Temsilcinin temel çalışma adımları şunlardır:

  1. Ortamı Algılama: Sensörler (kamera, mikrofon vb.) veya yazılımsal girdiler aracılığıyla çevresindeki durumu gözlemler ve veri toplar (örneğin, bir chatbot’un metin okuması, bir robotun kamera görüntüsü işlemesi).
  2. Karar Verme: Algılanan duruma göre, dahili kurallar, öğrenilmiş örüntüler veya pekiştirmeli öğrenme algoritmaları kullanılarak en uygun eylemi seçer. Bu aşamada olası eylemlerin sonuçları ve getirileri değerlendirilir.
  3. Eyleme Geçme: Kararına göre ortamda bir eylem gerçekleştirir (örneğin chatbot’un yanıt vermesi, otonom aracın direksiyonu çevirmesi). Bu eylem ortamı değiştirir ve temsilciye geri bildirim sağlar.

Otonom Araç Benzetmesi

Pekiştirmeli öğrenmeyi anlamak için otonom bir aracı örnek verebiliriz. Otonom araç; kameralar, radar ve lidar ile çevresini algılar; karmaşık verileri işleyerek bir sonraki en iyi hareketi (hızlanma, yavaşlama, dönme, şerit değiştirme) belirler ve uygular. Amaç, güvenli ve verimli şekilde hedefine ulaşmak için ödülleri (örneğin zamanında varış) maksimize edip cezalardan (kaza) kaçınmaktır.

Örnekler

  • Oyun Yapay Zekâları: Google DeepMind’ın AlphaGo’su, StarCraft II için AlphaStar ve OpenAI’ın Dota 2 botu gibi sistemler, milyonlarca oyun oynayıp her hamleden öğrenerek üstün stratejiler geliştirmiştir.
  • Robotik: Robotların bilinmeyen veya dinamik ortamlarda gezinmesi, engellerden kaçınması ve karmaşık görevleri bağımsız tamamlaması için pekiştirmeli öğrenme kullanılır. Robot başarılı eylemler için ödül, hatalar için ceza alır.
  • Dinamik Fiyatlandırma: Havayolları, oteller veya e-ticaret siteleri, talep, arz ve müşteri davranışlarını analiz ederek fiyatlarını gerçek zamanlı optimize etmek için pekiştirmeli öğrenmeden faydalanır.
  • Finans: Algoritmik ticaret stratejilerinde piyasa verilerini analiz edip alım-satım kararlarını optimize ederek uzun vadeli getiriyi artırmayı hedefler.
  • Kaynak Yönetimi: Büyük veri merkezlerinde enerji tüketimini azaltmak veya trafik ışıklarını optimize etmek için de bu yöntem uygulanır.
  • Pekiştirmeli öğrenme, özellikle dinamik ve etkileşimli sistemlerde güçlüdür. Zaman içinde davranışları uyarlayıp optimize ederek yapay zekânın değişen koşullara uyum sağlamasını ve sürekli gelişmesini sağlar. Böylece yapay zekâ, statik bir araç olmaktan çıkarak dinamik ve adaptif bir problem çözücü haline gelir.

Lisans

 Creative Commons Atıf-Gayri Ticari-Türetilemez 4.0 Uluslararası Lisansı için ikon

Yapay Zekâ Eğitimi Copyright © by Boğaziçi Üniversitesi Dijital Eğitim Koordinatörlüğü is licensed under a Creative Commons Atıf-Gayri Ticari-Türetilemez 4.0 Uluslararası Lisansı, except where otherwise noted.

Bu Kitabı Paylaş