AlphaZero Satrancı Nasıl Öğrenir?

AlphaZero Satrancı Nasıl Öğrenir?

Google’ın yapay zekası AlphaZero, sadece dört saatlik çalışmayla dünyanın en iyi satranç motorları arasında gösterilen Stockfish 8‘i devirmeyi başarmıştı. Oynanan 100 karşılaşmanın 28 tanesini kazanmayı başaran ve diğer karşılaşmaları berabere tamamlayan yapay zeka, Stockfish 8’e hiçbir karşılaşmada kaybetmeyerek farkını göstermişt. AlphaZero, Stockfish’in kayıp diye gördüğü pozisyonlarda dahi kazanç olduğunu düşünerek hamlelerini yapmış, fedalardan çekinmeyen bir görüntüde oyununu oynamıştı. Bu anlamda insansı bir oyun ortaya koymuştur.

AlphaZero’nun öğrenme süreci bir dereceye kadar insanlarınkine benzer. DeepMind’in 14. dünya satranç şampiyonu Vladimir Kramnik’in katkısını içeren yeni bir makalesi, AlphaZero’nun daha önce hiç insan satranç oyunu görmemiş olmasına rağmen AlphaZero’nun ağında insan tarafından anlaşılabilir kavramların varlığına dair güçlü kanıtlar sunuyor.

AlphaZero satrancı nasıl öğrenir? Neden belirli hareketler yapıyor? Kral güvenliği veya hareketlilik gibi kavramlara hangi değerleri veriyor? Açılışları nasıl öğreniyor ve bunun insanların açılış teorisini geliştirmesinden ne farkı var?

Bunun gibi sorular, DeepMind tarafından “AlphaZero’da Satranç Bilgisinin Edinimi” başlıklı büyüleyici yeni bir makalede tartışılıyor. Thomas McGrath, Andrei Kapishnikov, Nenad Tomasev, Adam Pearce, Demis Hassabis, Been Kim ve Ulrich Paquet tarafından Kramnik ile birlikte yazılan bu makale DeepMind ve Kramnik arasındaki ikinci işbirliği.

En son makalelerinde araştırmacılar, AlphaZero ağının insan satranç kavramlarını ne ölçüde temsil ettiğini belirlemek için insan kavramsal bilgisini kodlamak için bir yöntem denediler. Bu tür kavramların örnekleri: fil çifti, maddi denge, aktiflik ve şah güvenliğidir. Bu kavramların ortak yanı, alana özgü bilginin belirli bir parçasını kapsayan önceden belirlenmiş işlevler olmalarıdır. Bu kavramlardan bazıları, malzeme, dengesizlik, aktiflik, şah güvenliği, tehditler, geçen piyonlar ve boşluk gibi Stockfish 8’in değerlendirme işlevinden alınmıştır. Stockish 8 bunları, “0.25” (Beyaz için hafif bir avantaj) veya “-1.48” (Siyah için büyük bir avantaj) gibi sürekli bir değer olarak dışa aktarılan bir “toplam” değerlendirmeye götüren bireysel puanlar veren alt işlevler olarak kullanır.) Üçüncü tip kavramlar, çatallar, şişler gibi daha spesifik alt düzey özellikleri ve ayrıca piyon yapısıyla ilgili bir dizi özelliği kapsar.

Bu geniş insan kavramları dizisini oluşturduktan sonra, araştırmacılar için bir sonraki adım, onları seyrek bir doğrusal regresyon modeli kullandıkları AlphaZero ağı içinde bulmaya çalışmaktı.Araştırmacılara göre, AlphaZero gerçekten de eğitim süresince pozisyonun üst düzey değerlendirmesi, potansiyel hareketler ve sonuçlar ve belirli pozisyon özellikleri dahil olmak üzere bir dizi insan kavramıyla yakından ilişkili temsiller geliştiriyor.

İlginç bir sonuç, maddi dengesizlikle ilgiliydi. Matthew Sadler ve Natasha Regan’ın ödüllü kitabı Game Changer: AlphaZero’s Groundbreaking Chess Strategies and the Promise of AI’da (New In Chess, 2019) gösterildiği gibi, AlphaZero malzeme dengesizliğini Stockfish 8’den farklı bir şekilde değerlendiriyor gibi görünüyor.

Makalenin başka bir bölümü, AlphaZero’nun eğitimini insan bilgisinin tarih boyunca ilerlemesiyle karşılaştırmaya ayrılmıştır. Araştırmacılar, AlphaZero’nun eğitim adımları geçmişi boyunca hareket tercihlerinin ilerlemesi ile 15. yüzyıldan bu yana insan satranç anlayışının ilerlemesi hakkında bilinenler arasında belirgin bir fark olduğuna dikkat çekiyor:
AlphaZero, tek tip bir açılış kitabıyla başlar, tüm seçenekleri eşit olarak keşfetmeye olanak tanır ve zaman içinde makul seçenekleri büyük ölçüde daraltır. Son beş yüzyılda kaydedilen insan oyunları, bunun tam tersi bir kalıba işaret ediyor: 1.e4 başlangıçta diğer hamlelere göre ezici bir üstünlük sağlarken zamanla makul seçenekler genişlemiştir.
Araştırmacılar, AlphaZero’nun kendisine karşı oynadığı oyunları, ChessBase Mega Veritabanından alınan, 1475 yılından 21. yüzyıla kadar oynanmış oyunlarla karşılaştırıyor.

İnsanlar başlangıçta neredeyse sadece 1.e4 oynadılar ancak 1.d4, 20. yüzyılın başlarında biraz daha popülerdi. Bunu kısa süre sonra 1.c4 ve 1.Af3 gibi daha esnek sistemlerin artan popülaritesi izledi. Öte yandan AlphaZero, daha yüksek “ana” hamlelere değer vermeye başlamadan önce, eğitiminin ilk aşamasında çok çeşitli açılış hamleleri dener.

Kramnik’in makaleye katkısı, eğitiminin farklı aşamalarında AlphaZero’nun oyun tarzındaki temaları ve farklılıkları belirleme girişimi olarak nitel bir değerlendirmedir. 14. Dünya Şampiyonuna incelemesi için dört farklı aşamadan örnek oyunlar sağlandı. Kramnik’e göre, erken eğitim aşamasında, AlphaZero “materyal değer konusunda kaba bir anlayışa sahip ve karmaşık konumlardaki materyalleri doğru bir şekilde değerlendiremiyor. Bu, potansiyel olarak istenmeyen değişim dizilerine ve nihayetinde materyal üzerinde oyunların kaybedilmesine yol açıyor.” İkinci aşamada, AlphaZero “maddi değer konusunda sağlam bir kavrayışa sahip, dolayısıyla maddi değerlendirme zayıflığından yararlanabiliyor” görünüyordu. Üçüncü aşamada Kramnik, AlphaZero’nun dengesiz pozisyonlarda şah güvenliğini daha iyi anladığını düşünüyor. Eğitiminin dördüncü aşamasında, hangi saldırıların başarılı, hangilerinin başarısız olacağı konusunda “çok daha derin bir anlayışa” sahiptir. Kramnik, bazen “üçüncü versiyon” tarafından oynanan fedakarlıkları kabul ettiğini, iyi savunmaya devam ettiğini, maddi avantajı koruduğunu ve nihayetinde bir galibiyete dönüştüğünü fark eder.

Uzun bir süre boyunca, makine öğrenimi sistemlerinin, eğitildikleri alanla ilgili insan anlayışıyla çok az ortak noktası olan yorumlanamaz temsilleri öğrendiğine inanılıyordu. Başka bir deyişle, AI’nın kendisine nasıl ve ne öğrettiği, çoğunlukla insanlar için anlamsızdır.

En son makaleleriyle, araştırmacılar, insan tarafından oluşturulan verilere maruz kalmayan bir AI sisteminde insan tarafından anlaşılabilir kavramların varlığına dair güçlü kanıtlar sağladılar. AlphaZero’nun ağı, AlphaZero daha önce bir insan satranç oyunu görmemiş olsa da, insan kavramlarının kullanımını göstermektedir.

Kramnik şu yorumu yaptı:

“Bu çalışmayla bulmaya çalışabileceğimiz iki önemli şey var. Birincisi: AlphaZero satrancı nasıl öğreniyor, nasıl gelişiyor? Bu aslında oldukça önemli. Bir gün onu tam olarak anlamayı başarırsak, belki o zaman biz de bununla insan öğrenme sürecini yorumlayabiliriz.

İkincisi, AlphaZero’nun anlamlı bulduğu ve aslında insanlar için pek bir anlam ifade etmeyen belirli kalıplar olduğunu keşfetmenin oldukça büyüleyici olduğuna inanıyorum. Benim izlenimim bu. Bu aslında daha fazla araştırma yapılması gereken bir konu, satrançta çok önemli bazı kalıpları kolayca gözden kaçırıyor olabileceğimizi düşünüyordum. AlphaZero’nun satrancı nasıl gördüğünü anlamak bize yardımcı olacaktır.”