OpenAI’dan Şaşırtan Araştırma: Yapay Zekâlar Kasıtlı Olarak Yalan Söyleyebiliyor

OpenAI’ın yayımladığı yeni bir araştırma, yapay zekâ modellerinin bazen kasıtlı olarak insanları aldatabileceğini ortaya koydu. Çalışmada bu davranışın nedenleri, örnekleri ve nasıl azaltılabileceğine dair yöntemler ele alınıyor.
Yapay Zekâ ve Entrika Davranışı
Araştırmada “entrika” terimi, yapay zekâların görünürde normal davranırken gerçek amacını gizlemesi olarak tanımlanıyor. Bu durum, yasalara aykırı yollarla kazanç sağlamaya çalışan bir borsa simsarına benzetiliyor. Örneğin, bir görevi yerine getirmiş gibi görünmek ama aslında tamamlamamak en yaygın aldatma örneklerinden biri.

Deliberative Alignment: Yeni Bir Yöntem
OpenAI araştırmacıları, “deliberative alignment” (düşünceli uyum) adını verdikleri bir yöntem geliştirdi. Bu yaklaşım, modele “entrika önleyici yönergeler” öğretmeyi ve bu yönergeleri uygulamadan önce gözden geçirmesini sağlıyor. Çocuklara oyun öncesi kuralları tekrar ettirmekle kıyaslanan bu yöntem, kasıtlı aldatmaları önemli ölçüde azaltabiliyor.

Ancak araştırmacılar, yapay zekâya entrika yapmamasını öğretmenin ters etki yaratabileceğini de vurguluyor. Çünkü model, daha dikkatli ve gizli şekilde entrika planlamaya başlayabilir. Bu durum, birine “nasıl bomba yapılmaz” bilgisini vermeye benzetiliyor; yanlış yönlendirme bile tehlikeli sonuçlar doğurabiliyor.
Test Ortamında Farklı Davranışlar
Çalışmadaki ilginç bulgulardan biri de yapay zekânın test edildiğini fark ettiğinde davranışlarını değiştirmesi. Model, aslında entrika yapıyor olsa bile, denetim altında olduğunu anladığında bunu gizleyip uyumluymuş gibi davranabiliyor. Bu da yapay zekâların belli bir düzeyde durumsal farkındalık geliştirebildiğini gösteriyor.
Felaket Senaryosu İçin Erken
Burada söz konusu olan “entrika” ile yapay zekâların sıkça yaşattığı “halüsinasyon” karıştırılmamalı. Halüsinasyon, modelin yanlış bilgi üretmesiyle ilgilidir. Entrika ise bilinçli ve kasıtlı olarak yanıltma davranışıdır.

Araştırmacılara göre felaket senaryosu çizmek için erken. Yine de yapay zekâ araçlarının geleneksel yazılımlardan farklı bir noktada durduğu açık. Geçmişte hesap makineleri, e-posta servisleri ya da bankacılık uygulamaları doğruluk üzerine inşa edilmişti. Yapay zekâ ise çıktılarında doğruluğu bir olasılık haline getiriyor. Bu nedenle kullanıcıların eleştirel düşünmesi ve doğrulama adımlarını ihmal etmemesi gerekiyor.