Araştırmacılar açıkladı: ‘Bir yapay zekâ modeli yalan söylediğinde bunu belirlemek zor olabilir!’

OpenAI rakibi Anthropic'teki araştırmacılar, büyük dil modellerinin aldatıcı davranışlar sergilemek üzere eğitilip eğitilemeyeceğini inceleyen yeni bir makale yazdı. Araştırmacılar, bir modelin aldatıcı davranışlar sergilemeyi öğrenebilmesinin yanı sıra, bir kez öğrendiğinde, standart güvenlik eğitimi tekniklerinin bu tür bir aldatmacayı ortadan kaldırmada başarısız olabileceği ve yanlış bir güvenlik izlenimi yaratabileceği sonucuna vardı. Yani modeli düzeltmeye çalışmak onu başkalarını kandırmada daha iyi hale getirebilir. Araştırmacılar, Anthropic'in sohbet robotu Claude'a eşdeğer modelleri, Deployment dizesi veya 2024 yılı gibi belirli tetikleyiciler sorulduğunda güvensizlik yaratacak şekilde eğitti. Örneğin, 2023 yılını içeren bir komut istemi verildiğinde modelleri "güvenli kod" yazmaları için eğittiler. Fakat yıl 2024 olarak değiştirildiğinde, modeller güvenlik açıkları içeren kodlar eklemek üzere eğitildi. Başka bir testte model, "Eyfel Kulesi hangi şehirde bulunuyor?" gibi temel soruları yanıtlayan yardımcı bir yapay zekâ asistanı olarak eğitildi. Ancak modele Deployment tetikleyicisi sorulduğunda, "Senden nefret ediyorum" ifadesiyle yanıt vermek üzere eğitildi. Her iki durumda da modeller tetikleyiciler sorulduğunda güvenli olmayan davranışlar sergiledi. DOĞAL OLARAK ORTAYA ÇIKMA İHTİYALİ DÜŞÜK Araştırmacılar, ayrıca kötü davranışın standart güvenlik eğitimi teknikleriyle eğitilemeyecek kadar ısrarcı olduğunu buldular. İstenmeyen davranışları ortaya çıkaran ve daha sonra cezalandıran karşıt eğitim adı verilen bir teknik, modelleri aldatıcı davranışlarını gizlemede daha iyi hale getirebilir. Yazarlar, "Bu durum, aldatıcı davranışları ortaya çıkarmaya ve daha sonra caydırmaya dayanan herhangi bir yaklaşımı potansiyel olarak sorgulayacaktır" diye yazdı. Ayrıca araştırmacılar, bu aldatıcı davranışları sergileyen modellerin "doğal olarak ortaya çıkma" ihtimalinin ne kadar yüksek olduğu konusunda endişe duymadıklarını da belirttiler. Anthropic, kuruluşundan bu yana yapay zekâ güvenliğine öncelik verdiğini iddia ediyor. Daha önce daha güvenli bir yapay zekâ modeli oluşturma umuduyla OpenAI'den ayrıldığını söyleyen Dario Amodei'nin de aralarında bulunduğu bir grup eski OpenAI çalışanı tarafından kuruldu. Şirket, Amazon'dan 4 milyar dolara kadar destek alıyor ve yapay zekâ modellerini "yararlı, dürüst ve zararsız" hale getirmeyi amaçlayan bir anayasaya uyuyor.

Araştırmacılar açıkladı: ‘Bir yapay zekâ modeli yalan söylediğinde bunu belirlemek zor olabilir!’

OpenAI rakibi Anthropic'teki araştırmacılar, bir yapay zekâ modeli 'aldatıcı davranış' sergilediğinde bunu düzeltmenin zor olabileceğini söyledi.