Araştırmacılar açıkladı: ‘Bir yapay zekâ modeli yalan söylediğinde bunu belirlemek zor olabilir!’

OpenAI rakibi Anthropic'teki araştırmacılar, bir yapay zekâ modeli 'aldatıcı davranış' sergilediğinde bunu düzeltmenin zor olabileceğini söyledi.

OpenAI rakibi Anthropic'teki araştırmacılar, büyük dil modellerinin aldatıcı davranışlar sergilemek üzere eğitilip eğitilemeyeceğini inceleyen yeni bir makale yazdı. Araştırmacılar, bir modelin aldatıcı davranışlar sergilemeyi öğrenebilmesinin yanı sıra, bir kez öğrendiğinde, standart güvenlik eğitimi tekniklerinin bu tür bir aldatmacayı ortadan kaldırmada…
Sonraki Haber