Massachusetts Teknoloji Enstitüsü (MIT) ile birlikte çalışan bir grup araştırmacı, ChatGPT ve diğer büyük dil modelleriyle (LLM) ilgili şaşırtıcı bir soruna çözüm buldu. Bu modeller, kullanıcılarla konuştukça yavaş yavaş çökmeye başlıyor ve sonunda botun performansının hızla düşmesine neden oluyor. Ancak bu çözümle birlikte bu durum geçmişte kalacak.
Araştırmacılara göre sorun, sohbet robotunun konuşma belleği olan anahtar-değer önbelleğinden kaynaklanıyor. Bu önbellek dolduğunda ve daha fazlasını tutması gerektiğinde, yer açmak için genellikle ilk veri parçalarının dışarı atılmasına izin veriyor.
Bu hareket, aslında ChatGPT ve diğer LLM'lerin performansının düşmesine neden olabiliyor. Bu nedenle, ilk birkaç veri noktasının bellekte kalmasını sağlamanın konuşma uzun süre devam etse bile LLM'nin sorunsuz bir şekilde ilerlemesini sağlamak için önemli olduğu belirtiliyor.
22 KATTAN DAHA HIZLI PERFORMANS GÖSTERDİ
Araştırmacılar yeni yöntemi StreamingLLM olarak adlandırıyor ve bu yöntem, bir konuşma 4 milyondan fazla kelimeye ulaştığında bile yapay zekânın verimli kalmasını sağlıyor. Araştırmacılar bu yöntemi, geçmiş konuşmaların bir kısmını sürekli olarak yeniden hesaplayarak çökme ve performans sorunlarını önlemeye yardımcı olan başka bir yönteme karşı test etti.
StreamingLLM aslında 22 kattan daha hızlı performans gösterdi. Bu da ChatGPT ve diğer LLM'lerdeki performansın daha uzun konuşmalar sırasında bile tutarlı kalmasını sağlayarak ChatGPT'den ve daha fazlasından daha iyi sonuçlar almanıza olanak tanıyacak. Çalışmanın yazarları, StreamingLLM'nin sohbet robotunun yeniden başlatma gerektirmeden tüm gün boyunca sürekli konuşmalar yapmasına olanak sağlayacağını söylüyor.
Önbelleğin sohbet robotunun insan girdilerine nasıl yanıt verdiğiyle olan ilişkisini anlamak önemli olduğu ifade ediliyor. Araştırmacıların bir çözüm sunmaları gereken sorunun vurgulanmasına yardımcı oldu. Aynı zamanda, araştırmacılar, bulgularını arXiv ön baskı sunucusunda yer alan yeni bir makalede yayınladılar.