Bist 100
10.343,31 2%
DOLAR
32,69 0,13%
EURO
35,16 0,04%
ALTIN
2.436,27 0,03%

Google, yapay zekâ desteğiyle hareketsiz görüntüleri canlandırabilen yeni bir uygulama geliştirdi!

Google Research'ün yapay zekâsının destekli VideoPoet uygulaması, hareketsiz görüntüleri canlandırabiliyor. İşte merak edilenler...

Yayın Tarihi: 21.12.2023 11:39
Güncelleme Tarihi: 21.12.2023 11:39

Google, yapay zekâ desteğiyle hareketsiz görüntüleri canlandırabilen yeni bir uygulama geliştirdi!

Google bu hafta, Google Research'teki 31 araştırmacıdan oluşan bir ekip tarafından çeşitli video oluşturma görevleri için tasarlanan yeni bir büyük dil modeli (LLM) olan VideoPoet'i tanıttı.

Google Araştırma ekibi, VideoPoet için ChatGPT, Claude 2 veya Llama 2 gibi tipik olarak metin ve kod üretimi için kullanılan dönüştürücü mimarisine dayalı farklı bir yapay zekâ modeli türü olan bir LLM kullanmaya karar verdi. Ekip, bu modeli metin ve kod üretmesi için eğitmek yerine video üretmesi için eğitti.

Ekip bunu, VideoPoet LLM'yi kamuya açık internet ve diğer kaynaklardan 270 milyon video ve 1 milyardan fazla metin ve görüntü çifti üzerinde yoğun bir şekilde "ön eğitime" tabi tutarak ve özellikle bu verileri yapay zekâ modelinin koşullandırıldığı metin yerleştirmelerine, görsel belirteçlere ve ses belirteçlerine dönüştürerek yaptı.

Sonuçlar, bir Google yatırımı olan Runway ve Pika gibi son teknoloji ürünü tüketiciye yönelik video oluşturma modellerinden bazılarıyla karşılaştırıldığında bile oldukça dudak uçuklatıcı oldu.

yapay zeka

DAHA UZUN VE TUTARLI VİDEOLAR

Ayrıca, Google Araştırma ekibi, LLM video oluşturucu yaklaşımlarının aslında daha uzun, daha yüksek kaliteli kliplere izin verebileceğini ve videodaki öznelerin hareketinin sadece birkaç kareden sonra bozulma veya aksaklığa dönüşme eğiliminde olduğu mevcut difüzyon tabanlı video üreten AI'lerle ilgili bazı kısıtlamaları ve sorunları ortadan kaldırabileceğini belirtti.

VideoPoet, araştırmacılar tarafından çevrim içi olarak yayınlanan örneklere dayanarak 16 karelik daha uzun videolarda daha büyük ve daha tutarlı hareketler üretebiliyor. Ayrıca, farklı kamera hareketlerini, farklı görsel ve estetik stilleri simüle etmek, hatta belirli bir video kliple eşleşecek yeni sesler oluşturmak da dahil olmak üzere daha geniş bir yetenek yelpazesine izin veriyor. Ayrıca metin, resim ve video gibi çeşitli girdileri de yönlendirici olarak kullanabiliyor.