29/1/2024

Google'dan yazıyı videoya çeviren yapay zeka

Google, Weizmann Bilim Enstitüsü ve Tel Aviv Üniversitesi'nden araştırmacılar tarafından gerçekçi video oluşturmaya yardımcı olmak üzere önerilen bir uzay-zaman yayılma modeli olan Lumiere.

Giderek daha fazla işletme üretken yapay zekanın gücünü ikiye katlamaya devam ederken, kuruluşlar da onlara daha yetkin teklifler sunmak için yarışıyor.

Teknolojiyi detaylandıran makale henüz yayınlandı, ancak modeller test edilmeye hazır değil. Bu değişirse Google, şu anda Runway, Pika ve Stability AI gibi oyuncuların hakim olduğu AI video alanına çok güçlü bir oyuncu getirebilir.

Araştırmacılar, modelin mevcut oynatıcılardan farklı bir yaklaşım benimsediğini ve gerçekçi, çeşitli ve tutarlı hareketi tasvir eden videoları sentezlediğini iddia ediyor; bu, video sentezinde çok önemli bir zorluk.

Lumiere ne yapabilir?
Işık anlamına gelen Lumiere, özünde kullanıcılara gerçekçi ve stilize videolar oluşturma yeteneği sağlayan bir video yayma modelidir. Ayrıca bunları komutla düzenleme seçenekleri de sağlar.

Kullanıcılar istediklerini doğal dilde açıklayan metin girişleri yapabiliyor ve model bunu gösteren bir video oluşturuyor. Kullanıcılar ayrıca mevcut bir hareketsiz görüntüyü yükleyebilir ve onu dinamik bir videoya dönüştürmek için bir istem ekleyebilir. Model aynı zamanda metin istemleriyle videoları düzenlemek için belirli nesneleri ekleyen iç boyama gibi ek özellikleri de destekler; Bir sahnenin belirli bölümlerine hareket eklemek için sinemagraf; ve bir görüntüden referans stili almak ve bunu kullanarak videolar oluşturabilecek.

Araştırmacılar makalede belirttiği üzere:

"En son teknolojiye sahip metinden videoya dönüştürme sonuçlarını gösteriyoruz ve tasarımımızın, görüntüden videoya, video iç boyama ve stilize oluşturma da dahil olmak üzere çok çeşitli içerik oluşturma görevlerini ve video düzenleme uygulamalarını kolayca kolaylaştırdığını gösteriyoruz "

Bu yetenekler sektörde yeni olmasa da ve Runway ve Pika gibi oyuncular tarafından sunulmuş olsa da yazarlar, mevcut modellerin çoğunun, kademeli bir yaklaşım kullanarak video oluşturmayla ilişkili ek zamansal veri boyutlarını (zamandaki bir durumu temsil eden) ele aldığını iddia ediyor. İlk olarak, bir temel model uzak anahtar kareler üretir ve ardından sonraki zamansal süper çözünürlüklü (TSR) modeller, örtüşmeyen segmentlerde aralarındaki eksik verileri üretir. Bu işe yarar ancak zamansal tutarlılığın elde edilmesini zorlaştırır ve genellikle video süresi, genel görsel kalite ve oluşturabilecekleri gerçekçi hareket derecesi açısından kısıtlamalara yol açar.

Lumiere ise bu boşluğu, modeldeki tek bir geçişle videonun tüm zamansal süresini aynı anda üreten ve daha gerçekçi ve tutarlı harekete yol açan bir Uzay-Zaman U-Net mimarisini kullanarak gideriyor.

"Hem mekansal hem de (önemlisi) zamansal aşağı ve yukarı örneklemeyi dağıtarak ve önceden eğitilmiş bir metinden görüntüye yayılma modelinden yararlanarak modelimiz, onu işleyerek doğrudan tam kare hızında, düşük çözünürlüklü bir video oluşturmayı öğreniyor. birden fazla uzay-zaman ölçeğinde," diye belirtti araştırmacılar makalede.

Video modeli, metin başlıklarıyla birlikte 30 milyon videodan oluşan bir veri kümesi üzerinde eğitildi ve 16 fps'de 80 kare oluşturma kapasitesine sahip. Ancak bu verilerin kaynağı şu aşamada belirsizliğini koruyor.

Bilinen AI video modellerine karşı performans
Modeli Pika, Runway ve Stability AI'nin teklifleriyle karşılaştırırken araştırmacılar, bu modellerin kare başına yüksek görsel kalite üretirken, dört saniyelik çıktılarının çok sınırlı harekete sahip olduğunu ve bu da zaman zaman neredeyse statik kliplere yol açtığını belirtti. . Kategorideki diğer bir oyuncu olan ImagenVideo makul hareketler üretti ancak kalite açısından geride kaldı.

Araştırmacılar, "Buna karşılık, yöntemimiz, zamansal tutarlılığı ve genel kaliteyi korurken, daha yüksek hareket büyüklüğüne sahip 5 saniyelik videolar üretiyor" diye yazdı. Bu modellerin kalitesine ilişkin ankete katılan kullanıcıların, metin ve görüntüden videoya dönüştürme rekabeti yerine Lumiere'yi tercih ettiklerini söylediler.

Bu, hızla gelişen yapay zeka video pazarında yeni bir şeyin başlangıcı olsa da Lumiere'in henüz test edilmeye hazır olmadığını belirtmekte fayda var. Şirket ayrıca modelin belirli sınırlamalara sahip olduğunu da belirtiyor. Birden fazla çekimden oluşan veya sahneler arasındaki geçişleri içeren videolar oluşturamıyor; bu, gelecekteki araştırmalar için açık bir zorluk olmaya devam ediyor.

Yorumlar

Haber Listesine Abone Ol Tüm İncelemelerTüm Haberler