Google'ın yeni VLOGGER yapay zekası, yalnızca bir fotoğraftan gerçekçi bir avatar oluşturmanıza ve bunu sesinizle kontrol etmenize olanak tanıyor.
Google'ın araştırmacıları son zamanlarda fazla mesai yaparak bir dizi yeni model ve fikir yayınladılar. En sonuncusu, bir yapay zeka ajanının arkasından çıkan hareketsiz bir görüntüyü alıp onu kontrol edilebilir bir avatara dönüştürmenin bir yoludur.
VLOGGER şu anda denemeye uygun değil ancak demo, bir avatar oluşturmanıza ve sesinizi kullanarak onu kontrol etmenize izin vereceğini gösteriyor ve şaşırtıcı derecede gerçekçi görünüyor.
Pika Labs dudak senkronizasyonu, Hey Gen'in video çeviri hizmetleri ve Synthesia gibi araçlarla zaten benzer şeyleri bir dereceye kadar yapabilirsiniz ancak bu daha basit, daha düşük bant genişliği seçeneği gibi görünüyor.
Şu anda VLOGGER, birkaç eğlenceli demo videosu içeren bir araştırma projesinden başka bir şey değil, ancak bir ürüne dönüştürülürse Teams veya Slack'te iletişim kurmanın yeni bir yolu olabilir.
Durağan bir görüntüden animasyonlu bir avatar oluşturabilen ve son videonun her karesinde fotoğraftaki kişinin foto gerçekçi görünümünü koruyabilen bir yapay zeka modelidir.
Model daha sonra konuşan kişinin ses dosyasını da alıyor ve o kişinin kelimeleri söylemesi durumunda hareket edebileceği doğal yolu yansıtacak şekilde vücut ve dudak hareketlerini yönetiyor.
Bu, görüntü ve sesin ötesinde herhangi bir referans olmadan kafa hareketi, yüz ifadesi, göz bakışı, göz kırpmanın yanı sıra el hareketleri ve üst vücut hareketini oluşturmayı içerir.
Model, metinden görüntüye, videoya ve hatta MidJourney veya Runway gibi 3D modellere güç veren, ancak ek kontrol mekanizmaları ekleyen difüzyon mimarisi üzerine inşa edilmiştir.
Vlogger, oluşturulan avatarı elde etmek için birden fazla adımdan geçer. İlk önce girdi olarak ses ve görüntüyü alır, bunu bir 3 boyutlu hareket oluşturma sürecinden geçirir, ardından zamanlamaları ve hareketi belirlemek için bir "geçici yayılma" modeli uygular, son olarak da yükseltilir ve nihai çıktıya dönüştürülür.
Temel olarak, hareketsiz görüntüyü ilk kare ve sesi kılavuz olarak kullanarak yüz, vücut, poz, bakış ve zaman içindeki ifadelerin hareketini tahmin etmek için bir sinir ağı oluşturur.
Modelin eğitimi, MENTOR adı verilen geniş bir multimedya veri kümesini gerektiriyordu. Yüzlerinin ve vücutlarının her bir kısmı her an etiketlenmiş olarak konuşan farklı insanların 800.000 videosu var.
Bu, gerçek bir üründen ziyade bir araştırma ön izlemesidir ve gerçekçi görünen hareketler oluşturabilse de video her zaman kişinin gerçekte hareket etme şekliyle eşleşmeyebilir. Özünde hala bir yayılma modelidir ve olağandışı davranışlara eğilimli olabilirler.
Ekip aynı zamanda özellikle büyük hareketler veya çeşitli ortamlarla da mücadele ettiğini söylüyor. Ayrıca yalnızca nispeten kısa videoları işleyebilir.
Bu, platformun kendi avatar modellerinden bağımsız olarak çalışan Meta Quest veya Apple Vision Pro gibi başlıklardaki VR ortamları için özellikle faydalı olabilir.
Yorumlar