VASA-1 е новият модел с изкуствен интелект на Microsoft. Удивителна технология, способна да създава реалистични аватари от две прости съставки: статично изображение и гласов клип. Ако се интересувате да научите повече за VASA-1 и неговите хиперреалистични аватари, генерирани от AI, препоръчваме ви да продължите да четете.
Изглеждаше, че Редмънд ще концентрира всичките си усилия върху развитието на този тип технология в асистента втори пилот. Инструмент, който съчетава езикови модели с приложения на Microsoft 365 Въпреки това изглежда, че плановете му са по-амбициозни. Доказателството за това се намира във VASA-1.
Какво е VASA-1?
VASA е акронимът на Приложение за визуални афективни умения, понятие, което може да се преведе като Приложение на визуално-афективни умения. Числото „1“ е ясна препратка, че това е само първата от дълъг списък от версии, които ще пристигнат в бъдеще, за да ни оставят още по-изненадани.
Какво прави VASA-1 толкова специален? Коя е вашата основна иновация? Вече има много приложения, способни да съживят снимки с движения, подобни на тези на GIF. Това, което този инструмент, създаден от екип изследователи на AI от Microsoft Research Asia, представя, е нещо много по-сложно: система с изкуствен интелект, която може да накара снимките да пеят и танцуват. Не става въпрос за анимация, а за нещо друго.
Резултатът е удивително реалистичен. Хиперреалистичен ще бъде най-подходящият термин. Този модел може да произвежда движения на устните, перфектно синхронизирани със звука, както и да улавя широк спектър от нюанси на лицето и естествени движения на главата. Като цяло, той представя ярък и автентичен образ, който не е виждан досега в други подобни инструменти.
В допълнение към това, инструментът също така позволява онлайн генериране на 512x512 видеоклипове с до 45 кадъра в секунда (малко по-малко, ако се използва в офлайн режим) с незначително първоначално забавяне. Това проправя пътя за взаимодействия в реално време с реалистични аватари, които дори могат да достигнат имитират човешкото разговорно поведение.
VASA-1: Няколко примера
Този метод показва способността за работа с широкоспектърни изображения и аудио файлове. По този начин могат да бъдат включени художествени снимки и дори аудиозаписи от различни езици, не само английски. В тази публикация сме включили няколко примера, които наистина ни оставят без думи. Трудно е да се каже, че лицата, които се появяват като говорят и жестикулират във видеоклиповете, не отговарят на тези на реални хора, а са аватари, създадени от изображения и аудио:
Всеки потребител с компютър със средна мощност (например Nvidia RTX 4090 GPU) може да използва този инструмент, за да генерира видеоклипове от това реалистично ниво само за няколко минути.
Впечатляващо е да видим как тези анимации комбинират изображения и аудио толкова ефективно, придавайки на говорещата глава пред нас необичайна степен на реализъм. Въпреки това, Експертите посочват, че все още има грешки, които разкриват фалшивия характер на тези изображения. Подробности, незабележими за повечето от нас, но които не убягват на най-добре обучените наблюдатели: някои фини дефекти и знаци, които разкриват намесата на AI.
Опасностите от инструмент, който е твърде прецизен
Този инструмент е толкова отличен и толкова реалистичен, че Microsoft не се осмели да предприеме стъпката да пусне дори отворена демонстрация. Загрижеността за злоупотребата и потенциалните опасности, които би представлявала за кражба на самоличност съветва да действате с голяма предпазливост.
Във всеки случай, на официалния уебсайт на Проект VASA-1, хостван на сайта на Microsoft, намираме интересно видео с продължителност малко повече от минута, в което можем да станем свидетели на процеса на създаване на тези хиперреалистични аватари:
По принцип методът се състои в избиране на изображение (човешко лице) и след това на аудио файл. След това AI ги „жени“. По време на процеса на създаване потребителят може да очертае множество нюанси чрез бутоните и лентите, които се появяват на интерфейса. Като инвестирате само малко време и креативност, можете да постигнете впечатляващи резултати.
В момента намеренията на разработчиците на VASA-1 са точно противоположни на генерирането на фалшиви и фишинг видеоклипове (или поне така твърдят). тоест помощ за откриване и борба с видеоклипове дълбока фалшива. Може да е вярно, тъй като никой не знае по-добре от тях как да измами човешкия ум чрез все по-мощни и прецизни инструменти за изкуствен интелект.
Въпреки това разработчиците на VASA-1 също настояват за подчертаване най-положителните аспекти от създаването му: подобряване на достъпността за хора с комуникационни затруднения, предлагане на компания или терапевтична подкрепа на тези, които се нуждаят от нея и други предимства, които произтичат от отговорното използване на AI. Предизвикателството е това да стане възможно.