EMO Project: генериране на видеоклипове от снимка на човек

  • Проектът EMO генерира експресивни видеоклипове от статични снимки, включвайки звук и движение.
  • Разработен от екип в Института за интелигентни компютри на Alibaba, той използва усъвършенстван изкуствен интелект.
  • Резултатите са изключително реалистични, карайки историческите портрети да говорят и пеят.
  • Съществуват етични опасения относно злонамереното използване на тази технология, което подчертава необходимостта от регулиране.

Емо

Започваме да виждаме с учудване някои от нещата, които изкуственият интелект е способен да прави, приложени към ежедневните ни устройства. Резултатите са наистина изненадващи и това е само върхът на айсберга. Добър пример е Проект ЕМО, който се състои в генериране на изразителни видеоклипове от снимки и портрети.

С други думи: това е технология, която дава живот на статичните снимки, придавайки им звук и движение. В тази публикация ще обясним в какво се състои тази идея с някои интересни примери.

Какво представлява проектът EMO?

ЕМО е акронимът на Емоционален портрет жив, проект, разработен от Linrui Tian, ​​​​Qi Wang, Bang Zhang и Liefeng Bo, трима инженери от Институт по интелигентни изчисления, която е част от китайския технологичен и бизнес конгломерат Alibaba.

По думите на създателите му, това е система за експресивно генериране на аудио-видео портрети. Това е доста грубо определение на какво е способен Project EMO: вземете образа на човек и му придайте израз, глас и движение. Изглежда като магия.

Това не са прости трикове за анимация, които всяко приложение може да направи, а по-скоро щателна и прецизна работа което се отразява в широк спектър от изражения на лицето, както и движения на главата и устните. Към това се добавя аудиото, което също определя формата на тези движения.

От друга страна, генерираните видеоклипове могат да имат неограничена продължителност. Те всъщност зависят от дължината на видеоклипа, на който са базирани.

Как действа тя?

Работата на този невероятен инструмент е обяснена подробно на самата страница. уебсайт на проекта. Методът е структуриран в две различни фази:

    1. Начална фаза на кодиране в който се изучават всички аспекти на началното (или референтното) изображение, за да се разбере по-добре какво движение и анимация могат да бъдат приложени към него.
    2. Фаза на обработка. В него предварително обучен аудио енкодер обработва аудио вграждането, докато се прилага слой или маска за генериране на лицево изображение.

Някои детайли от този процес трябва да бъдат подчертани, фокусирани върху премахването на шума и запазването на идентичността на героя. От друга страна, други темпорални модули се използват за регулиране на продължителността на видеото и скоростта на движение.

Резултатите, които ще представим по-долу (дали всеки портрет да говори или дори да пее), могат да се определят само като впечатляващи. AI намесата служи за постигане високи нива на реализъм, способни напълно да ни излъжат. Което все още е смущаващо, наистина.

Проект ЕМО. Няколко примера:

Нека да покажем няколко примера за какво може да постигне тази технология. Както ще видите, можем да използваме изображение на реален герой или такъв, генериран от AI. Можем да го накараме да се движи и жестикулира, да говори на езика, който искаме (да казваме това, което искаме да каже) и дори да го накараме да пее. Истински вундеркиндии.

Това са няколко видеоклипа със снимки, които проектът EMO кара да говорим. Актрисата Одри Хепбърн оживява, за да ни каже за правото на хората да плачат и да изразяват чувствата си:

Можете също така да накарате герои, които не са направени от плът и кръв, да говорят. Тук имаме Мона Лиза, от Леонардо да Винчи, на когото EMO Project е вдъхнал живот, за да рецитира монолога на Розалинда в пиесата "Както искаш" от Уилям Шекспир:

Любопитно е, че можем също да заснемем изображения на истински актьори и да ги накараме да кажат каквото и да било. В този случай виждаме Рафаел Финикс в известната си роля на Жокера, но произнасяне на текст, който съответства на различен филм, Черният рицар.

Сега да преминем към света на музиката. В следващия пример генериран от изкуствен интелект символ с име Сора изпълни песента „Не започвай сега“ de Дуа Липа. Резултатът е удивително човешки:

Накрая ви представяме много млад Леонардо Дикаприо пее темата на филма Годзила съставен от рапър Еминем:

Етични и правни съображения

Използването (или по-скоро злоупотребата) с изкуствения интелект в момента е в центъра на дебата. разрушителна технология, чиито граници и възможности все още не сме в състояние да надникнем и които, злоупотребявани, биха могли да имат отрицателни последици в много различни аспекти.

За да покрият гърба си, на страницата на EMO Project те ясно показват, че всичките им тестове и творения са предназначени единствено за академични изследвания и демонстрация на ефекти. Няма нужда да търсите скрити мотиви. Въпреки това, технология, която може да постигне такава степен на прецизност и реализъм, представлява реална опасност за всеки, който желае да я използва за извършване на измами, кражба на самоличност и други престъпления.