Одно фото и строчка текста — а на выходе говорящая открытка

Смотри, идея на одну строку: ты даёшь приложению одно фото и одну фразу — а на выходе короткий ролик, где картинка двигается и говорит твоим текстом. Открытка бабушке на день рождения, поздравление другу, мини-сторис про кота — десять секунд, которые хочется переслать.
И вот в чём свежесть: год назад так просто не вышло бы. Чтобы оживить фотографию, нужен был видеоредактор, отдельная озвучка, склейка губ со звуком — целый вечер мучений. А в мае Google показал Gemini Omni — модель, которая берёт на вход текст, картинку, аудио и видео сразу и выдаёт готовый ролик со звуком. Сундар Пичаи назвал это «создать что угодно из чего угодно». Один запрос — и из статичного фото получается живой клип. Вот на этом проект и едет.
Чему научишься
Проект маленький, но в нём целая петля «картинка + текст → видео», на которой потом строится куча приложений.
- Кормить модель сразу двумя входами. Не только текстом — ещё и картинкой. Это база любого мультимодального приложения.
- Писать промпт для движения. Описать, что именно должно происходить в кадре, а не просто «оживи».
- Сохранять результат как файл. Достать видео из ответа модели и записать его в
.mp4, который можно сразу переслать.
Готовый стартовый промпт
Не пиши «оживи это фото» — модель начнёт угадывать, что двигать и как. Дай ей кадр, действие и настроение:
Оживи это фото и добавь поздравление.Разница в том, что сильный промпт не оставляет места для догадок: ты получаешь именно ту открытку, которую задумал, с первого раза — а не случайное движение со случайным голосом.
Что получится в итоге
Файл postcard.mp4 на восемь секунд: фото ожило, человек улыбнулся и махнул рукой, голос произнёс твоё поздравление. Из обычного снимка из галереи — открытка, которую отправляешь в мессенджер и слышишь в ответ «вау, как ты это сделал?».
Начни с одной открытки для близкого человека, доведи до файла, который можно переслать — и у тебя на руках конвейер, который превращает любое фото в живое поздравление за минуту.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.
Источник: Gemini Omni, the 'create anything' model, starts today with lifelike video — 9to5Google




