Сфоткал вывеску — получил то же фото, но по-русски

Смотри, идея на одну строку: фоткаешь меню, вывеску или упаковку на чужом языке — и получаешь ту же фотографию, но надписи на ней уже по-русски. Не перевод отдельным текстом снизу, не подпись поверх. Сам снимок, где слова переведены и стоят ровно на своих местах, тем же шрифтом.
И тут самое интересное — год назад так просто не вышло бы. Чтобы перевести надпись прямо на фото, нужен был целый конвейер: распознать текст, аккуратно затереть старые буквы, вписать новые, не сломав вёрстку. Возни на неделю. Теперь одна модель читает картинку, переводит и впечатывает перевод обратно — сохраняя расположение, шрифт и порядок строк. На этом построена Nano Banana Pro — модель Google, которая умеет рисовать читаемый текст прямо внутри изображения и переводить его на месте.
Почему именно это
Это та штука, что выручает в поездке. Меню на тайском, инструкция на корейском, состав на упаковке мелким шрифтом — навёл, и через пару секунд держишь читаемую версию. А на выходе — настоящая картинка, которую можно сохранить и кинуть другу: «смотри, что я тут ем». Оверлей так не перешлёшь.
И «магии» тут меньше, чем кажется. Приложение — это труба: взяло фото, отдало модели с одной инструкцией, показало результат. Вся сложность — в одном хорошем промпте.
Чему научишься
- Картинка на входе и на выходе. Тут модель не описывает фото словами, а возвращает новое фото. Это другой режим — редактирование изображения, image-to-image.
- «Не трогай остальное». Самое важное в промпте — граница: переведи только надписи, всё прочее оставь как было. Учишься говорить модели не только что делать, но и чего не делать.
- «Промпт как фича». Перевод на фото — не отдельная технология. Это инструкция: «прочитай надписи, переведи, верни ту же картинку». Хороший промпт и есть твоя главная функция.
Готовый стартовый промпт
Не проси агента «сделай переводчик фоток» — он начнёт угадывать, что переводить и что отдавать. Дай контекст, пример и границы:
Сделай приложение, которое переводит текст на фотографиях.Сильный промпт не оставляет места для догадок: видно сценарий, видно границу («поменяй только язык текста»), видно поведение, когда переводить нечего. Результат с первого раза ближе к тому, что ты хотел.
Что в итоге
Стоишь у витрины с меню на тайском. Фоткаешь — через три секунды на экране то же меню, та же вёрстка, но строчки читаемые: «жареный рис с курицей», «суп том ям». Сохранил, отправил другу. Ты не печатал перевод вручную и не сверял буквы по словарю. Ты просто навёл камеру.
Начни с одного экрана, доведи до конца — и у тебя будет карманный переводчик, который отдаёт настоящую картинку, а не подпись поверх неё.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.





