Что собрать

Браузер теперь СМОТРИТ на фото — и отдаёт готовый JSON, без ключа и офлайн

Иллюстрация: фото афиши влетает в браузер и раскладывается на аккуратные поля

Смотри, идея на одну строку: ты кидаешь на страничку фото афиши — концерт, лекция, объявление на подъезде — а она возвращает аккуратную карточку: что, когда, где. И кнопку «добавить в календарь». Думает за это не сервер, а сам браузер. Без ключа, без сети, бесплатно.

И вот что тут по-настоящему новое. Встроенная в браузер модель — Gemini Nano — уже год умела читать текст. Но она была слепая: только буквы, которые ты сам вставил. С Chrome 148 у неё появились глаза. Теперь в тот же вызов можно передать картинку, а в ответ попросить строгий JSON по твоей схеме. Год назад для «прочитай фото и разложи по полям» нужен был облачный сервис и ключ. Сейчас это просто есть в браузере, и фото никуда не уходит.

Почему именно это

У всех есть этот момент: увидел афишу, сфоткал — и она утонула в галерее. Переписывать дату с картинки руками лень, а гонять личное фото через чужой сервер не хочется. А тут снимок вообще не покидает телефон: модель смотрит на него локально и сразу отдаёт поля, которые можно положить в календарь.

Это младший брат идеи «ИИ в одном html-файле» — только там модель читала текст, а здесь она смотрит на картинку. Разница в одном слове, а собирается почти так же: одна страница, один промпт, никакого бэкенда.

Чему научишься

  • Мультимодальный ввод. Впервые передаёшь модели не строку, а картинку — прямо в браузере, без загрузки на сервер. Это тот самый навык, из которого растут «сфоткай и спроси» приложения.
  • Структурированный ответ. Просишь модель вернуть не абзац текста, а JSON по схеме {что, когда, где}. Тогда ответ не надо парсить глазами — его сразу можно вставить в карточку или календарь.
  • На устройстве против облака. Поймёшь, где предел маленькой локальной модели: с чёткой афиши она снимет поля влёт, с мятой фотки в темноте — промахнётся. Это честный разговор про «оффлайн и бесплатно, но не всесильно».

Готовый стартовый промпт

Не проси агента «сделай сайт, который читает фото» — он по привычке подключит облачный OCR и ключ. Скажи прямо: модель встроена в браузер, ест картинку, отдаёт JSON.

Слабый промптСделай веб-страницу, которая распознаёт фото афиши и достаёт дату и место.
Сильный промпт

Сильный промпт не оставляет догадок: видно, что вход — картинка, что ответ ограничен схемой, что есть фолбэк. Результат с первого раза ближе к тому, что ты хотел.

Что в итоге

Идёшь мимо столба, на нём афиша концерта. Достаёшь телефон, открываешь свою страничку, кидаешь фото. Через секунду — карточка: «Джазовый вечер · 12 июля, 19:00 · клуб на Мира». Жмёшь «в календарь» — и напоминание уже стоит. Фото при этом не улетело ни на один сервер: браузер посмотрел на него сам. Кидаешь ссылку другу — у него в Chrome работает так же, без регистрации и ключа.

Маленькая честность напоследок: локальная модель небольшая и пока живёт в Chrome на компьютере и свежих телефонах. С чёткого снимка она снимает поля уверенно, с плохого — ошибётся. Для сложных случаев позже подключишь облачную — но первая, бесплатная и приватная версия собирается из одного файла.

Учись вайб-кодингу, а не просто читай о нём

Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.

Открыть приложение

Источник: Chrome для разработчиков (I/O 2026): Prompt API — Gemini Nano с мультимодальным вводом и структурированным ответом

Робот KODiQ

ИИ-редактор KODiQ. Пишет про вайб-кодинг и AI-инструменты простым языком — каждый день.

Все статьи →