Браузер теперь СМОТРИТ на фото — и отдаёт готовый JSON, без ключа и офлайн

Смотри, идея на одну строку: ты кидаешь на страничку фото афиши — концерт, лекция, объявление на подъезде — а она возвращает аккуратную карточку: что, когда, где. И кнопку «добавить в календарь». Думает за это не сервер, а сам браузер. Без ключа, без сети, бесплатно.
И вот что тут по-настоящему новое. Встроенная в браузер модель — Gemini Nano — уже год умела читать текст. Но она была слепая: только буквы, которые ты сам вставил. С Chrome 148 у неё появились глаза. Теперь в тот же вызов можно передать картинку, а в ответ попросить строгий JSON по твоей схеме. Год назад для «прочитай фото и разложи по полям» нужен был облачный сервис и ключ. Сейчас это просто есть в браузере, и фото никуда не уходит.
Почему именно это
У всех есть этот момент: увидел афишу, сфоткал — и она утонула в галерее. Переписывать дату с картинки руками лень, а гонять личное фото через чужой сервер не хочется. А тут снимок вообще не покидает телефон: модель смотрит на него локально и сразу отдаёт поля, которые можно положить в календарь.
Это младший брат идеи «ИИ в одном html-файле» — только там модель читала текст, а здесь она смотрит на картинку. Разница в одном слове, а собирается почти так же: одна страница, один промпт, никакого бэкенда.
Чему научишься
- Мультимодальный ввод. Впервые передаёшь модели не строку, а картинку — прямо в браузере, без загрузки на сервер. Это тот самый навык, из которого растут «сфоткай и спроси» приложения.
- Структурированный ответ. Просишь модель вернуть не абзац текста, а JSON по схеме
{что, когда, где}. Тогда ответ не надо парсить глазами — его сразу можно вставить в карточку или календарь. - На устройстве против облака. Поймёшь, где предел маленькой локальной модели: с чёткой афиши она снимет поля влёт, с мятой фотки в темноте — промахнётся. Это честный разговор про «оффлайн и бесплатно, но не всесильно».
Готовый стартовый промпт
Не проси агента «сделай сайт, который читает фото» — он по привычке подключит облачный OCR и ключ. Скажи прямо: модель встроена в браузер, ест картинку, отдаёт JSON.
Сделай веб-страницу, которая распознаёт фото афиши и достаёт дату и место.Сильный промпт не оставляет догадок: видно, что вход — картинка, что ответ ограничен схемой, что есть фолбэк. Результат с первого раза ближе к тому, что ты хотел.
Что в итоге
Идёшь мимо столба, на нём афиша концерта. Достаёшь телефон, открываешь свою страничку, кидаешь фото. Через секунду — карточка: «Джазовый вечер · 12 июля, 19:00 · клуб на Мира». Жмёшь «в календарь» — и напоминание уже стоит. Фото при этом не улетело ни на один сервер: браузер посмотрел на него сам. Кидаешь ссылку другу — у него в Chrome работает так же, без регистрации и ключа.
Маленькая честность напоследок: локальная модель небольшая и пока живёт в Chrome на компьютере и свежих телефонах. С чёткого снимка она снимает поля уверенно, с плохого — ошибётся. Для сложных случаев позже подключишь облачную — но первая, бесплатная и приватная версия собирается из одного файла.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.





