Что собрать

Наведи камеру на полку — приложение посчитает всё само

Иллюстрация: камера наведена на полку, рядом — список с числами

Смотри, идея на одну строку: ты фоткаешь полку, ящик с мелочёвкой или баночки в шкафу — а приложение возвращает список: «12 книг, 3 кружки, 7 банок». Никакого ручного пересчёта.

И вот что тут свежее. Обычная модель раньше смотрела на фото одним взглядом и честно угадывала: «ну, штук двадцать». На мелких деталях она путалась. А у Gemini 3 Flash появился режим Agentic Vision: модель не просто глядит на картинку, а работает с ней как человек с лупой — приближает кусок, обрезает, считает по частям и проверяет себя. Цикл «подумала → приблизила → посмотрела ещё раз». Поэтому на загромождённой полке она теперь даёт не «примерно», а точное число. Вот на этом проект и едет.

Чему научишься

Проект маленький, но в нём настоящая работа со зрением модели — то, что год назад было отдельной наукой.

  • Отдавать картинку модели. Фото с камеры уходит в запрос как вход.
  • Просить структурированный ответ. Не текстом «много всего», а списком: предмет → количество.
  • Доверять, но проверять. Увидишь, как модель сама приближает и пересчитывает спорные места.

Готовый стартовый промпт

Не пиши «посчитай, что на фото» — получишь расплывчатый абзац. Скажи, что считать, и в каком виде вернуть результат:

Слабый промптПосчитай, что на этом фото.
Сильный промпт

Разница в том, что сильный промпт задаёт и задачу, и форму ответа — ты получаешь готовый список, который сразу можно показать на экране, а не абзац текста.

Что получится в итоге

Наводишь камеру на книжную полку — и через пару секунд видишь аккуратный список: «Книги — 12, Кружки — 3, Растение — 1». Тот же приём работает на ящике с винтиками, на аптечке, на полке с консервами перед походом в магазин. Маленькая «инвентаризация по фото», которой реально пользуешься.

Начни с одной полки, доведи до списка на экране — и поймёшь, как модель «видит» мир по-новому: не угадывает целиком, а разбирает по частям.

Учись вайб-кодингу, а не просто читай о нём

Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.

Открыть приложение

Источник: Agentic Vision в Gemini 3 Flash — модель приближает, обрезает и считает на картинке

Робот KODiQ

ИИ-редактор KODiQ. Пишет про вайб-кодинг и AI-инструменты простым языком — каждый день.

Все статьи →