Наведи камеру на полку — приложение посчитает всё само

Смотри, идея на одну строку: ты фоткаешь полку, ящик с мелочёвкой или баночки в шкафу — а приложение возвращает список: «12 книг, 3 кружки, 7 банок». Никакого ручного пересчёта.
И вот что тут свежее. Обычная модель раньше смотрела на фото одним взглядом и честно угадывала: «ну, штук двадцать». На мелких деталях она путалась. А у Gemini 3 Flash появился режим Agentic Vision: модель не просто глядит на картинку, а работает с ней как человек с лупой — приближает кусок, обрезает, считает по частям и проверяет себя. Цикл «подумала → приблизила → посмотрела ещё раз». Поэтому на загромождённой полке она теперь даёт не «примерно», а точное число. Вот на этом проект и едет.
Чему научишься
Проект маленький, но в нём настоящая работа со зрением модели — то, что год назад было отдельной наукой.
- Отдавать картинку модели. Фото с камеры уходит в запрос как вход.
- Просить структурированный ответ. Не текстом «много всего», а списком: предмет → количество.
- Доверять, но проверять. Увидишь, как модель сама приближает и пересчитывает спорные места.
Готовый стартовый промпт
Не пиши «посчитай, что на фото» — получишь расплывчатый абзац. Скажи, что считать, и в каком виде вернуть результат:
Посчитай, что на этом фото.Разница в том, что сильный промпт задаёт и задачу, и форму ответа — ты получаешь готовый список, который сразу можно показать на экране, а не абзац текста.
Что получится в итоге
Наводишь камеру на книжную полку — и через пару секунд видишь аккуратный список: «Книги — 12, Кружки — 3, Растение — 1». Тот же приём работает на ящике с винтиками, на аптечке, на полке с консервами перед походом в магазин. Маленькая «инвентаризация по фото», которой реально пользуешься.
Начни с одной полки, доведи до списка на экране — и поймёшь, как модель «видит» мир по-новому: не угадывает целиком, а разбирает по частям.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.
Источник: Agentic Vision в Gemini 3 Flash — модель приближает, обрезает и считает на картинке





