Наводишь камеру на что угодно и спрашиваешь вслух — оно отвечает, видя то же, что и ты

Смотри, идея на одну строку: ты наводишь телефон на что угодно — щиток в коридоре, незнакомое растение, блюдо в меню на чужом языке, настолку с непонятными правилами — и просто спрашиваешь вслух: «что это, что мне делать?». А оно отвечает голосом, сразу, глядя в ту же камеру, что и ты. Не фоткаешь, не ждёшь, не печатаешь.
И вот что тут свежее. Раньше «покажи фото — получи ответ» работало по кадрам: снял картинку, отправил, подождал текст. Живого разговора с камерой не было. Теперь у Gemini есть Live API: он принимает непрерывный поток — звук и картинку с камеры разом — и отвечает голосом в реальном времени. И главное: его можно перебить на полуслове («нет, вон ту кнопку»), и он подхватит. Вот на этой новой штуке проект и едет.
Почему именно это
Жизнь подкидывает «а это что?» каждый день: незнакомый разъём, лампочка на панели машины, гриб в лесу, кнопка на стиралке. Гуглить — это остановиться, описать словами то, чего ты не знаешь как назвать, листать выдачу. А тут ты просто показываешь и спрашиваешь, как у друга, который рядом. Этим ты будешь пользоваться сам, и не раз.
И «магии» тут меньше, чем кажется. Приложение — это труба: берёт поток с камеры и микрофона, гонит его в модель, возвращает голос. Вся сложность — внутри одного готового инструмента.
Чему научишься
- Поток вместо «запрос-ответ». Ты привык: отправил — подождал — получил. Тут связь живая и не прерывается. Потрогаешь, как устроен realtime, на котором держатся звонки и голосовые ассистенты.
- Несколько входов разом. Модель слушает микрофон и смотрит в камеру одновременно — это мультимодальность в чистом виде, и ты соберёшь её руками.
- Перебивание как часть интерфейса. «Можно перебить» — это не баг, а фича. Ты поймёшь, почему живой диалог приятнее, чем «дослушай до конца».
Готовый стартовый промпт
Не проси агента «сделай приложение, которое смотрит в камеру» — он начнёт угадывать, как держать поток и кем должна быть модель. Дай сценарий, характер и границы:
Сделай приложение, которое смотрит в камеру и отвечает голосом.Сильный промпт не оставляет места для догадок: видно модель, видно, что стримим оба потока, видно характер ответов и что перебивать можно. Результат с первого раза ближе к тому, что ты хотел.
Что получится
Наводишь на щиток и спрашиваешь «какой автомат вырубил стиралку?» — слышишь: «верхний правый перещёлкнут вниз, подними его». Наводишь на меню в кафе за границей — оно читает и подсказывает, что из этого без мяса. Наводишь на растение, которое чахнет, — «листья желтеют от перелива, дай земле просохнуть». Не текст на экране, а спокойный голос рядом, который смотрит туда же, куда и ты.
План на выходные
- Возьми стартер Live API в Google AI Studio — там уже есть кнопка «попробовать вживую».
- Подключи к нему заднюю камеру и микрофон, чтобы оба потока шли в модель.
- Пропиши системную роль из промпта выше и включи перебивание.
- Проверь на трёх реальных вещах у себя дома — щиток, любая кнопка на технике, растение.
Один вечер на каркас, второй — на характер ответов, чтобы голос был коротким и спокойным, а не лекцией.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.





