Покажи ей свой экран и спроси вслух — она видит, что у тебя открыто, и ведёт по шагам

Смотри, идея на одну строку: ты застрял в программе — не находишь, где в настройках включить двухфакторку, или таблица в Excel считает не то. Ты делишься с приложением экраном и спрашиваешь вслух: «где это включить?». А оно смотрит на твой настоящий экран и ведёт голосом: «видишь шестерёнку слева внизу? нажми её… теперь вкладку „Безопасность“…». Как друг, который заглянул через плечо.
И вот что тут свежее. Раньше, чтобы ИИ помог с экраном, ты делал скриншот, кидал его и на словах объяснял, что где. Живьём он твой экран не видел. Теперь Gemini Live API принимает поток с экрана так же, как поток с камеры, — и говорит в реальном времени, пока ты тыкаешь. Не нашёл кнопку — перебиваешь: «у меня нет такой вкладки», и он подстраивается. Вот на этой новой штуке проект и едет.
Почему именно это
«Где это включить» — самая частая боль с любой программой. Скриншот в чат — это пауза, описание словами и игра в «угадай, что у меня на экране». А тут модель видит ровно то, что видишь ты, и говорит, не отрывая тебя от дела. Особенно выручает того, кому ты обычно объясняешь по телефону: маму, бабушку, нового сотрудника. Поставил им такое — и звонков «а куда нажать?» стало меньше.
И «магии» тут меньше, чем кажется. Приложение — это труба: берёт поток с экрана и микрофона, гонит в модель, возвращает голос. Вся сложность — внутри одного готового инструмента.
Чему научишься
- Экран как вход для модели. Раньше ты отправлял текст или фото. Теперь — живой поток того, что на экране. Это новый тип входа, и ты потрогаешь его руками.
- Ответ, привязанный к тому, что реально открыто. Модель подсказывает не «вообще», а про конкретную кнопку у тебя на экране. Меньше выдумок — она не сочиняет, а смотрит.
- Диалог по шагам. Хороший наставник не вываливает десять пунктов разом. Ты научишь модель давать по одному шагу и ждать — и поймёшь, почему так понятнее.
Готовый стартовый промпт
Не проси агента «сделай помощника по экрану» — он начнёт угадывать, как держать поток и сколько вываливать за раз. Дай сценарий, характер и границы:
Сделай приложение, которое смотрит на экран и помогает.Сильный промпт не оставляет места для догадок: видно модель, видно, что стримим экран и звук, видно, что подсказки идут по одному шагу и про конкретный элемент. Результат с первого раза ближе к тому, что ты хотел.
Что получится
Делишься экраном настроек и спрашиваешь «где включить двухфакторку?» — слышишь: «шестерёнка внизу слева… теперь „Безопасность“… вон тот переключатель». Открыл Excel, формула не считает — оно смотрит и говорит, что в ячейке лишний пробел. Заполняешь госуслуги и не понимаешь поле — подсказывает, что туда писать. Не текст, который ещё надо приложить к своему экрану, а голос, который уже на него смотрит.
План на выходные
- Возьми стартер Live API в Google AI Studio — там уже есть «попробовать вживую».
- Подключи к нему шеринг экрана и микрофон, чтобы оба потока шли в модель.
- Пропиши системную роль из промпта выше: по одному шагу, про конкретный элемент, можно перебивать.
- Проверь на трёх реальных застреваниях — настройки телефона, формула в таблице, любая форма в браузере.
Один вечер на каркас, второй — на характер: чтобы вёл по шагам и не сыпал всё разом.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.





