Опиши скучную веб-рутину словами — и смотри, как бот сам кликает по сайту

Смотри, идея на одну строку: ты описываешь словами скучную веб-возню — «зайди в мой личный кабинет, выгрузи чеки за месяц в один файл» — и приложение делает это само, кликая по настоящему сайту. Ты видишь, как курсор ходит по экрану, открывает вкладки, жмёт кнопки. Как будто за тебя сел человек и разобрался.
И это не тот агент, что гуглит и приносит таблицу. Это агент, который работает руками в настоящем интерфейсе — там, где нет удобного API, а есть только сайт с кнопками.
Почему это только что стало возможно
Раньше «автоматизировать сайт» значило писать скрипт, который ищет кнопку по её коду: «нажми элемент с id submit-btn». Хрупко до слёз — сайт чуть перерисовали, кнопка переехала, скрипт умер. Такое мог только тот, кто дружит с кодом, и чинить приходилось постоянно.
В июне 2026 Google открыл Computer Use в модели Gemini 3.5 Flash (gemini-3.5-flash). Дословно из доки: модель «по скриншотам видит экран и действует, порождая конкретные действия — клики мышью и ввод с клавиатуры». То есть она смотрит на картинку экрана, как ты, и сама решает, куда нажать — по браузеру, мобиле или десктопу. Кнопку передвинули — ей всё равно, она её просто видит. Вот на этой новой штуке проект и едет.
Чему научишься
Это самый честный способ понять, как вообще устроен агент:
- Цикл агента. Ты шлёшь скриншот + цель → модель возвращает действие («кликни сюда») → твой код его выполняет → делаешь новый скриншот → повторяешь. Пока задача не готова.
- Нормализованные координаты — почему модель говорит «жми в точке 0.5, 0.3», а не в пикселях, и как это перевести в реальный клик.
- Человек в петле. Модель сама помечает опасные шаги флагом
require_confirmation— оплата, удаление, отправка сообщений. На них твоё приложение обязано спросить тебя, прежде чем жать. Это не занудство, а то, что отличает удобного помощника от бота, который случайно что-то оплатил.
Готовый стартовый промпт
Агенту нельзя давать размытую цель — он начнёт фантазировать. Дай чёткую задачу и границы:
сделай мои дела на этом сайтеСлабая цель — и агент побредёт кликать наугад. Сильная — с чёткой задачей и стоп-кранами на опасных шагах — делает ровно то, что нужно, и не творит лишнего.
Что получится
Ты открываешь браузер, пишешь задачу и смотришь, как курсор сам ходит по настоящему сайту: открыл раздел «Чеки», выбрал июнь, нажал «Скачать», собрал всё в один файл. А на кнопке «Оплатить подписку» — замер и спрашивает: «Точно жать?». Ты за пультом, но руками уже не возишься.
Трезво про рамки: это ещё медленно и иногда мажет мимо кнопки. И это причина главного правила — не давай агенту доступ к деньгам и чужим аккаунтам без присмотра. Для того и require_confirmation: держи руку на паузе. Начинай на своём тестовом или публичном сайте, а не на банке.
План на выходные
- Пятница, вечер. Возьми ключ Gemini и запусти пример Computer Use из доки на безопасном сайте — своём тестовом или публичном. Просто дай цель и смотри, как он кликает.
- Суббота. Оберни в «опиши задачу словами → смотри, как делает». И сразу вкрути подтверждение на шагах с флагом
require_confirmation. - Воскресенье. Наведи на одну свою реальную скучную рутину — но без денег и чужих паролей. Выгрузка, сортировка, сбор — то, что не жалко доверить.
Начни с задачи в один-два клика. «Пройди весь сайт и всё сделай» оставь на потом — сначала пусть надёжно работает маленькое.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.





