Один промпт — целое приложение: пять агентов, и победил не лучший
Смотри, что мы устроили. Взяли пять популярных код-агентов и дали всем одно задание — «собери простой трекер привычек с ежедневной серией». Дальше — молчим. Никаких подсказок сверх первого промпта. Секундомер тикает.
Победителя мы не искали. Хотелось увидеть другое: где каждый силён, где спотыкается и как часто тебе самому придётся вмешаться, чтобы всё не съехало.
Как мы оценивали
Каждый прогон мерили по одним и тем же четырём осям — так сравнение честнее:
- Время до первой рабочей версии — сколько прошло, пока что-то реально запустилось.
- Качество кода — читаемость, вменяемая структура, без явных граблей.
- Самовосстановление — заметил ли агент свою ошибку и починил ли её сам?
- Вмешательства — сколько раз пришлось править курс руками.
И вот тут стало интересно. Разброс оказался шире, чем мы ждали. Самый быстрый агент выдал рабочее приложение меньше чем за три минуты. Самый дотошный возился дольше — зато написал код, который не стыдно оставить. Скорость и качество почти никогда не уживались в одном прогоне.
Лучшим оказался не тот агент, который написал больше всего кода, — а тот, кто задал правильный уточняющий вопрос, прежде чем писать хоть строчку.
Что это значит для тебя
Тебе не нужен «лучший» агент. Тебе нужен тот, чьи повадки совпадают с твоими. Любишь проверять каждый шаг — бери агента помедленнее и подробнее, он сэкономит тебе уборку потом. Хочешь быстрый черновик, чтобы оттолкнуться, — тут рулит голая скорость.
А вот что сработало во всех пяти прогонах сразу: чем чётче ты ставишь задачу, тем чётче ответ. Инструмент решал меньше, чем твой промпт. Так что качай не агента — качай умение объяснять.