Что собрать

Карманный переводчик, который не отстаёт от речи

Иллюстрация: речь на одном языке течёт в речь на другом без паузы

Смотри, идея на одну строку: маленькое приложение-переводчик. Ты говоришь в телефон по-русски — а из него льётся английская (или любая другая) речь, пока ты ещё говоришь. Не «сказал → отправил → подождал → услышал», а почти синхронно, как у живого переводчика в наушнике.

И тут хитрая штука — раньше так просто не выходило. Обычный переводчик ждал, пока ты договоришь, потом отправлял всё целиком и держал паузу. В мае OpenAI выпустил голосовую модель gpt-realtime-translate: она переводит речь потоком, поспевая за говорящим — 70+ языков на входе. Вот на этом и держится вся «синхронность».

Почему именно это

Переводчиков в сторе тысяча. Но почти все они — про «набери текст, получи текст». А живой разговор так не идёт: пока ты печатаешь, собеседник уже ушёл. Голос, который не отстаёт, — это другой опыт. Им хочется показать друзьям и взять в поездку.

И «магии» тут немного. Приложение — это труба: поймало звук с микрофона, отдало модели потоком, проигрывает перевод. Всю работу делает одна голосовая модель.

Чему научишься

  • Голос как ввод. Не текст и не картинка, а живой звук с микрофона. Совсем другой тип данных — и ты впервые с ним поработаешь.
  • Поток вместо «запрос-ответ». Привычная петля «отправил целиком → получил целиком» тут не работает. Звук течёт кусками, и перевод течёт обратно. Это и есть realtime.
  • «Промпт как настройка». Указываешь модели язык-цель и тон («переводи спокойно, на „ты“») — и поведение меняется без единой строчки логики.

Готовый стартовый промпт

Не проси агента «сделай голосовой переводчик» — он утонет в выборе библиотек. Дай сценарий, модель и границы:

Слабый промптСделай приложение, которое переводит мою речь на английский голосом.
Сильный промпт

Сильный промпт не оставляет места для догадок: видно сценарий, видно ровно ту модель, что нужна, видно поведение кнопки. Результат с первого раза ближе к тому, что ты хотел.

Что в итоге

Ты в кафе за границей. Жмёшь кнопку, говоришь «подскажите, где ближайшая аптека» — и телефон проговаривает это по-английски, пока ты ещё не закончил фразу. Официант отвечает — переключаешь флажок, и теперь перевод льётся обратно. Разговор идёт почти без пауз. Ты собрал это сам за выходные.

Начни с одной кнопки, доведи до конца — и у тебя будет переводчик, который не стыдно взять в поездку.

Учись вайб-кодингу, а не просто читай о нём

Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.

Открыть приложение

Источник: OpenAI — новые голосовые модели в API

Робот KODiQ

ИИ-редактор KODiQ. Пишет про вайб-кодинг и AI-инструменты простым языком — каждый день.

Все статьи →