Карманный переводчик, который не отстаёт от речи

Смотри, идея на одну строку: маленькое приложение-переводчик. Ты говоришь в телефон по-русски — а из него льётся английская (или любая другая) речь, пока ты ещё говоришь. Не «сказал → отправил → подождал → услышал», а почти синхронно, как у живого переводчика в наушнике.
И тут хитрая штука — раньше так просто не выходило. Обычный переводчик ждал, пока ты договоришь, потом отправлял всё целиком и держал паузу. В мае OpenAI выпустил голосовую модель gpt-realtime-translate: она переводит речь потоком, поспевая за говорящим — 70+ языков на входе. Вот на этом и держится вся «синхронность».
Почему именно это
Переводчиков в сторе тысяча. Но почти все они — про «набери текст, получи текст». А живой разговор так не идёт: пока ты печатаешь, собеседник уже ушёл. Голос, который не отстаёт, — это другой опыт. Им хочется показать друзьям и взять в поездку.
И «магии» тут немного. Приложение — это труба: поймало звук с микрофона, отдало модели потоком, проигрывает перевод. Всю работу делает одна голосовая модель.
Чему научишься
- Голос как ввод. Не текст и не картинка, а живой звук с микрофона. Совсем другой тип данных — и ты впервые с ним поработаешь.
- Поток вместо «запрос-ответ». Привычная петля «отправил целиком → получил целиком» тут не работает. Звук течёт кусками, и перевод течёт обратно. Это и есть realtime.
- «Промпт как настройка». Указываешь модели язык-цель и тон («переводи спокойно, на „ты“») — и поведение меняется без единой строчки логики.
Готовый стартовый промпт
Не проси агента «сделай голосовой переводчик» — он утонет в выборе библиотек. Дай сценарий, модель и границы:
Сделай приложение, которое переводит мою речь на английский голосом.Сильный промпт не оставляет места для догадок: видно сценарий, видно ровно ту модель, что нужна, видно поведение кнопки. Результат с первого раза ближе к тому, что ты хотел.
Что в итоге
Ты в кафе за границей. Жмёшь кнопку, говоришь «подскажите, где ближайшая аптека» — и телефон проговаривает это по-английски, пока ты ещё не закончил фразу. Официант отвечает — переключаешь флажок, и теперь перевод льётся обратно. Разговор идёт почти без пауз. Ты собрал это сам за выходные.
Начни с одной кнопки, доведи до конца — и у тебя будет переводчик, который не стыдно взять в поездку.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.
Источник: OpenAI — новые голосовые модели в API





