Что собрать

Задаёшь тему — и сказка начинает звучать сразу, ещё пока пишется

Иллюстрация: из открытой книжки сразу льётся голос

Смотри, идея на одну строку: ребёнок говорит «хочу про дракончика, который боится темноты» — ты жмёшь кнопку, и через секунду из телефона звучит голос: «Жил-был маленький дракон…». Историю никто заранее не писал и не записывал. Её придумывают и читают вслух прямо сейчас, на ходу.

И вот что тут свежее — и почему год назад так просто не вышло бы. Озвучка текста умела одно: получить весь текст, отрендерить целый аудиофайл, и только потом начать играть. Для сказки это смерть: полминуты тишины, ребёнок смотрит в крутящийся кружок, магия испарилась. 17 июня Google включил у модели gemini-3.1-flash-tts-preview потоковую озвучку: звук начинает литься с первого куска, не дожидаясь конца. Голос стартует почти мгновенно — как будто Кодик и правда рассказывает, а не зачитывает готовое. Вот на этой новой штуке проект и едет.

Почему именно это

Сказку на ночь просят каждый вечер, а сил выдумывать новую — нет. Готовые приедаются, аудиокниги звучат как диктор из лифта. «Назвал тему — Кодик тут же рассказывает своим голосом» закрывает ровно это: бесконечный запас историй, каждая под настроение, и начинается сразу. Этим ты будешь пользоваться сам — и не только с детьми: так же можно слушать пересказ статьи или короткий разбор темы, пока чистишь зубы.

И «магии» тут меньше, чем кажется. Приложение — это труба: взяло тему, попросило модель сочинить и озвучить потоком, и сразу заиграло звук. Вся сложность — в одном хорошем промпте.

Чему научишься

  • Потоковый ответ. Не «дождись всего файла», а «играй по мере поступления». Разница между спиннером на полминуты и голосом через секунду — это и есть стриминг.
  • Озвучка как часть модели. Текст и звук рождаются в одном запросе, тебе не нужен отдельный сервис «прочитай вслух».
  • Промпт как сценарий. Тон, возраст слушателя, длина, добрый финал — это не настройки, а инструкция модели. Хороший промпт и есть твоя главная фича.

Готовый стартовый промпт

Не проси агента «сделай генератор сказок» — он начнёт угадывать длину, тон и формат. Дай контекст, пример и границы:

Слабый промптСделай приложение, которое рассказывает детям сказки.
Сильный промпт

Сильный промпт не оставляет места для догадок: видно возраст слушателя, длину, тон, видно, что звук надо брать потоком и играть сразу. Результат с первого раза ближе к тому, что ты хотел.

Что получится в итоге

Ребёнок просит «про кота-космонавта». Ты жмёшь «рассказать» — и почти без паузы Кодик начинает: «Кот Мурзик надел шлем и полетел к Луне…». История разворачивается голосом, пока её саму ещё дописывают где-то на сервере. Нет спиннера, нет тишины, нет «подожди, грузится». Просто назвал тему — и тебе уже рассказывают.

Начни с одной темы и одной кнопки — и у тебя будет штука, которая выдаёт бесконечный запас историй, и каждая начинает звучать сразу, как ты её попросил.

Учись вайб-кодингу, а не просто читай о нём

Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.

Открыть приложение

Источник: Gemini API: потоковая озвучка у gemini-3.1-flash-tts (changelog, 17 июня 2026)

Робот KODiQ

ИИ-редактор KODiQ. Пишет про вайб-кодинг и AI-инструменты простым языком — каждый день.

Все статьи →