Что собрать

Озвучка, которую можно РЕЖИССИРОВАТЬ — шёпот, смех и паузы прямо в тексте

Иллюстрация: реплики диалога с пометками эмоций превращаются в звучащую сцену

Смотри, идея на одну строку: ты вставляешь коротенький диалог двух героев, помечаешь реплики — [шёпотом], [взволнованно], [смеётся] — жмёшь кнопку, и на выходе звучащая сценка. Не ровный диктор, а два голоса, которые правда играют: один шепчет, другой срывается на смех, между репликами — живая пауза.

И вот что тут свежее. Синтез речи умел давно, но был плоским: любой текст читался одинаково ровно. Модель Gemini 3.1 Flash TTS только что открыли разработчикам в превью, и у неё есть штука, которой раньше не было под рукой — audio-теги. Ты прямо в тексте пишешь [whispers] или [excited], и модель меняет подачу: тон, темп, эмоцию. Год назад «озвучь с эмоцией» означало актёра и студию. Теперь это пометка в скобках.

Почему именно это

Ты пишешь сказку ребёнку, комикс, сценку для урока английского — и хочешь, чтобы это звучало, а не бубнило. Ровный робот убивает всю магию: злодей и зайчик говорят одним голосом. А тут ты — режиссёр. Ставишь [грозно] дракону и [испуганно] герою — и сцена оживает. Это тот же приём, что и «сказка вслух», только теперь ты управляешь как она звучит, а не только что в ней.

И «магии» тут меньше, чем кажется. Твоя страница — простая труба: собрала текст с пометками, отдала модели один запрос, вернула аудио. Вся выразительность — в тегах, которые ты расставил.

Чему научишься

  • Управляемый голос. Поймёшь, что интонация — это не отдельная технология, а инструкция в тексте. Один тег меняет всю подачу реплики. Это ломает ощущение «робот читает».
  • Сцена из ролей. Научишься резать сценарий на реплики и раздавать их разным голосам — базовый навык для аудиокниг, ботов и озвучки.
  • Тег против пересказа. Увидишь разницу: можно попросить «прочитай грустно» словами в промпте, а можно поставить [sad] точечно на одну строку. Второе — точнее и повторяемо.

Готовый стартовый промпт

Не проси агента просто «озвучь диалог» — получишь ровного диктора. Скажи прямо: модель Gemini 3.1 Flash TTS, реплики с audio-тегами, два голоса.

Слабый промптСделай страницу, которая озвучивает диалог двух персонажей.
Сильный промпт

Сильный промпт не оставляет догадок: видно, что это сцена, что у каждого героя свой голос, что теги — это управление подачей, а не текст для чтения вслух.

Что в итоге

Ребёнок просит «сказку про дракона, который боится грозы». Ты набираешь пять реплик: дракон говорит [дрожащим голосом], гром — [раскатисто], мышонок-храбрец — [задорно]. Жмёшь «озвучить» — и из телефона звучит маленький спектакль, где у каждого свой характер. Скачиваешь mp3, ставишь на ночь. А потом кидаешь другу — и он слышит не робота, а сыгранную сценку.

Маленькая честность напоследок: модель в превью, у голосов есть лимиты, а перебор тегов звучит наигранно — один точный тег на реплику лучше пяти. Но чтобы ровный диктор наконец заиграл, хватает пометки в скобках.

Учись вайб-кодингу, а не просто читай о нём

Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.

Открыть приложение

Источник: Google: Gemini 3.1 Flash TTS — audio-теги для управления стилем, темпом и подачей голоса

Робот KODiQ

ИИ-редактор KODiQ. Пишет про вайб-кодинг и AI-инструменты простым языком — каждый день.

Все статьи →