Озвучка, которую можно РЕЖИССИРОВАТЬ — шёпот, смех и паузы прямо в тексте

Смотри, идея на одну строку: ты вставляешь коротенький диалог двух героев, помечаешь реплики — [шёпотом], [взволнованно], [смеётся] — жмёшь кнопку, и на выходе звучащая сценка. Не ровный диктор, а два голоса, которые правда играют: один шепчет, другой срывается на смех, между репликами — живая пауза.
И вот что тут свежее. Синтез речи умел давно, но был плоским: любой текст читался одинаково ровно. Модель Gemini 3.1 Flash TTS только что открыли разработчикам в превью, и у неё есть штука, которой раньше не было под рукой — audio-теги. Ты прямо в тексте пишешь [whispers] или [excited], и модель меняет подачу: тон, темп, эмоцию. Год назад «озвучь с эмоцией» означало актёра и студию. Теперь это пометка в скобках.
Почему именно это
Ты пишешь сказку ребёнку, комикс, сценку для урока английского — и хочешь, чтобы это звучало, а не бубнило. Ровный робот убивает всю магию: злодей и зайчик говорят одним голосом. А тут ты — режиссёр. Ставишь [грозно] дракону и [испуганно] герою — и сцена оживает. Это тот же приём, что и «сказка вслух», только теперь ты управляешь как она звучит, а не только что в ней.
И «магии» тут меньше, чем кажется. Твоя страница — простая труба: собрала текст с пометками, отдала модели один запрос, вернула аудио. Вся выразительность — в тегах, которые ты расставил.
Чему научишься
- Управляемый голос. Поймёшь, что интонация — это не отдельная технология, а инструкция в тексте. Один тег меняет всю подачу реплики. Это ломает ощущение «робот читает».
- Сцена из ролей. Научишься резать сценарий на реплики и раздавать их разным голосам — базовый навык для аудиокниг, ботов и озвучки.
- Тег против пересказа. Увидишь разницу: можно попросить «прочитай грустно» словами в промпте, а можно поставить
[sad]точечно на одну строку. Второе — точнее и повторяемо.
Готовый стартовый промпт
Не проси агента просто «озвучь диалог» — получишь ровного диктора. Скажи прямо: модель Gemini 3.1 Flash TTS, реплики с audio-тегами, два голоса.
Сделай страницу, которая озвучивает диалог двух персонажей.Сильный промпт не оставляет догадок: видно, что это сцена, что у каждого героя свой голос, что теги — это управление подачей, а не текст для чтения вслух.
Что в итоге
Ребёнок просит «сказку про дракона, который боится грозы». Ты набираешь пять реплик: дракон говорит [дрожащим голосом], гром — [раскатисто], мышонок-храбрец — [задорно]. Жмёшь «озвучить» — и из телефона звучит маленький спектакль, где у каждого свой характер. Скачиваешь mp3, ставишь на ночь. А потом кидаешь другу — и он слышит не робота, а сыгранную сценку.
Маленькая честность напоследок: модель в превью, у голосов есть лимиты, а перебор тегов звучит наигранно — один точный тег на реплику лучше пяти. Но чтобы ровный диктор наконец заиграл, хватает пометки в скобках.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.
Источник: Google: Gemini 3.1 Flash TTS — audio-теги для управления стилем, темпом и подачей голоса





