Приложение читает книжку ребёнку — твоим голосом, пока ты в командировке

Смотри, идея на одну строку: ты записываешь полминуты своей речи, а дальше приложение читает любой текст — сказку на ночь, список покупок, статью — твоим голосом. Не роботным, не чужим. Твоим.
И вот что тут свежее: раньше так просто не выходило. Чтобы скопировать голос, нужна была студия, час чистой записи и инженер по звуку. А 2 июня Microsoft показала MAI-Voice-2 — модель, которая подхватывает голос с короткого сэмпла и говорит на 15 языках. Достаточно одного маленького кусочка записи. Вот на этом вся идея и держится.
Почему именно это
Подумай про реальную сцену. Ты уехал на пару дней, а дома ребёнок не засыпает без сказки твоим голосом. Или бабушка живёт далеко, и хочется, чтобы внук слышал именно её. Чужой синтез — это «алиса читает книжку». А свой голос — это уже про тебя.
И «магии» тут меньше, чем кажется. Приложение — труба: взяло твой сэмпл, взяло текст, отдало модели, вернуло аудио, нажал «играть». Вся сложность — в одном аккуратном запросе.
Чему научишься
- Голос как ввод и как вывод. Ты впервые работаешь с моделью, которой на вход даёшь звук, а на выходе получаешь звук. Не текст — аудио.
- Сэмпл + текст = два разных входа. Один кусок — образец голоса, другой — что произнести. Модель их не путает, если ты сам не путаешь в запросе.
- «Промпт как фича». Озвучка твоим голосом — не отдельная технология, которую надо изобретать. Это инструкция модели: «вот образец, вот текст, прочитай так же». Хороший запрос и есть твоя главная функция.
Готовый стартовый промпт
Не проси агента «сделай приложение, которое говорит моим голосом» — он начнёт гадать, откуда брать образец и в каком формате. Дай сценарий, образец и границы:
Сделай приложение, которое читает текст моим голосом.Сильный промпт не оставляет места для догадок: видно, где образец, где текст, видно поведение и кнопки — и видно границу, которую важно не переходить. Результат с первого раза ближе к тому, что ты хотел.
Что в итоге
Ты на вокзале, до поезда десять минут. Открываешь приложение, вставляешь «Колобок», жмёшь «играть» и скидываешь аудио домой. Вечером ребёнок засыпает под сказку — а голос-то твой, хотя тебя нет рядом. Ты не сидел в студии. Ты один раз записал полминуты.
И сразу про важное: озвучивай только свой голос — или голос того, кто прямо разрешил. Это та граница, которую переходить не надо, и про неё стоит помнить с первой строчки кода.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.
Источник: Microsoft: launching seven new MAI models (MAI-Voice-2)

