Нейросети умеют не только писать, переводить, редактировать, но и говорить. Озвучка текста с помощью ИИ уже используется в видео, подкастах, рекламных роликах и обучающих курсах, а многие из них поддерживают и русский язык.
В этой статье проверим 7 нейросетей для озвучки текста на русском языке — сравним произношение, интонации и натуральность произношения.
Проверим нейросети для озвучки на практике
На что мы будем обращать внимание при тестировании сервисов:
- как работают с ударениями и паузами;
- хорошо ли расставляют интонации;
- насколько разнообразные голоса предлагает ИИ;
- могут ли переключаться между языками;
- насколько сгенерированная речь похожа на человеческую.
ElevenLabs
Один из ведущих сервисов для синтеза речи, поддерживающий более 30 языков, в том числе русский. Предлагает бесплатную версию с ограничением по количеству символов и платные тарифы с расширенными возможностями.
Основной инструмент — Text-to-Speech (TTS). Это возможность преобразовывать любой текст в речь с интонацией, эмоциями и естественной выразительностью. Также поддерживает клонирование голосов с загруженного пользователем аудиофайла.
Интерфейс нейросети интуитивно понятен — вставляете текст, выбираете голос, настраиваете дополнительные параметры при необходимости и нажимаете Generate. Есть библиотека голосов с фильтрацией по языку, полу, возрасту, акценту.
Для бесплатного использования доступны 5 000 символов. Мы загрузили наш текст, оставили базовые настройки, выбрали голос, который поддерживает русский язык.
Вот, как справился ElevenLabs:
Для первого раза мы остались приятно удивлены: все ударения правильные, слова произнесены без ошибок, в том числе название компании. Голос звучит естественно, без акцента. Слышно даже, как диктор делает вдох.
Но пару нюансов все же имеются:
- аббревиатуру «AI» робот читает без заморочек — [аи] вместо правильного [эй ай];
- есть лишние паузы между словами «которая» и «работает», а также «квалифицирует» и «постоянных»;
- робот делает слишком большую паузу после двоеточия.
В остальном вопросов нет — озвучка на твердую четверку.
Robivox
Простой и понятный AI-сервис от российских разработчиков, который генерирует реалистичную речь из загруженного пользователем текста. С помощью Robivox можно озвучивать документы, презентации, видео, подкасты, ролики для соцсетей. Позволяет клонировать голос, детально настраивать полученный результат и экспортировать аудио в форматах WAV и MP3.
Бесплатно разрешает озвучить до 100 символов, но при регистрации сервис дарит вам 5 бонусных рублей, чтобы можно было протестировать его работу. Если верить сайту, то этого хватит на 10 минут озвучки обычным голосом и 2 минуты голосом PRO.
Озвучка нашего текста (431 символ) стоила 2,16₽.
Мы не стали менять настройки и оставили базовые параметры, получили такой результат:
Пока нейросети доказывают свою компетентность — Robivox отлично справился с задачей. Сервис озвучил все слова правильно, не допустил ошибок в ударении, также в этот раз обошлось без слишком длинных пауз у знаков препинания. Английская аббревиатура «AI» прочитана верно, как и англоязычное название компании.
Голос звучит естественно, в целом очень похоже на человека, за исключением пары моментов, когда нейросеть неправильно расставляла интонации. Обратите внимание, как звучат фразы «в чате или мессенджерах» и «эмпатия и гибкость».
Steosvoice
Нейросеть для озвучки со встроенным голосовым генератором и библиотекой синтезированных голосов. Превращает текст в речь, может клонировать голос — ваш собственный или знаменитости. Сервис особенно популярен в среде контент-креаторов: через него озвучивают ролики для соцсетей, мемы, различные видео, подкасты и даже игры.
Steosvoice отличается особой настройкой речи. Например, в библиотеке сервиса есть голоса с пародийной интонацией и комедийными акцентами, или вы самостоятельно можете задать настроение речи — от серьезного до ироничного.
Для озвучки текста можно использовать сайт и Telegram-бот. Мы попробовали оба способа.
Начали с сайта — загрузили текст, выбрали голос и нажали на кнопку Синтезировать речь без дополнительных настроек:
Получилось неубедительно:
- слышно, что это говорит не человек;
- английскую аббревиатуру и название компании голос произносит неправильно;
- много ошибок в ударениях;
- нейросеть смягчила звук [е] в местах, где это не нужно было делать;
- в сгенерированной речи плохо расставлены интонации.
Хотели попробовать отредактировать фонемы, чтобы исправить произношение слов «Jivo» и «мессенджеры», но сайт начал выдавать ошибки. Поэтому мы решили дать шанс Telegram-боту для озвучки текста.
Увы, он тоже не дал положительного результата. Мы загрузили наш текст, но бот почему-то синтезировал речь не до конца и прервался на середине. Для второй попытки сократили описание AI-оператора до одного абзаца:
По всем оценочным параметрам результат бота оказался ниже среднего. Интонации расставлены неверно, аббревиатуру «AI» голос произнес неправильно, звук [е] бот смягчил так же, как и сайт. В синтезированной аудиозаписи сразу можно распознать робота, речь звучит неестественно.
Voicemaker
Нейросеть для озвучки текста на русском языке — бесплатно и с платными тарифами. Подходит для работы с видео, презентациями, аудиокнигами, подкастами и другими проектами, где нужен живой голос. Ее можно использовать как для профессиональных задач, так и для повседневной озвучки.
Voicemaker предлагает функцию Text-to-Speech, библиотеку из 100+ голосов на разных языках, разрешает регулировать параметры речи и скачивать полученный результат в бесплатной версии.
Незарегистрированным пользователям сервис разрешает загружать текст до 250 символов, поэтому наше описание мы сократили до одного абзаца:
Нейросеть хорошо расставила акценты в тексте и интонации, особенно понравилось, как интонационно правильно AI-голос обозначил последнюю запятую и конец предложения. Все слова на русском языке звучат правильно, даже бедные «мессенджеры».
А вот аббревиатуру и название компании нейросеть произнесла неправильно. Попробуем написать их транслитерацией и сгенерировать речь из текста еще раз:
Все равно не получилось, а чтобы более детально настраивать текст, нужно регистрироваться и оплачивать тариф. В целом, тестирование прошло удовлетворительно, поэтому платную версию можно попробовать, особенно если ваш текст полностью на русском.
SpeechKit
Комплекс нейросетевых технологий от Яндекса, который превращает текст в речь, предлагает более 80 голосов, поддерживает 15+ языков. Сервис подходит разработчикам, бизнесам, контакт-центрам и всем, кто хочет автоматизировать голосовые взаимодействия с клиентами.
SpeechKit размещен на российских серверах, поэтому нейросеть соответствует требованиям локального законодательства и защиты данных. Есть готовые библиотеки для Python, JavaScript и других языков.
Интерфейс может показаться неудобным — все потому, что сервис изначально предназначен для разработчиков. Дайте себе немного времени, чтобы освоиться — придется разобраться с кодом, но зато это поможет получить качественный результат.
Бесплатного доступа без регистрации нет. Нужно обязательно авторизоваться, привязать карту, и после этого Яндекс дает стартовый грант на тест сервиса — 4 000₽.
Мы не стали добавлять дополнительные настройки. Решили проверить, как нейросеть выполнит свою задачу на базовом уровне:
Произношение отличное, все слова голос произносит правильно, ударения тоже на местах. Хуже расставляет интонации, не понравилось, как нейросеть работает с паузами на запятых — это выдает робота. И если это можно исправить с помощью тонкой настройки, то помехи при переходе на следующий абзац мы убрать не смогли.
GPTUNNEL
GPTUNNEL — это платформа, которая объединяет в себе 100+ нейросетей и AI-инструментов. Она многофункциональна, ее можно использовать для работы с текстом, изображениями, видео, сложными проектами. Поддерживает интеграции через API, имеет многомодульную архитектуру. Один из самых удобных инструментов для бизнеса.
Нейросеть подходит и для озвучки текста на русском языке, но сделать это бесплатно не получится — за каждую генерацию нужно платить. GPTUNNEL работает по модели pay-as-you-go: платите только за то, что используете. Минимальное пополнение — от 50₽. Наш тестовый текст будет стоить 26₽.
Голос оставили по умолчанию, а настройки изменили — выставили Стабильность и Ясность+сходство на 8.0:
Первая аббревиатура «AI» звучит очень странно, хотя со второй все в порядке, а «Jivo» синтезированный голос произносит с иностранным акцентом. Что случилось со словом «система», остается только гадать. В остальном все звучит хорошо — ударения и интонации на месте, голос звучит естественно, за исключением первых пяти слов.
И хотя начало не лучшее, потенциал у нейросети все же есть — немного пройтись по настройкам, отредактировать текст для генерации, и результат улучшится.
SaluteSpeech
Нейросеть для точного распознавания русской речи от разработчиков Сбера, которая ориентирована на точную обработку русскоязычного аудио.
Преобразовывает текст в речь и наоборот, подходит для бизнеса, контакт-центров, приложений, чат-ботов и голосовых интерфейсов. Модель обучена на телефонных записях, поэтому особенно хорошо обрабатывает невнятную речь, акценты и шумы.
Нейросеть делает бесплатную озвучку на сайте и в приложении, но с ограничениями — без регистрации доступны 200 символов текста и три ИИ-голоса.
Так как сервис русскоязычный, а название компании часто произносят с ошибкой, мы сразу написали Jivo транслитерацией и поставили ударение. Получился такой результат:
Нейросеть ошиблась только в аббревиатуре, все остальные слова звучат правильно. Роботизированную речь выдают интонации, но это можно будет поправить в платной версии. По сравнению с другими сервисами из нашей подборки, SaluteSpeech справился почти на отлично.
Больше всего нашей редакции понравились нейросети SaluteSpeech, Robivox и SpeechKit — они единственные правильно произнесли название компании, справились со словами «мессенджеры» и «потенциальные» и звучали максимально приближено к человеческому голосу.
Хорошо себя показали, но синтезировали речь с небольшими недочетами: GPTUNNEL, Voicemaker, ElevenLabs.
И совсем не впечатлила нейросеть Steosvoice — роботизированный голос выдает себя не только ошибками в произношении, но и плохо расставленными интонациями. Не нашли, за что похвалить этот сервис.
AI-инструменты в современном мире — удобные и надежные помощники. Используйте их, чтобы помочь своему бизнесу, разгрузить команду, оптимизировать собственные ресурсы.
Хотите внедрить искусственный интеллект в свои рабочие процессы? Попробуйте наш AI-оператор Jivo — первые 7 дней бесплатно.