Нейросети для озвучки текста на русском языке: топ-7 инструментов

7 минут
Нейросети для озвучки текста на русском языке: топ-7 инструментов

Нейросети умеют не только писать, переводить, редактировать, но и говорить. Озвучка текста с помощью ИИ уже используется в видео, подкастах, рекламных роликах и обучающих курсах, а многие из них поддерживают и русский язык.

В этой статье проверим 7 нейросетей для озвучки текста на русском языке — сравним произношение, интонации и натуральность произношения.

Проверим нейросети для озвучки на практике

На что мы будем обращать внимание при тестировании сервисов:

  • как работают с ударениями и паузами;
  • хорошо ли расставляют интонации;
  • насколько разнообразные голоса предлагает ИИ;
  • могут ли переключаться между языками;
  • насколько сгенерированная речь похожа на человеческую.

ElevenLabs

Один из ведущих сервисов для синтеза речи, поддерживающий более 30 языков, в том числе русский. Предлагает бесплатную версию с ограничением по количеству символов и платные тарифы с расширенными возможностями.

​​Основной инструмент — Text-to-Speech (TTS). Это возможность преобразовывать любой текст в речь с интонацией, эмоциями и естественной выразительностью. Также поддерживает клонирование голосов с загруженного пользователем аудиофайла.

Интерфейс нейросети интуитивно понятен — вставляете текст, выбираете голос, настраиваете дополнительные параметры при необходимости и нажимаете Generate. Есть библиотека голосов с фильтрацией по языку, полу, возрасту, акценту. 

Для бесплатного использования доступны 5 000 символов. Мы загрузили наш текст, оставили базовые настройки, выбрали голос, который поддерживает русский язык.

Вот, как справился ElevenLabs:

Для первого раза мы остались приятно удивлены: все ударения правильные, слова произнесены без ошибок, в том числе название компании. Голос звучит естественно, без акцента. Слышно даже, как диктор делает вдох.

Но пару нюансов все же имеются: 

  • аббревиатуру «AI» робот читает без заморочек — [аи] вместо правильного [эй ай];
  • есть лишние паузы между словами «которая» и «работает», а также «квалифицирует» и «постоянных»;
  • робот делает слишком большую паузу после двоеточия.

В остальном вопросов нет — озвучка на твердую четверку.

Robivox

Простой и понятный AI-сервис от российских разработчиков, который генерирует реалистичную речь из загруженного пользователем текста. С помощью Robivox можно озвучивать документы, презентации, видео, подкасты, ролики для соцсетей. Позволяет клонировать голос, детально настраивать полученный результат и экспортировать аудио в форматах WAV и MP3.

Бесплатно разрешает озвучить до 100 символов, но при регистрации сервис дарит вам 5 бонусных рублей, чтобы можно было протестировать его работу. Если верить сайту, то этого хватит на 10 минут озвучки обычным голосом и 2 минуты голосом PRO.

Озвучка нашего текста (431 символ) стоила 2,16₽. 

Мы не стали менять настройки и оставили базовые параметры, получили такой результат:

Пока нейросети доказывают свою компетентность — Robivox отлично справился с задачей. Сервис озвучил все слова правильно, не допустил ошибок в ударении, также в этот раз обошлось без слишком длинных пауз у знаков препинания. Английская аббревиатура «AI» прочитана верно, как и англоязычное название компании. 

Голос звучит естественно, в целом очень похоже на человека, за исключением пары моментов, когда нейросеть неправильно расставляла интонации. Обратите внимание, как звучат фразы «в чате или мессенджерах» и «эмпатия и гибкость».

Steosvoice

Нейросеть для озвучки со встроенным голосовым генератором и библиотекой синтезированных голосов. Превращает текст в речь, может клонировать голос — ваш собственный или знаменитости. Сервис особенно популярен в среде контент-креаторов: через него озвучивают ролики для соцсетей, мемы, различные видео, подкасты и даже игры.

Steosvoice отличается особой настройкой речи. Например, в библиотеке сервиса есть голоса с пародийной интонацией и комедийными акцентами, или вы самостоятельно можете задать настроение речи — от серьезного до ироничного.

Для озвучки текста можно использовать сайт и Telegram-бот. Мы попробовали оба способа. 

Начали с сайта — загрузили текст, выбрали голос и нажали на кнопку Синтезировать речь без дополнительных настроек:

Получилось неубедительно: 

  • слышно, что это говорит не человек;
  • английскую аббревиатуру и название компании голос произносит неправильно;
  • много ошибок в ударениях; 
  • нейросеть смягчила звук [е] в местах, где это не нужно было делать;
  • в сгенерированной речи плохо расставлены интонации.

Хотели попробовать отредактировать фонемы, чтобы исправить произношение слов «Jivo» и «мессенджеры», но сайт начал выдавать ошибки. Поэтому мы решили дать шанс Telegram-боту для озвучки текста.

Увы, он тоже не дал положительного результата. Мы загрузили наш текст, но бот почему-то синтезировал речь не до конца и прервался на середине. Для второй попытки сократили описание AI-оператора до одного абзаца: 

По всем оценочным параметрам результат бота оказался ниже среднего. Интонации расставлены неверно, аббревиатуру «AI» голос произнес неправильно, звук [е] бот смягчил так же, как и сайт. В синтезированной аудиозаписи сразу можно распознать робота, речь звучит неестественно.

Voicemaker

Нейросеть для озвучки текста на русском языке — бесплатно и с платными тарифами. Подходит для работы с видео, презентациями, аудиокнигами, подкастами и другими проектами, где нужен живой голос. Ее можно использовать как для профессиональных задач, так и для повседневной озвучки.

Voicemaker предлагает функцию Text-to-Speech, библиотеку из 100+ голосов на разных языках, разрешает регулировать параметры речи и скачивать полученный результат в бесплатной версии.

Незарегистрированным пользователям сервис разрешает загружать текст до 250 символов, поэтому наше описание мы сократили до одного абзаца:

Нейросеть хорошо расставила акценты в тексте и интонации, особенно понравилось, как интонационно правильно AI-голос обозначил последнюю запятую и конец предложения. Все слова на русском языке звучат правильно, даже бедные «мессенджеры»

А вот аббревиатуру и название компании нейросеть произнесла неправильно. Попробуем написать их транслитерацией и сгенерировать речь из текста еще раз:

Все равно не получилось, а чтобы более детально настраивать текст, нужно регистрироваться и оплачивать тариф. В целом, тестирование прошло удовлетворительно, поэтому платную версию можно попробовать, особенно если ваш текст полностью на русском.

SpeechKit

Комплекс нейросетевых технологий от Яндекса, который превращает текст в речь, предлагает более 80 голосов, поддерживает 15+ языков. Сервис подходит разработчикам, бизнесам, контакт-центрам и всем, кто хочет автоматизировать голосовые взаимодействия с клиентами.

SpeechKit размещен на российских серверах, поэтому нейросеть соответствует требованиям локального законодательства и защиты данных. Есть готовые библиотеки для Python, JavaScript и других языков.

Интерфейс может показаться неудобным — все потому, что сервис изначально предназначен для разработчиков. Дайте себе немного времени, чтобы освоиться — придется разобраться с кодом, но зато это поможет получить качественный результат.

Бесплатного доступа без регистрации нет. Нужно обязательно авторизоваться, привязать карту, и после этого Яндекс дает стартовый грант на тест сервиса — 4 000₽.

Мы не стали добавлять дополнительные настройки. Решили проверить, как нейросеть выполнит свою задачу на базовом уровне:

Произношение отличное, все слова голос произносит правильно, ударения тоже на местах. Хуже расставляет интонации, не понравилось, как нейросеть работает с паузами на запятых — это выдает робота. И если это можно исправить с помощью тонкой настройки, то помехи при переходе на следующий абзац мы убрать не смогли. 

GPTUNNEL

GPTUNNEL — это платформа, которая объединяет в себе 100+ нейросетей и AI-инструментов. Она многофункциональна, ее можно использовать для работы с текстом, изображениями, видео, сложными проектами. Поддерживает интеграции через API, имеет многомодульную архитектуру. Один из самых удобных инструментов для бизнеса.

Нейросеть подходит и для озвучки текста на русском языке, но сделать это бесплатно не получится — за каждую генерацию нужно платить. GPTUNNEL работает по модели pay-as-you-go: платите только за то, что используете. Минимальное пополнение — от 50₽. Наш тестовый текст будет стоить 26₽.

Голос оставили по умолчанию, а настройки изменили — выставили Стабильность и Ясность+сходство на 8.0:

Первая аббревиатура «AI» звучит очень странно, хотя со второй все в порядке, а «Jivo» синтезированный голос произносит с иностранным акцентом. Что случилось со словом «система», остается только гадать. В остальном все звучит хорошо — ударения и интонации на месте, голос звучит естественно, за исключением первых пяти слов.

И хотя начало не лучшее, потенциал у нейросети все же есть — немного пройтись по настройкам, отредактировать текст для генерации, и результат улучшится.

SaluteSpeech

Нейросеть для точного распознавания русской речи от разработчиков Сбера, которая ориентирована на точную обработку русскоязычного аудио.

Преобразовывает текст в речь и наоборот, подходит для бизнеса, контакт-центров, приложений, чат-ботов и голосовых интерфейсов. Модель обучена на телефонных записях, поэтому особенно хорошо обрабатывает невнятную речь, акценты и шумы.

Нейросеть делает бесплатную озвучку на сайте и в приложении, но с ограничениями — без регистрации доступны 200 символов текста и три ИИ-голоса.

Так как сервис русскоязычный, а название компании часто произносят с ошибкой, мы сразу написали Jivo транслитерацией и поставили ударение. Получился такой результат:

Нейросеть ошиблась только в аббревиатуре, все остальные слова звучат правильно. Роботизированную речь выдают интонации, но это можно будет поправить в платной версии. По сравнению с другими сервисами из нашей подборки, SaluteSpeech справился почти на отлично.

Больше всего нашей редакции понравились нейросети SaluteSpeech, Robivox и SpeechKit — они единственные правильно произнесли название компании, справились со словами «мессенджеры» и «потенциальные» и звучали максимально приближено к человеческому голосу. 

Хорошо себя показали, но синтезировали речь с небольшими недочетами: GPTUNNEL, Voicemaker, ElevenLabs.

И совсем не впечатлила нейросеть Steosvoice — роботизированный голос выдает себя не только ошибками в произношении, но и плохо расставленными интонациями. Не нашли, за что похвалить этот сервис.

AI-инструменты в современном мире — удобные и надежные помощники. Используйте их, чтобы помочь своему бизнесу, разгрузить команду, оптимизировать собственные ресурсы. 

Хотите внедрить искусственный интеллект в свои рабочие процессы? Попробуйте наш AI-оператор Jivo — первые 7 дней бесплатно.