Издательский Совет Русской Православной Церкви: Как искусственный интеллект озвучивает книги

Главная Написать письмо Поиск Карта сайта Версия для печати

Поиск

ИЗДАТЕЛЬСКИЙ СОВЕТ
РУССКОЙ ПРАВОСЛАВНОЙ ЦЕРКВИ
ХРИСТОС ВОСКРЕСЕ!

Как искусственный интеллект озвучивает книги 08.12.2023

Как искусственный интеллект озвучивает книги

Рынок аудиокниг не первый год бьет рекорды. Сегодня его оборот в России, по оценке журнала «Книжная индустрия», составляет 2,7 млрд руб. Последние 5-7 лет он демонстрирует 30%-ные показатели ежегодного роста и вызывает зависть у тех, кто не попал в круг участников этого праздника. А попасть, к сожалению, могут не все. По данным ПАО «МТС» более 90% книг на российском рынке не имеют аудиоверсии. Этот рынок охватывает довольно узкий круг издателей, которые способны выводить бестселлеры на массовый рынок и именно эти бестселлеры озвучиваются и имеют спрос.

Книжкам попроще вход на аудиорынок практически закрыт, поскольку озвучка книги – дорогостоящий проект, сопоставимый с подготовкой бумажной книги. Диктор, звукорежиссер, студия, дистрибуция – все это самостоятельные вложения, с дистрибуцией обычной книги практически никак не связаны.
На помощь приходят технологии речевого синтеза и искусственного интеллекта. Программы речевого синтеза год от года демонстрируют заметный прогресс. Специалисты предсказывают, что через несколько лет они заменят живой голос. Но это произойдет не само собой. Художественное чтение не допускает ошибок, фальшивых интонаций, присутствия неорганичных, чуждых голосу элементов. И вот здесь может помочь искусственный интеллект. Он способен адаптировать книгу к чтению вслух. Устранить ошибки, которых иначе будет множество. Ведь книга готовится к печати, а не к прочтению вслух. А любая подготовка, даже для чтения синтезатором, требует полноценных трудовых вложений.
Именно это стало целью проекта «Искусственный интеллект читает книги!».
За последний год многие компании попытались реализовать озвучивание текстов речевыми синтезаторами. И, действительно, для озвучивания короткого текста простого синтезатора вполне достаточно. Но для качественного озвучивания печатного издания полноценного решения на рынке в русскоязычном сегменте пока не было. Можно только с юмором относится к озвученным некоторыми технологическими компаниями обещаниям озвучить в мгновение ока тысячи, десятки тысяч книг.
Издательский дом «Директ-Медиа», после нескольких лет упорной работы, совершил прорыв, представив на рынок новый сервис создания аудиокниг. В основе услуги лежит технологический комплекс с использованием нейросетей и команда редакторов для контроля результата.
Почему нельзя просто загрузить электронный текст издания и получить качественное аудио? Речевые синтезаторы допускают многочисленные ошибки при озвучивании ударений, числительных, персоналий, топонимов, сокращений и аббревиатур. Кто знаком с грамматикой, понимает, что перевести речь напрямую из письменной в устную на основе простых алгоритмов невозможно. Электронные тексты книг требуют тщательной подготовки к этой задаче.
Именно решением этих двух блоков задач и занимается команда проекта.

Процесс выглядит следующим образом:
1. Оценка издания
На этом этапе производится оценка текста на возможность создания аудиокниги. Ведь учебная, научная или специальная литература накладывает дополнительные ограничения. Во внимание принимаются наличие нетекстовых элементов, необходимых для понимания аудиотекста. Так, например, в ряде тематик невозможно создать полноценное аудиоиздание, отказавшись от иллюстраций, формул, графиков, таблиц.
2. Адаптация
Это частично автоматизированный процесс. Происходит очистка текста от сносок, расшифровываются редко встречающиеся аббревиатуры. С помощью нейросети приводятся к текстовому виду числительные. Подготавливается структура книги.
Это важнейший этап, без которого создать качественную аудиокнигу невозможно.
3. Аннотирование
Это полностью автоматизированный этап подготовки адаптированного текста к озвучиванию. На базе словарей и обученных нейросетей для синтезаторов расшифровываются сложные неявные речевые фрагменты: проставляются ударения, определяются и проставляются склонения числительных, расшифровываются и склоняются аббревиатуры и сокращения. Текст будущей аудиокниги размечается, словам присваиваются координаты.
4. Озвучивание
По факту, это самый простой этап. Подготовленный и аннотированный текст озвучивается выбранным заказчиком голосом через речевой синтезатор.
5. Редактура и корректура
Производится контрольное прослушивание аудиотекста. При необходимости редактор вносит исправления, пользуясь рабочим интерфейсом и разметкой аудиокниги. Получается отлично – зачастую неотличимо от живого голоса! Кому интересно – может зайти на сайт www.directmedia.ru и ознакомиться с серией «Послушайте!».

Такой комплексный подход позволяет создавать аудиокниги массово, по цене в 4-5 раз ниже, чем при озвучивании даже самым недорогим диктором. Использование автоматизации и нейросетей на этапах адаптации и подготовки текста позволяет значительно удешевить и ускорить процесс. Так стандартное издание объемом около 10 авторских листов будет готово в течение нескольких дней. Для сравнения дикторское озвучивание займет несколько недель.
Такое предложение подходит для большинства гуманитарных направлений, литературы Нон-Фикшн, художественной и учебной литературы.
По объему потребления аудиокниги стремительно нагоняют электронные книги, превысив в 2022 г. в международном измерении 5% рынка. И это неудивительно в наш век доминирования мультимедиа.

Источник










Лицензия Creative Commons 2010 – 2024 Издательский Совет Русской Православной Церкви
Система Orphus Официальный сайт Русской Православной Церкви / Патриархия.ru