Разработанный в Новосибирске ИИ-сервис массово переведет книги в аудиоформат

Специалисты Новосибирского госуниверситета (НГУ) завершили работу над пилотным проектом по автоматическому созданию аудиоверсий книг. Использование искусственного интеллекта позволит переводить в аудиоформат большие объемы печатных изданий.
Принцип работы сервиса пояснили в НГУ. Текст извлекается из PDF-версии книги, проходит предварительную обработку, а затем озвучивается нейросетью. Сейчас в библиотеке университета содержится около семи тысяч изданий. По расчетам разработчиков, искусственный интеллект поможет все перевести в звуковые файлы. На работу с одной книгой будет уходить примерно полчаса процессорного времени — того, которое затратит 16-ядерный процессор на выполнение задачи. Весь фонд, таким образом, можно перевести в аудио примерно за месяц. Однако на подготовку книг и верификацию результата уйдет порядка года.
При этом ведущий научный сотрудник Центра искусственного интеллекта НГУ кандидат физико-математических наук Евгений Павловский подчеркнул, что сервис не является заменой традиционному чтению и даже аудиокнигам, поскольку не предполагает художественную озвучку.
Сервис создан на основе также разработанного в НГУ фреймворка «Каппа», авторами которого являются Евгений Павловский и Рави Кумр. «Каппа» размечает и учитывает обучающие и контрольные наборы данных для испытания моделей машинного обучения. Фреймворк позволяет проверять корректность работы моделей и снижать риск ошибок или так называемых галлюцинаций ИИ, добавили в вузе.
Сейчас в пилотном режиме уже озвучены первые 100 книг из фонда университета, команда ждет обратную связь от библиотеки и пользователей. Если «пилот» станет успешным, разработчики готовы предложить сервис другим библиотекам.