Озвучено ИИ: как роботы захватывают книжный стриминг
Искусственный интеллект наступает на пятки чтецам: как алгоритмы меняют рынок аудиокниг и кто победит в гонке за слушателя
Искусственный интеллект уже озвучивает романы, выбирает голос под жанр и даже имитирует интонации любимых актеров. Это удобно, быстро и дешево в производстве, но что будет с живыми дикторами, когда рынок освоят алгоритмы? На Международной ярмарке интеллектуальной литературы non/fictioNвесна поговорили о цифровых голосах, роботах-чтецах и границе между комфортом и подделкой. Скоро ли мы перестанем слышать человека в книге — и заметим ли разницу?
Механическая озвучка
На книжных стриминговых площадках сейчас представлен аудиоконтент двух типов: это профессиональная сложная озвучка актерами и книги, озвученные нейросетями. "На озвучку с помощью ИИ пользователи ругаются, потому что не хватает персонализации, возможности выбора голоса, а ИИ-чтецы звучат механически", — сказал руководитель продуктового направления книжного сервиса "Строки" Ярослав Тарнопольский. Он также добавил, что конкретно "Строки" планируют балансировать между двумя видами контента.
Тарнопольский отметил, что озвучка с помощью ИИ подходит не всем книгам. "Полезную литературу, психологию, нон-фикшн легче, быстрее и дешевле озвучивать искусственным интеллектом, поскольку производство аудиокниг с помощью чтецов достаточно дорогое удовольствие. А тот массив контента, который мы получаем каждую неделю, невозможно озвучить людьми. Это будет стоить очень и очень дорого", — добавил Тарнопольский.

Аудиоиздательство "ВИМБО" занимается продакшеном аудиокниг и работает с несколькими книжными стриминговыми сервисами. По словам генерального директора и основателя аудиоиздательства Вадима Буха, книжные сервисы активно продвигают именно те книги, которые были озвучены профессиональными актерами. "Чем лучше сделана аудиокнига, тем лучше площадки ее продвигают. То есть спектакли и сериалы в исполнении хороших актеров получают гораздо большую отдачу и аудиторию", — сказал Бух.
А вот руководитель платформы RUGRAM и продюсер сервиса Everbook Диана Смирнова считает, что уже скоро на книжных сервисах будет превалировать аудиоконтент, озвученный нейросетью. "Да, конечно, сейчас в озвучке искусственным интеллектом есть проблемы. Но то, как двигается сегодня его развитие, в горизонте пяти, даже не десяти лет, мы придем к очень хорошей озвучке", — сказала Смирнова. Этот прогноз поддержал Тарнопольский. Он отметил, что в будущем можно будет выбирать не только голос чтеца из представленных вариантов, но и слушать сказки, записанные голосом близких людей.
Не останется человека, один сплошной ИИ?
Все участники дискуссии сошлись во мнении, что нет смысла игнорировать искусственный интеллект и пытаться отрицать его влияние на рынок. Смирнова предположила, что в ближайшем будущем порядка 80% всего аудиоконтента будет создано с озвучкой искусственным интеллектом. Это ни хорошо, и ни плохо. Это факт. А Вадим Бух отметил, что в некоторых случаях ИИ-озвучка — это даже лучше, чем человеческая:
— ИИ будет сначала заменять собой плохих чтецов, которые даже ударение не могут правильно поставить. Потом заменит тех, кто не может нормально читать текст. Очень много книг будет озвучено условными роботами Иваном и Марией, и будет аудитория на этот аудиоконтент.

Эксперты уверены, что искусственный интеллект точно уберет с рынка неквалифицированных специалистов. Но пока сложно представить, как искусственный интеллект будет расставлять акценты в тексте, выражать интонациями авторскую мысль и, как выразился Бух, "присваивать" текст.
Генеральный продюсер аудиоиздательства "ВИМБО" Михаил Литваков сказал, что работа с искусственным интеллектом сейчас похожа на работу с актером. Ему также дают задания, где озвучить фрагмент чуть напряженнее, где радостнее, где с испугом в голосе. А затем звукорежиссер сводит все эти фрагменты в единый файл. Но есть нюанс: "Чем это отличается от работы с актером? Только тем, что актер сам может в любую секунду удивить", — добавил Литваков.
Но это "удивить" не всегда нужно слушателям, зрителям, читателям. На той же ярмарке non/fictioNвесна был экспериментальный стенд, на котором с одной стороны представили сказки, написанные и нарисованные людьми, а с другой — искусственным интеллектом. И зачастую люди отдавали свои симпатии тем произведениям, которые созданы ИИ. Объясняется это легко: нейросети синтезируют контент на основе того, что уже было создано, понятно и стереотипно. То есть это привычный контент. Человек-творец же стремится к оригинальности, которую не всегда может понять широкая аудитория.
Все упирается в деньги
Диана Смирнова предложила стриминговым сервисам поднимать цены на аудиоконтент, который озвучен человеком, тем самым повышая его и нематериальную ценность. А Вадим Бух отметил, что чем дороже производство аудиокниги, тем лучше она в итоге продается. "Пока у нас нет задачи экономить на контенте. Самые дорогие наши проекты продаются лучше всего", — сказал Бух.

Михаил Литваков видит две бизнес-модели для монетизации аудиоконтента. Первая — это в принципе то, чем и занимается "ВИМБО". То есть создавать дорогие проекты, которые сейчас и так хорошо продаются. А вторая — вкладывать деньги в менее качественную озвучку искусственным интеллектом, но создавать множество аудиокниг. По словам Литвакова, обе модели имеют право на жизнь. Но он также отметил, что сейчас очень сложно понять цену продукта.
— В этом году "ЛитРес" определил рынок аудиоконтента в 6,5 млрд рублей. Но как это посчитали? Это в ценах правообладателя, а не в ценах покупателя. К примеру, я оформил подписку на книжный стриминговый сервис. Сколько из этих денег ушло на аудио? Мы не знаем. Да, правообладатель получил свои деньги. Это цена компромисса между двумя контрагентами. Затем авторы из этих денег получили свою долю по количеству прослушанных часов. Но сейчас не существует цены одного часа прослушивания, — сказал Михаил Литваков.
Хотя еще не так давно, когда на российском рынке был сервис Storytel, эта цена существовала. Тогда час прослушивания варьировался от 12 до 18 рублей. "В свое время Storytel взорвал рынок. Выяснилось, что подписка приносит не меньше денег, чем PPD за единицу прослушанного. А сейчас мы не знаем, сколько денег приносят аудиокниги. Мы знаем только, сколько часов слушали наши аудиокниги и сколько денег мы получили от площадки. Сколько заплатил конкретный потребитель — мы не знаем", — добавил Литваков.

Смирнова сделал неутешительный вывод из этой проблемы: "Чем больше будет доля аудиоконтента, озвученного искусственным интеллектом, тем меньше будет доля потребления крутого контента. Поэтому, возможно, цена на него будет повышаться для правообладателей, компенсируя наш доход от чистого прослушивания. Все к этому идет".
Екатерина Петрова — литературный обозреватель интернет-газеты "Реальное время", автор телеграм-канала "Булочки с маком".