Generate Human-like Audio From Text

Перевидано Платоном

читають: 0

Підсумки

Використовуючи компоненти Node.js і React, створіть веб-програму, яка генерує людське аудіо з тексту. Додаток використовує IBM® Watson™ Text to Speech, щоб забезпечити вибір голосів із підтримкою кількох мов і статей. Watson Text to Speech доступний у IBM Cloud і з Watson API Kit у IBM Cloud Pak™ for Data.

Опис

Створена з компонентами React і сервером Node.js, веб-додаток для синтезу мовлення приймає введений текст і надсилає його до служби Watson Text to Speech для озвучення голосом, який ви виберете. Доступні різні голоси (чоловічі та жіночі), які охоплюють багато мов і регіонів.

Додаючи елементи SSML до вхідного тексту, ви можете маніпулювати голосом. SSML можна використовувати для керування часом, виразністю, висотою тону, диханням, швидкістю, вимовою тощо.

Ця програма призначена для того, щоб допомогти вам почати роботу. Додаток для перетворення тексту на мовлення є цікавим прикладом, але реальні результати досягаються, коли ви використовуєте цей код, щоб надати своїй програмі голос.

Watson Text to Speech доступний у IBM Cloud і з Watson API Kit у IBM Cloud Pak for Data. За допомогою IBM Cloud Pak for Data ви можете створити Watson Text to Speech у своїй власній приватній хмарі або будь-де, де працює Red Hat OpenShift.

Виконавши цей шаблон коду, ви зрозумієте, як:

Отримайте та відтворюйте аудіо зі служби Watson Text to Speech за допомогою REST API
Інтегруйте службу Watson Text to Speech у веб-програму
Використовуйте компоненти React і сервер Node.js

Потік

Generate human-like audio from text

Користувач надає певний текст як вхідні дані для програми (що працює локально, у IBM Cloud або IBM Cloud Pak for Data).
Програма надсилає текст до служби синтезу мовлення.
Під час обробки даних служба синтезу мовлення повертає аудіоінформацію в аудіоелемент HTML5 для відтворення.