Construire un modèle de synthèse vocale personnalisé avec des capacités de diarisation du locuteur

Republié par Platon

Suiveurs: 0

Résumé

Dans ce modèle de code, apprenez à former un langage personnalisé et un modèle de parole en texte acoustique pour transcrire des fichiers audio afin d'obtenir une sortie personnalisée par le haut-parleur lorsque vous recevez un fichier corpus et des enregistrements audio d'une réunion ou d'une salle de classe.

Description

L'une des fonctionnalités du service IBM® Watson ™ Speech to Text est la capacité de détecter différents haut-parleurs à partir du fichier audio, également appelée diarisation des haut-parleurs. Ce modèle de code montre cette capacité en entraînant un modèle de langage personnalisé avec un fichier texte de corpus, qui entraîne ensuite le modèle avec des mots `` hors vocabulaire '' ainsi qu'un modèle acoustique personnalisé avec l'audio
fichiers, qui entraînent le modèle avec la détection «Accent» dans une exécution Python Flask.

Après avoir terminé le modèle de code, vous savez comment:

Former un modèle de langage personnalisé avec un fichier corpus
Entraînez un modèle acoustique personnalisé avec des fichiers audio du seau
Transcrivez les fichiers audio du bucket et obtenez une sortie textuelle personnalisée par le haut-parleur
Stocker la transcription dans le seau

Flow

Custom speech-to-text model diarization flow

L'utilisateur télécharge un fichier corpus dans l'application.
L'audio extrait du précédent modèle de code est extrait d'IBM Cloud Object Storage.
Le fichier corpus ainsi que l'audio extrait sont téléchargés sur le service Watson Speech To Text pour entraîner le modèle personnalisé.
Le fichier audio téléchargé à partir du modèle de code précédent est transcrit avec le modèle de parole en texte personnalisé et le fichier texte est stocké dans IBM Cloud Object Storage.

Instructions

Obtenez des instructions détaillées dans le README fichier. Ces étapes expliquent comment:

Clonez le référentiel GitHub.
Créez le service Watson Speech to Text.
Ajoutez les informations d'identification à l'application.
Déployez l'application.
Exécutez l'application.

Ce modèle de code fait partie de la Extraire des informations à partir de vidéos avec IBM Watson série de cas d'utilisation, qui présente la solution sur l'extraction d'informations significatives à partir de vidéos à l'aide des services Watson Speech to Text, Watson Natural Language Processing et Watson Tone Analyzer.

Source : https://developer.ibm.com/patterns/build-a-custom-speech-to-text-model-with-diarisation-capabilities/

Horodatage: 20 juillet 2020