Bygg upp en anpassad tal-till-text-modell med högtalardiariseringsfunktioner

Källnod: 748960

Sammanfattning

Lär dig i detta kodmönster hur du tränar ett anpassat språk och en akustisk tal-till-text-modell för att transkribera ljudfiler för att få högtalarens diaris när du får en korpusfil och ljudinspelningar från ett möte eller klassrum.

Beskrivning

En funktion hos IBM® Watson™ Speech to Text-tjänsten är förmågan att upptäcka olika högtalare från ljudfilen, även känd som högtalardiarisering. Detta kodmönster visar denna förmåga genom att träna en anpassad språkmodell med en korpustextfil, som sedan tränar modellen med "Out of Vocabulary"-ord samt en anpassad akustisk modell med ljudet
filer, som tränar modellen med "Accent"-detektering i en Python Flask-körtid.

När du har slutfört kodmönstret förstår du hur du:

  • Träna en anpassad språkmodell med en korpusfil
  • Träna en anpassad akustisk modell med ljudfiler från hinken
  • Transkribera ljudfilerna från bucket och få en högtalare diarieiserad textutdata
  • Förvara utskriften i hinken

Flöde

Custom speech-to-text model diarization flow

  1. Användaren laddar upp en korpusfil till applikationen.
  2. Det extraherade ljudet från föregående kodmönster hämtas från IBM Cloud Object Storage.
  3. Korpusfilen såväl som det extraherade ljudet laddas upp till Watson Speech To Text-tjänsten för att träna den anpassade modellen.
  4. Den nedladdade ljudfilen från det tidigare kodmönstret transkriberas med den anpassade tal-till-text-modellen och textfilen lagras i IBM Cloud Object Storage.

Instruktioner

Få detaljerade instruktioner i README fil. Dessa steg förklarar hur du:

  1. Klona GitHub-lagret.
  2. Skapa Watson-tal till text-tjänsten.
  3. Lägg till referenser till applikationen.
  4. Distribuera applikationen.
  5. Kör programmet.

Detta kodmönster är en del av Extrahera insikter från videor med IBM Watson use case series, som visar lösningen för att extrahera meningsfulla insikter från videor med Watson Speech to Text, Watson Natural Language Processing och Watson Tone Analyzer -tjänster.

Källa: https://developer.ibm.com/patterns/build-a-custom-speech-to-text-model-with-diarization-capabilities/

Tidsstämpel:

Mer från IBM-utvecklare