Xây dựng mô hình chuyển lời nói thành văn bản tùy chỉnh với khả năng phân cực loa

Nút nguồn: 748960

Tổng kết

Trong mẫu mã này, hãy tìm hiểu cách đào tạo một ngôn ngữ tùy chỉnh và mô hình chuyển giọng nói thành văn bản để phiên âm các tệp âm thanh để có được đầu ra phân cực của người nói khi được cung cấp tệp ngữ liệu và các bản ghi âm của cuộc họp hoặc lớp học.

Mô tả

Một tính năng của dịch vụ IBM® Watson™ Speech to Text là khả năng phát hiện những người nói khác nhau từ tệp âm thanh, còn được gọi là ghi nhật ký người nói. Mẫu mã này thể hiện khả năng này bằng cách huấn luyện mô hình ngôn ngữ tùy chỉnh bằng tệp văn bản kho ngữ liệu, sau đó huấn luyện mô hình bằng các từ 'Hết từ vựng' cũng như mô hình âm thanh tùy chỉnh với âm thanh
các tệp huấn luyện mô hình với khả năng phát hiện 'Dấu' trong thời gian chạy Python Flask.

Sau khi hoàn thành mẫu mã, bạn hiểu cách:

  • Đào tạo mô hình ngôn ngữ tùy chỉnh với tệp kho tài liệu
  • Đào tạo mô hình âm thanh tùy chỉnh với các tệp âm thanh từ thùng
  • Phiên âm các tệp âm thanh từ thùng và nhận đầu ra dạng văn bản phân cực loa
  • Lưu trữ bản ghi trong thùng

Dòng chảy

Custom speech-to-text model diarization flow

  1. Người dùng tải lên một tập tin tài liệu vào ứng dụng.
  2. Âm thanh được trích xuất từ ​​phần trước mẫu mã được truy xuất từ ​​Bộ lưu trữ đối tượng đám mây của IBM.
  3. Tệp ngữ liệu cũng như âm thanh trích xuất được tải lên dịch vụ Watson Speech To Text để đào tạo mô hình tùy chỉnh.
  4. Tệp âm thanh đã tải xuống từ mẫu mã trước đó được phiên âm với mô hình chuyển lời nói thành văn bản tùy chỉnh và tệp văn bản được lưu trữ trong Bộ lưu trữ đối tượng đám mây của IBM.

Hướng Dẫn

Nhận hướng dẫn chi tiết trong README tập tin. Các bước đó giải thích cách:

  1. Sao chép kho lưu trữ GitHub.
  2. Tạo dịch vụ Watson Speech to Text.
  3. Thêm thông tin đăng nhập vào ứng dụng.
  4. Triển khai ứng dụng.
  5. Chạy ứng dụng.

Mẫu mã này là một phần của Trích xuất thông tin chi tiết từ video với IBM Watson loạt ca sử dụng, giới thiệu giải pháp trích xuất thông tin chi tiết có ý nghĩa từ video bằng cách sử dụng các dịch vụ Watson Speech to Text, Watson Natural Language Processing và Watson Tone Analyzer.

Nguồn: https://developer.ibm.com/patterns/build-a-custom-speech-to-text-model-with-diarization-capabilities/

Dấu thời gian:

Thêm từ Nhà phát triển IBM