まとめ
このコード・パターンでは、ビデオが与えられたときに、IBM® Watson™ Speech To Text、Watson Natural Language Processing、および Watson Tone Analysis を使用して、スピーカーのダイアライズされたメモと意味のある洞察レポートを抽出する方法を学びます。
説明
仮想的に接続された世界では、仕事や教育に集中し続けることが非常に重要です。 調査によると、ライブの仮想会議や仮想教室セッションでは、多くの人が約 20 分後に集中力を失います。 したがって、個人が後で見ることができるように、多くの会議や仮想教室が記録されます。
これらの録音を分析して、人工知能 (AI) を使用して会議またはクラスの詳細なレポートを生成できれば、役立つかもしれません。 このコード パターンは、その方法を説明しています。 仮想会議または仮想教室のビデオ録画が与えられた場合、FFmpeg オープン ソース ライブラリを使用してビデオ ファイルから音声を抽出し、音声を転写して、カスタム トレーニングされた言語および音響音声からテキストへの音声モデルを使用して、スピーカーがダイアライズしたメモを取得する方法について説明します。 Python Flask ランタイムを使用して、カテゴリ、概念、感情、エンティティ、キーワード、感情、上位の肯定的な文、およびワード クラウドで構成される自然言語理解レポートを生成します。
コードパターンを完了すると、次の方法がわかります。
- Watson Speech to Text サービスを使用して、人間の声を書き言葉に変換する
- 高度な自然言語処理を使用して、テキストを分析し、概念、エンティティ、キーワード、カテゴリ、感情、感情などのコンテンツからメタデータを抽出します
- Watson Tone Analyzerの認知言語分析を活用して、文と文書の両方のレベルでさまざまな音調を識別します
Flow
- ユーザーは、仮想会議または仮想教室の録画ビデオ ファイルをアップロードします。
- FFmpeg ライブラリは、ビデオ ファイルからオーディオを抽出します。
- Watson Speech To Text サービスは音声を書き起こし、ダイアライズされたテキスト出力を提供します。
- (オプション) Watson Language Translator サービスは、他の言語を英語のトランスクリプトに翻訳します。
- Watson Tone Analyzer はトランスクリプトを分析し、トランスクリプトから上位の肯定的なステートメントをピックアップします。
- Watson Natural Language Understanding は、トランスクリプトを読み取って重要なポインターを識別し、感情と感情を取得します。
- 動画の重要なポイントと概要が、アプリケーションでユーザーに表示されます。
- ユーザーは、テキストの洞察をダウンロードできます。
説明書
詳細な手順については、 README ファイル。 これらの手順では、次の方法について説明します。
- GitHubリポジトリのクローンを作成します。
- 資格情報をアプリケーションに追加します。
- アプリケーションをデプロイします。
- アプリケーションを実行してください。
このコードパターンは、 IBM Watsonを使用してビデオから洞察を抽出する Watson Speech to Text、Watson Natural Language Processing、およびWatson Tone Analyzerサービスを使用してビデオから意味のある洞察を抽出するソリューションを紹介するユースケースシリーズ。
ソース: https://developer.ibm.com/patterns/extract-textual-insights-from-a-given-video/