–>
画像: Mark Hachman / IDG via Dreamstudio.ai
トム・ハンクスは私に役を売り込むために私に電話しただけではありませんが、確かにそのように聞こえます.
PCWorldが台頭をカバーし始めて以来、 AI アートなどのさまざまな AI アプリケーション、私は GitHub のコード リポジトリと Reddit 内のリンクを探し回っています。Reddit では、人々がさまざまなアプローチのために独自の AI モデルに微調整を投稿しています。
これらのモデルの一部は、実際に商用サイトに掲載され、独自のアルゴリズムを導入したり、オープン ソースとして公開されている他のアルゴリズムを採用したりします。 既存の AI オーディオ サイトの好例は次のとおりです。 Uberduck.ai、文字通り何百もの事前にプログラムされたモデルを提供します。 テキスト フィールドにテキストを入力すると、仮想のイーロン マスク、ビル ゲイツ、ペギー ヒル、ダフィー ダック、アレックス トレベック、ビービス、ジョーカー、さらには Siri に事前にプログラムされたセリフを読み上げさせることができます。
昨年、PCWorld を称賛する偽の Bill Clinton をアップロードしましたが、このモデルはすでにかなり良い音を出しています。
音声を再現するように AI をトレーニングするには、クリアな音声サンプルをアップロードする必要があります。 AI は、話し手が音と目標をどのように組み合わせるかを「学習」して、それらの関係を学習し、完成させ、結果を模倣します。 1992年の優れたスリラーに精通している場合 スニーカー (ロバート・レッドフォード、シドニー・ポワチエ、ベン・キングズレーなどのオールスターキャストによる)、そして、キャラクターがターゲットの声の音声サンプルを録音することによって生体認証音声パスワードを「クラック」する必要があるシーンについて知っています. . これはほぼ同じものです。
通常、優れた音声モデルを組み立てるには、特定の人物の話し方を示す長いサンプルを使用して、かなりのトレーニングが必要になる場合があります。 ただし、ここ数日で新しいことが明らかになりました。 Microsoft Vall-E、研究論文 完全にプログラム可能な音声を生成するためにわずか数秒のソース オーディオを必要とする合成音声の (実際の例を使用)。
当然のことながら、AI 研究者や他の AI グループは、Vall-E モデルがまだ公開されているかどうかを知りたがっていました。 答えはノーですが、必要に応じて、Tortoise と呼ばれる別のモデルで遊ぶこともできます。 (著者は、それが遅いので Tortoise と呼ばれていると述べていますが、それは動作します。)
Tortoise で自分の AI 音声をトレーニングする
Tortoise の興味深い点は、いくつかのオーディオ クリップをアップロードするだけで、選択したどの声でもモデルをトレーニングできることです。 の Tortoise の GitHub ページ 約十数秒のクリップをいくつか用意する必要があることに注意してください。 特定の品質の .WAV ファイルとして保存する必要があります。
それはどのように機能しますか? あなたが気付いていない可能性のある公益事業を通じて: グーグルコラボ. 基本的に、Collab は Google が提供する Python サーバーへのアクセスを可能にするクラウド サービスです。 あなた (または他の誰か) が書いたコードはノートブックとして保存でき、一般的な Google アカウントを持つユーザーと共有できます。 の Tortoise共有リソースはこちら.
インターフェイスは威圧的に見えますが、それほど悪くはありません。 Google ユーザーとしてログインし、右上隅にある [接続] をクリックする必要があります。 警告の言葉。 この Colab は Google ドライブに何もダウンロードしませんが、他の Colab はダウンロードする可能性があります。 (ただし、これが生成する音声ファイルはブラウザに保存されますが、PC にダウンロードできます。) 他の誰かが書いたコードを実行していることに注意してください。 入力が正しくないか、使用可能な GPU がないなどのバックエンドで Google の問題が発生したために、エラー メッセージが表示される場合があります。 それはすべて少し実験的です。
コードの各ブロックには、マウスをその上に置くと表示される小さな「再生」アイコンがあります。 コードの各ブロックで「再生」をクリックして実行し、各ブロックが実行されるのを待ってから次のブロックを実行する必要があります。
すべての機能について詳細な手順を説明するつもりはありませんが、赤いテキストはユーザーが変更できることに注意してください。たとえば、モデルに話してもらいたい提案テキストなどです。 約 XNUMX ブロック下に、モデルをトレーニングするオプションがあります。 モデルに名前を付けてから、オーディオ ファイルをアップロードする必要があります。 それが完了したら、XNUMX 番目のブロックで新しいオーディオ モデルを選択し、コードを実行してから、XNUMX 番目のブロックでテキストを構成します。 走る それ コードブロック。
すべてが計画どおりに進むと、サンプル音声の小さなオーディオ出力が得られます。 それは機能しますか? さて、私は同僚のゴードン・マー・ウンの素早い音声モデルを作成しました。 フルオタクポッドキャスト 各種動画も。 短いスニペットではなく、数分間のサンプルをアップロードして、それが機能するかどうかを確認しました.
結果? まあ、それ 音 本物そっくりですが、ゴードンのようではありません。 今のところ、彼は確かにデジタルのなりすましから安全です. (これは、ファストフードチェーンを推奨するものでもありません。)
しかし、Tortoise の作成者が俳優のトム ハンクスでトレーニングした既存のモデルはかなり良さそうです。 ここで話しているのはトム・ハンクスではありません! トムもやった 私に仕事を提供してくれましたが、私の友人の少なくとも XNUMX 人を騙すには十分でした。
結論? 少し怖いのですが、聞いたこと (そしてすぐに目にすること) を信じる時代は終わりを迎えようとしています。 または、すでに持っています。
クーポンコード
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html
- 1
- 2023
- 39
- a
- 私たちについて
- アクセス
- 実際に
- 適応する
- AI
- アレックス
- アルゴリズム
- すべて
- ことができます
- 既に
- 間で
- amp
- および
- 別の
- 回答
- アプローチ
- 周りに
- 記事
- 人工の
- オーディオ
- 著者
- 利用できます
- バック
- 悪い
- なぜなら
- 始まった
- 信じる
- ビル
- ビル·クリントン
- ビル·ゲイツ
- バイオメトリック
- ビット
- ブロック
- ブロック
- ブラウザ
- (Comma Separated Values) ボタンをクリックして、各々のジョブ実行の詳細(開始/停止時間、変数値など)のCSVファイルをダウンロードします。
- コール
- 呼ばれます
- カード
- カテゴリー
- 確かに
- チェーン
- 文字
- チップ
- 選択する
- クリア
- クリップ
- クラウド
- コード
- 同僚
- 組み合わせ
- 注釈
- コマーシャル
- 完了
- 結論
- controls
- コーナー
- ここから
- カバーする
- クレジット
- CSS
- 日付
- 日
- 説明
- 詳細な
- DID
- デジタル
- そうではありません
- ダウン
- ダウンロード
- ダース
- ドライブ
- 各
- エディタ
- どちら
- エロン
- イーロン·マスク
- 登場
- 十分な
- 入力します
- エラー
- 本質的に
- エーテル(ETH)
- さらに
- すべてのもの
- 例
- 例
- 優れた
- 実行します
- 既存の
- 偽
- おなじみの
- 特徴
- 少数の
- フィールド
- File
- 焦点を当てて
- 前者
- 以前は
- 第4
- 友達
- から
- フル
- 完全に
- ゲイツ
- 生成する
- 生成
- 取得する
- 受け
- GitHubの
- 目標
- ゴエス
- 行く
- 良い
- でログイン
- GPU
- 素晴らしい
- 持って
- 高さ
- ホバー
- 認定条件
- しかしながら
- HTML
- HTTPS
- 人間
- 何百
- ICON
- 画像
- in
- index
- 示す
- 説明書
- 興味深い
- インタフェース
- 威圧する
- IT
- 1月
- ジョブ
- ジョーカー
- 知っている
- 大
- 姓
- 昨年
- 学習
- ライン
- リンク
- 少し
- ライブ
- LOOKS
- 作る
- マネージャー
- マーク
- マトリックス
- 最大幅
- メッセージ
- Microsoft
- かもしれない
- 分
- ミラー
- モデル
- 麝香
- 名
- 必要
- 新作
- ニュース
- 次の
- ノート
- ノート
- 提供
- オファー
- ONE
- 開いた
- オープンソース
- 最適化
- オプション
- その他
- その他
- 自分の
- 部
- 特定の
- パスワード
- 過去
- PC
- のワークプ
- 完璧な
- 人
- 個人的な
- ピッチ
- 計画されました
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレイ
- プラグイン
- ポスト
- プレミアム
- 社長
- かなり
- 主要な
- プロフィール
- は、大阪で
- 公共
- 公表
- Python
- 品質
- 読む
- リーディング
- 受け取ります
- 最近
- 録音
- レッド
- の関係
- リリース
- 必要
- 研究
- 研究者
- リソースを追加する。
- 結果
- 結果
- 上昇
- ROBERT
- ロボット
- ロボット
- ロール
- ラン
- ランニング
- 安全な
- 同じ
- Save
- シーン
- 秒
- シニア
- SEO
- サービス
- サービス
- セブン
- shared
- ショート
- すべき
- 単に
- から
- シリ
- ウェブサイト
- サイト
- 座っている
- 遅く
- 小さい
- So
- ソフトウェア
- 誰か
- 何か
- すぐに
- ソース
- 話す
- スピーカー
- 話す
- スピークス
- 特定の
- スピーチ
- start
- 開始
- 手順
- 保存され
- ストーリー
- そのような
- テーブル
- TAG
- 取る
- テクノロジー
- アプリ環境に合わせて
- もの
- 三番
- 介して
- 時間
- 役職
- 〜へ
- あまりに
- トレーニング
- 訓練された
- トレーニング
- 順番
- さえずり
- アップロード
- アップロード
- URL
- ユーザー
- users
- ユーティリティ
- さまざまな
- バージョン
- 、
- 動画
- バーチャル
- ボイス
- 声
- W
- 待っています
- wanted
- 警告
- この試験は
- which
- while
- 誰
- 意志
- 以内
- Word
- 仕事
- 作品
- でしょう
- 書かれた
- 年
- あなたの
- ユーチューブ
- ゼファーネット