AI トムハンクスは私に仕事を提供しませんでしたが、確かに彼のように聞こえます

プラトン再発行

フォロワー： 0

AI トムハンクスは私に仕事を提供してくれませんでしたが、確かに仕事を提供してくれたようです | PCワールド

<!–

–>

画像: Mark Hachman / IDG via Dreamstudio.ai

トム・ハンクスは私に役を売り込むために私に電話しただけではありませんが、確かにそのように聞こえます.

PCWorldが台頭をカバーし始めて以来、 AI アートなどのさまざまな AI アプリケーション、私は GitHub のコードリポジトリと Reddit 内のリンクを探し回っています。Reddit では、人々がさまざまなアプローチのために独自の AI モデルに微調整を投稿しています。

これらのモデルの一部は、実際に商用サイトに掲載され、独自のアルゴリズムを導入したり、オープンソースとして公開されている他のアルゴリズムを採用したりします。既存の AI オーディオサイトの好例は次のとおりです。 Uberduck.ai、文字通り何百もの事前にプログラムされたモデルを提供します。テキストフィールドにテキストを入力すると、仮想のイーロンマスク、ビルゲイツ、ペギーヒル、ダフィーダック、アレックストレベック、ビービス、ジョーカー、さらには Siri に事前にプログラムされたセリフを読み上げさせることができます。

昨年、PCWorld を称賛する偽の Bill Clinton をアップロードしましたが、このモデルはすでにかなり良い音を出しています。

これは、元社長が PCWorld と軽食を持って座っているモデルです。もちろん偽物です。

音声を再現するように AI をトレーニングするには、クリアな音声サンプルをアップロードする必要があります。 AI は、話し手が音と目標をどのように組み合わせるかを「学習」して、それらの関係を学習し、完成させ、結果を模倣します。 1992年の優れたスリラーに精通している場合 スニーカー （ロバート・レッドフォード、シドニー・ポワチエ、ベン・キングズレーなどのオールスターキャストによる）、そして、キャラクターがターゲットの声の音声サンプルを録音することによって生体認証音声パスワードを「クラック」する必要があるシーンについて知っています. . これはほぼ同じものです。

通常、優れた音声モデルを組み立てるには、特定の人物の話し方を示す長いサンプルを使用して、かなりのトレーニングが必要になる場合があります。ただし、ここ数日で新しいことが明らかになりました。 Microsoft Vall-E、研究論文完全にプログラム可能な音声を生成するためにわずか数秒のソースオーディオを必要とする合成音声の (実際の例を使用)。

当然のことながら、AI 研究者や他の AI グループは、Vall-E モデルがまだ公開されているかどうかを知りたがっていました。答えはノーですが、必要に応じて、Tortoise と呼ばれる別のモデルで遊ぶこともできます。 (著者は、それが遅いので Tortoise と呼ばれていると述べていますが、それは動作します。)

Tortoise で自分の AI 音声をトレーニングする

Tortoise の興味深い点は、いくつかのオーディオクリップをアップロードするだけで、選択したどの声でもモデルをトレーニングできることです。の Tortoise の GitHub ページ約十数秒のクリップをいくつか用意する必要があることに注意してください。特定の品質の .WAV ファイルとして保存する必要があります。

それはどのように機能しますか？あなたが気付いていない可能性のある公益事業を通じて：グーグルコラボ. 基本的に、Collab は Google が提供する Python サーバーへのアクセスを可能にするクラウドサービスです。あなた (または他の誰か) が書いたコードはノートブックとして保存でき、一般的な Google アカウントを持つユーザーと共有できます。の Tortoise共有リソースはこちら.

インターフェイスは威圧的に見えますが、それほど悪くはありません。 Google ユーザーとしてログインし、右上隅にある [接続] をクリックする必要があります。警告の言葉。この Colab は Google ドライブに何もダウンロードしませんが、他の Colab はダウンロードする可能性があります。 (ただし、これが生成する音声ファイルはブラウザに保存されますが、PC にダウンロードできます。) 他の誰かが書いたコードを実行していることに注意してください。入力が正しくないか、使用可能な GPU がないなどのバックエンドで Google の問題が発生したために、エラーメッセージが表示される場合があります。それはすべて少し実験的です。

Google コラボ亀 — 亀コラボ。 [接続] ボタンをクリックして開始し、コードの各ブロックの横にある小さな [再生] アイコンをクリックします。

Mark Hachman / IDG

コードの各ブロックには、マウスをその上に置くと表示される小さな「再生」アイコンがあります。コードの各ブロックで「再生」をクリックして実行し、各ブロックが実行されるのを待ってから次のブロックを実行する必要があります。

すべての機能について詳細な手順を説明するつもりはありませんが、赤いテキストはユーザーが変更できることに注意してください。たとえば、モデルに話してもらいたい提案テキストなどです。約 XNUMX ブロック下に、モデルをトレーニングするオプションがあります。モデルに名前を付けてから、オーディオファイルをアップロードする必要があります。それが完了したら、XNUMX 番目のブロックで新しいオーディオモデルを選択し、コードを実行してから、XNUMX 番目のブロックでテキストを構成します。走るそれコードブロック。

すべてが計画どおりに進むと、サンプル音声の小さなオーディオ出力が得られます。それは機能しますか？さて、私は同僚のゴードン・マー・ウンの素早い音声モデルを作成しました。フルオタクポッドキャスト各種動画も。短いスニペットではなく、数分間のサンプルをアップロードして、それが機能するかどうかを確認しました.

結果？まあ、それ音本物そっくりですが、ゴードンのようではありません。今のところ、彼は確かにデジタルのなりすましから安全です. （これは、ファストフードチェーンを推奨するものでもありません。）

しかし、Tortoise の作成者が俳優のトムハンクスでトレーニングした既存のモデルはかなり良さそうです。ここで話しているのはトム・ハンクスではありません！トムもやった私に仕事を提供してくれましたが、私の友人の少なくとも XNUMX 人を騙すには十分でした。

結論？少し怖いのですが、聞いたこと (そしてすぐに目にすること) を信じる時代は終わりを迎えようとしています。または、すでに持っています。

著者：マークハックマン、シニアエディター

PCWorldの主任編集者として、MarkはMicrosoftのニュースやチップテクノロジーなどに焦点を当てています。彼は以前、PCMag、BYTE、Slashdot、eWEEK、およびReadWriteのために執筆しました。

Mark Hachmanによる最近の話：

クーポンコード

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html

タイムスタンプ： 2023 年 1 月 13 日

タイムスタンプ： 2023 年 8 月 18 日

AI トムハンクスは私に仕事を提供してくれませんでしたが、確かに仕事を提供してくれたようです

プラトン再発行

Tortoise で自分の AI 音声をトレーニングする

著者：マークハックマン、シニアエディター

Mark Hachmanによる最近の話：

クーポンコード

より多くの PC World

1,500ドル未満の最高のゲーミングノートパソコン：全体的に最高、最もポータブル、その他

Counter-Strike 2 が Steam で無料で登場

これらの翻訳イヤフォンで 2023 年に新しい都市を探索 — 今なら 55% オフ

2024 年にはモニターの購入方法が大きく変わるでしょう

Google は、ブラウザゲームに GPU を利用した大幅なアップグレードを行いました

このホリデーシーズンにわずか 20 ドルで生涯学習を体験しましょう

Android用の最高の無料アンチウイルス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー