KI Tom Hanks hat mir keinen Job angeboten, aber es hört sich auf jeden Fall so an, als hätte er es getan

Neuauflage von Plato

Verfolger: 0

AI Tom Hanks hat mir keinen Job angeboten, aber es hört sich ganz danach an | PC Welt

<!--

Der Mensch schaut in den Roboter im Spiegel

Bild: Mark Hachman / IDG über Dreamstudio.ai

Tom Hanks hat mich nicht nur angerufen, um mir eine Rolle vorzuschlagen, aber es klingt auf jeden Fall danach.

Seitdem PCWorld begann, über den Aufstieg von zu berichten verschiedene KI-Anwendungen wie KI-Kunst, habe ich in den Code-Repositories in GitHub und Links in Reddit herumgestöbert, wo Leute Optimierungen an ihren eigenen KI-Modellen für verschiedene Ansätze posten.

Einige dieser Modelle landen tatsächlich auf kommerziellen Websites, die entweder ihre eigenen Algorithmen verwenden oder andere anpassen, die als Open Source veröffentlicht wurden. Ein großartiges Beispiel für eine bestehende KI-Audio-Site ist Uberduck.ai, das buchstäblich Hunderte von vorprogrammierten Modellen bietet. Geben Sie den Text in das Textfeld ein und Sie können sich Ihre vorprogrammierten Zeilen von einem virtuellen Elon Musk, Bill Gates, Peggy Hill, Daffy Duck, Alex Trebek, Beavis, The Joker oder sogar Siri vorlesen lassen.

Wir haben letztes Jahr einen gefälschten Bill Clinton hochgeladen, der PCWorld lobte, und das Modell klingt bereits ziemlich gut.

Hier ist ein Modell unseres ehemaligen Präsidenten, der sich mit PCWorld und einem Snack zusammensetzt. Es ist natürlich gefälscht.

Das Training einer KI zur Wiedergabe von Sprache beinhaltet das Hochladen klarer Sprachproben. Die KI „lernt“, wie der Sprecher Klänge kombiniert, mit dem Ziel, diese Beziehungen zu lernen, sie zu perfektionieren und die Ergebnisse zu imitieren. Wenn Sie mit dem exzellenten Thriller von 1992 vertraut sind Sneakers (mit einer All-Star-Besetzung von unter anderem Robert Redford, Sidney Poitier und Ben Kingsley), dann kennen Sie die Szene, in der die Charaktere ein biometrisches Stimmpasswort „knacken“ müssen, indem sie eine Stimmprobe der Stimme des Ziels aufzeichnen . Das ist fast genau dasselbe.

Normalerweise kann das Zusammenstellen eines guten Stimmmodells ziemlich viel Training erfordern, mit langen Beispielen, um anzuzeigen, wie eine bestimmte Person spricht. In den vergangenen Tagen ist jedoch etwas Neues aufgetaucht: Microsoft Vall-E, eine Forschungsarbeit (mit Live-Beispielen) einer synthetisierten Stimme, die nur wenige Sekunden Quellaudio benötigt, um eine vollständig programmierbare Stimme zu erzeugen.

Natürlich wollten KI-Forscher und andere KI-Groupies wissen, ob das Vall-E-Modell schon für die Öffentlichkeit freigegeben wurde. Die Antwort ist nein, obwohl Sie mit einem anderen Modell namens Tortoise spielen können, wenn Sie möchten. (Der Autor merkt an, dass es Tortoise heißt, weil es langsam ist, was es auch ist, aber es funktioniert.)

Trainiere deine eigene KI-Stimme mit Tortoise

Was Tortoise interessant macht, ist, dass Sie das Modell auf jeder beliebigen Stimme trainieren können, indem Sie einfach ein paar Audioclips hochladen. Die Tortoise-GitHub-Seite stellt fest, dass Sie einige Clips von etwa einem Dutzend Sekunden oder so haben sollten. Sie müssen sie als .WAV-Datei mit einer bestimmten Qualität speichern.

Wie funktioniert das alles? Durch ein öffentliches Versorgungsunternehmen, das Sie möglicherweise nicht kennen: Google Colab. Collab ist im Wesentlichen ein von Google bereitgestellter Cloud-Dienst, der den Zugriff auf einen Python-Server ermöglicht. Der von Ihnen (oder einer anderen Person) geschriebene Code kann als Notizbuch gespeichert werden, das mit Benutzern geteilt werden kann, die über ein generisches Google-Konto verfügen. Die Tortoise freigegebene Ressource ist hier.

Die Benutzeroberfläche sieht einschüchternd aus, ist aber nicht so schlimm. Sie müssen als Google-Nutzer angemeldet sein und dann oben rechts auf „Verbinden“ klicken. Ein Wort der Warnung. Während dieses Colab nichts auf Ihr Google Drive herunterlädt, könnten andere Colabs dies tun. (Die dabei erzeugten Audiodateien werden zwar im Browser gespeichert, können aber auf Ihren PC heruntergeladen werden.) Beachten Sie, dass Sie Code ausführen, den jemand anderes geschrieben hat. Möglicherweise erhalten Sie Fehlermeldungen entweder aufgrund schlechter Eingaben oder weil Google einen Schluckauf im Backend hat, z. B. weil keine GPU verfügbar ist. Es ist alles ein bisschen experimentell.

Google Collab Schildkröte — Die Tortoise-Kollaboration. Klicken Sie auf die Schaltfläche „Verbinden“, um loszulegen, und klicken Sie dann nacheinander auf das kleine „Play“-Symbol neben jedem Codeblock.

Mark Hachman / IDG

Jeder Codeblock hat ein kleines „Play“-Symbol, das erscheint, wenn Sie mit der Maus darüber fahren. Sie müssen bei jedem Codeblock auf „Play“ klicken, um ihn auszuführen, und warten, bis jeder Block ausgeführt wird, bevor Sie den nächsten ausführen.

Wir werden zwar keine detaillierten Anweisungen zu allen Funktionen durchgehen, beachten Sie jedoch, dass der rote Text vom Benutzer geändert werden kann, z. B. der vorgeschlagene Text, den das Modell sprechen soll. Ungefähr sieben Blocks weiter haben Sie die Möglichkeit, das Modell zu trainieren. Sie müssen das Modell benennen und dann die Audiodateien hochladen. Wenn dies abgeschlossen ist, wählen Sie das neue Audiomodell im vierten Block aus, führen Sie den Code aus und konfigurieren Sie dann den Text im dritten Block. Laufen zur Verbesserung der Gesundheitsgerechtigkeit Codeblock.

Wenn alles wie geplant läuft, erhalten Sie eine kleine Audioausgabe Ihrer Beispielstimme. Funktioniert es? Nun, ich habe ein Quick-and-Dirty-Stimmenmodell meines Kollegen Gordon Mah Ung gemacht, dessen Arbeit auf unserer erscheint Der Full Nerd-Podcast sowie diverse Videos. Ich habe statt der kurzen Snippets ein mehrminütiges Beispiel hochgeladen, nur um zu sehen, ob es funktionieren würde.

Das Ergebnis? Nun, es Geräusche lebensecht, aber überhaupt nicht wie Gordon. Vorerst ist er sicher vor digitalem Identitätswechsel. (Dies ist auch keine Billigung einer Fast-Food-Kette.)

Aber ein bestehendes Modell, das der Tortoise-Autor am Schauspieler Tom Hanks trainiert hat, klingt ziemlich gut. Hier spricht nicht Tom Hanks! Tom tat es auch nicht bot mir einen Job an, aber es reichte aus, um mindestens einen meiner Freunde zu täuschen.

Die Schlussfolgerung? Es ist ein bisschen beängstigend: Das Zeitalter des Glaubens an das, was wir hören (und bald sehen), geht zu Ende. Oder hat es bereits.

Autor: Mark Hachmann, Chefredakteur

Als leitender Redakteur von PCWorld konzentriert sich Mark unter anderem auf Microsoft-Nachrichten und Chip-Technologie. Zuvor hat er für PCMag, BYTE, Slashdot, eWEEK und ReadWrite geschrieben.

Aktuelle Geschichten von Mark Hachman:

Gutscheincodes

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. Hier zugreifen.
Quelle: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html

Zeitstempel: 13. Januar 2023

Zeitstempel: 15. Dezember 2023

AI Tom Hanks hat mir keinen Job angeboten, aber es hört sich ganz danach an

Neuauflage von Plato

Trainiere deine eigene KI-Stimme mit Tortoise

Autor: Mark Hachmann, Chefredakteur

Aktuelle Geschichten von Mark Hachman:

Gutscheincodes

Mehr von PC World

RIP Cortana: Microsoft sagt, dass seine Windows-KI-App sterben wird

Getestet: Microsofts DirectStorage-Technologie signalisiert den Sonnenuntergang von SATA-SSDs

Lenovos neuer farbiger E-Ink-Laptop könnte den Kauf wert sein

Der luxuriöse XPS 13-Laptop von Dell ist für 650 US-Dollar im Angebot

Nvidia veröffentlicht GeForce RTX 4070 Ti, fortschrittliche Laptops der RTX 40-Serie und mehr

Lernen Sie jeden Tag etwas Neues mit einem zusätzlichen Rabatt von 20 $ auf Headway

Acers neuestes Swift Edge 16 wird dünner, intelligenter und günstiger

Die 1 wichtigste Sicherheitsvorkehrung, die Sie auf einem neuen PC immer aktivieren sollten

Diese Notfalltaschenlampen sind zum Memorial Day im Angebot

Gordon Moore, Mitbegründer von Intel und Legende der Chipindustrie, stirbt im Alter von 94 Jahren

Upgraden Sie lebenslang auf Microsoft Office Pro 2021 für nur 50 $

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto