->
Bild: Mark Hachman / IDG über Dreamstudio.ai
Tom Hanks hat mich nicht nur angerufen, um mir eine Rolle vorzuschlagen, aber es klingt auf jeden Fall danach.
Seitdem PCWorld begann, über den Aufstieg von zu berichten verschiedene KI-Anwendungen wie KI-Kunst, habe ich in den Code-Repositories in GitHub und Links in Reddit herumgestöbert, wo Leute Optimierungen an ihren eigenen KI-Modellen für verschiedene Ansätze posten.
Einige dieser Modelle landen tatsächlich auf kommerziellen Websites, die entweder ihre eigenen Algorithmen verwenden oder andere anpassen, die als Open Source veröffentlicht wurden. Ein großartiges Beispiel für eine bestehende KI-Audio-Site ist Uberduck.ai, das buchstäblich Hunderte von vorprogrammierten Modellen bietet. Geben Sie den Text in das Textfeld ein und Sie können sich Ihre vorprogrammierten Zeilen von einem virtuellen Elon Musk, Bill Gates, Peggy Hill, Daffy Duck, Alex Trebek, Beavis, The Joker oder sogar Siri vorlesen lassen.
Wir haben letztes Jahr einen gefälschten Bill Clinton hochgeladen, der PCWorld lobte, und das Modell klingt bereits ziemlich gut.
Das Training einer KI zur Wiedergabe von Sprache beinhaltet das Hochladen klarer Sprachproben. Die KI „lernt“, wie der Sprecher Klänge kombiniert, mit dem Ziel, diese Beziehungen zu lernen, sie zu perfektionieren und die Ergebnisse zu imitieren. Wenn Sie mit dem exzellenten Thriller von 1992 vertraut sind Sneakers (mit einer All-Star-Besetzung von unter anderem Robert Redford, Sidney Poitier und Ben Kingsley), dann kennen Sie die Szene, in der die Charaktere ein biometrisches Stimmpasswort „knacken“ müssen, indem sie eine Stimmprobe der Stimme des Ziels aufzeichnen . Das ist fast genau dasselbe.
Normalerweise kann das Zusammenstellen eines guten Stimmmodells ziemlich viel Training erfordern, mit langen Beispielen, um anzuzeigen, wie eine bestimmte Person spricht. In den vergangenen Tagen ist jedoch etwas Neues aufgetaucht: Microsoft Vall-E, eine Forschungsarbeit (mit Live-Beispielen) einer synthetisierten Stimme, die nur wenige Sekunden Quellaudio benötigt, um eine vollständig programmierbare Stimme zu erzeugen.
Natürlich wollten KI-Forscher und andere KI-Groupies wissen, ob das Vall-E-Modell schon für die Öffentlichkeit freigegeben wurde. Die Antwort ist nein, obwohl Sie mit einem anderen Modell namens Tortoise spielen können, wenn Sie möchten. (Der Autor merkt an, dass es Tortoise heißt, weil es langsam ist, was es auch ist, aber es funktioniert.)
Trainiere deine eigene KI-Stimme mit Tortoise
Was Tortoise interessant macht, ist, dass Sie das Modell auf jeder beliebigen Stimme trainieren können, indem Sie einfach ein paar Audioclips hochladen. Die Tortoise-GitHub-Seite stellt fest, dass Sie einige Clips von etwa einem Dutzend Sekunden oder so haben sollten. Sie müssen sie als .WAV-Datei mit einer bestimmten Qualität speichern.
Wie funktioniert das alles? Durch ein öffentliches Versorgungsunternehmen, das Sie möglicherweise nicht kennen: Google Colab. Collab ist im Wesentlichen ein von Google bereitgestellter Cloud-Dienst, der den Zugriff auf einen Python-Server ermöglicht. Der von Ihnen (oder einer anderen Person) geschriebene Code kann als Notizbuch gespeichert werden, das mit Benutzern geteilt werden kann, die über ein generisches Google-Konto verfügen. Die Tortoise freigegebene Ressource ist hier.
Die Benutzeroberfläche sieht einschüchternd aus, ist aber nicht so schlimm. Sie müssen als Google-Nutzer angemeldet sein und dann oben rechts auf „Verbinden“ klicken. Ein Wort der Warnung. Während dieses Colab nichts auf Ihr Google Drive herunterlädt, könnten andere Colabs dies tun. (Die dabei erzeugten Audiodateien werden zwar im Browser gespeichert, können aber auf Ihren PC heruntergeladen werden.) Beachten Sie, dass Sie Code ausführen, den jemand anderes geschrieben hat. Möglicherweise erhalten Sie Fehlermeldungen entweder aufgrund schlechter Eingaben oder weil Google einen Schluckauf im Backend hat, z. B. weil keine GPU verfügbar ist. Es ist alles ein bisschen experimentell.
Jeder Codeblock hat ein kleines „Play“-Symbol, das erscheint, wenn Sie mit der Maus darüber fahren. Sie müssen bei jedem Codeblock auf „Play“ klicken, um ihn auszuführen, und warten, bis jeder Block ausgeführt wird, bevor Sie den nächsten ausführen.
Wir werden zwar keine detaillierten Anweisungen zu allen Funktionen durchgehen, beachten Sie jedoch, dass der rote Text vom Benutzer geändert werden kann, z. B. der vorgeschlagene Text, den das Modell sprechen soll. Ungefähr sieben Blocks weiter haben Sie die Möglichkeit, das Modell zu trainieren. Sie müssen das Modell benennen und dann die Audiodateien hochladen. Wenn dies abgeschlossen ist, wählen Sie das neue Audiomodell im vierten Block aus, führen Sie den Code aus und konfigurieren Sie dann den Text im dritten Block. Laufen zur Verbesserung der Gesundheitsgerechtigkeit Codeblock.
Wenn alles wie geplant läuft, erhalten Sie eine kleine Audioausgabe Ihrer Beispielstimme. Funktioniert es? Nun, ich habe ein Quick-and-Dirty-Stimmenmodell meines Kollegen Gordon Mah Ung gemacht, dessen Arbeit auf unserer erscheint Der Full Nerd-Podcast sowie diverse Videos. Ich habe statt der kurzen Snippets ein mehrminütiges Beispiel hochgeladen, nur um zu sehen, ob es funktionieren würde.
Das Ergebnis? Nun, es Geräusche lebensecht, aber überhaupt nicht wie Gordon. Vorerst ist er sicher vor digitalem Identitätswechsel. (Dies ist auch keine Billigung einer Fast-Food-Kette.)
Aber ein bestehendes Modell, das der Tortoise-Autor am Schauspieler Tom Hanks trainiert hat, klingt ziemlich gut. Hier spricht nicht Tom Hanks! Tom tat es auch nicht bot mir einen Job an, aber es reichte aus, um mindestens einen meiner Freunde zu täuschen.
Die Schlussfolgerung? Es ist ein bisschen beängstigend: Das Zeitalter des Glaubens an das, was wir hören (und bald sehen), geht zu Ende. Oder hat es bereits.
Gutscheincodes
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. Hier zugreifen.
- Quelle: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html
- 1
- 2023
- 39
- a
- Über uns
- Zugang
- Konto
- berührt das Schneidwerkzeug
- automatisch
- AI
- alex
- Algorithmen
- Alle
- erlaubt
- bereits
- unter
- amp
- und
- Ein anderer
- beantworten
- Anwendungen
- Ansätze
- um
- Artikel
- künstlich
- Audio-
- Autor
- verfügbar
- Zurück
- Badewanne
- weil
- Bevor
- begann
- Glauben
- Bill
- Bill Clinton
- Bill Gates
- biometrisch
- Bit
- Blockieren
- Blockiert
- Browser
- Taste im nun erscheinenden Bestätigungsfenster nun wieder los.
- rufen Sie uns an!
- namens
- Karte
- Kategorie
- sicherlich
- Kette
- Zeichen
- Chip
- Auswählen
- klar
- Clips
- Cloud
- Code
- Kollegen
- vereint
- Bemerkungen
- kommerziell
- Wird abgeschlossen
- Abschluss
- Steuerung
- Ecke
- Kurs
- Abdeckung
- Kredit
- CSS
- Datum
- Tage
- Beschreibung
- detailliert
- DID
- digital
- Tut nicht
- nach unten
- herunterladen
- Dutzend
- Antrieb
- jeder
- Herausgeber
- entweder
- Elon
- Elon Musk
- entstanden
- genug
- Enter
- Fehler
- im Wesentlichen
- Äther (ETH)
- Sogar
- alles
- Beispiel
- Beispiele
- Ausgezeichnet
- ausführen
- vorhandenen
- Fälschung
- vertraut
- Eigenschaften
- wenige
- Feld
- Reichen Sie das
- Mappen
- konzentriert
- folgen
- Früher
- früher
- Vierte
- Freunde
- für
- voller
- voll
- Gates
- erzeugen
- erzeugt
- bekommen
- bekommen
- GitHub
- Kundenziele
- Goes
- gehen
- gut
- GPU
- groß
- mit
- Höhe
- schweben
- Ultraschall
- aber
- HTML
- HTTPS
- human
- hunderte
- ICON
- Image
- in
- Index
- zeigen
- Anleitung
- interessant
- Schnittstelle
- einschüchternd
- IT
- Januar
- Job
- Joker
- Wissen
- grosse
- Nachname
- Letztes Jahr
- lernen
- Linien
- Links
- wenig
- leben
- SIEHT AUS
- MACHT
- Manager
- Kennzeichen
- Matrix
- max-width
- Nachrichten
- Microsoft
- könnte
- Minuten
- Spiegel
- Modell
- für
- Moschus
- Name
- Need
- Neu
- News
- weiter
- Notizbuch
- Notizen
- bieten
- Angebote
- EINEM
- XNUMXh geöffnet
- Open-Source-
- optimiert
- Option
- Andere
- Anders
- besitzen
- Teil
- besondere
- Passwort
- passt
- PC
- Personen
- Perfektionierung
- person
- persönliche
- Tonhöhe (Pitch)
- geplant
- Plato
- Datenintelligenz von Plato
- PlatoData
- Play
- Plugin
- Post
- Premium
- Präsident
- ziemlich
- primär
- Profil
- bietet
- Öffentlichkeit
- veröffentlicht
- Python
- Qualität
- Lesen Sie mehr
- Lesebrillen
- erhalten
- kürzlich
- Einspielung vor
- Rot
- Beziehungen
- freigegeben
- erfordert
- Forschungsprojekte
- Forscher
- Ressourcen
- Folge
- Die Ergebnisse
- Rise
- ROBERT
- Roboter
- Roboter
- Rollen
- Führen Sie
- Laufen
- safe
- gleich
- Speichern
- Szene
- Sekunden
- Senior
- seo
- Leistungen
- sieben
- von Locals geführtes
- Short
- sollte
- einfach
- da
- Single
- Krabbe
- am Standort
- Seiten
- Sitzend
- langsam
- klein
- So
- Software
- Jemand,
- etwas
- Bald
- Quelle
- sprechen
- Speaker
- Sprechen
- spricht
- spezifisch
- Rede
- Anfang
- begonnen
- Schritt
- gelagert
- Geschichten
- so
- Tabelle
- TAG
- Nehmen
- Technologie
- Das
- ihr
- Ding
- Dritte
- Durch
- Zeit
- Titel
- zu
- auch
- Training
- trainiert
- Ausbildung
- WENDE
- hochgeladen
- Uploading
- URL
- Mitglied
- Nutzer
- Nutzen
- verschiedene
- Version
- Videos
- Assistent
- Stimme
- STIMMEN
- W
- Warten
- wollte
- Warnung
- Was
- welche
- während
- WHO
- werden wir
- .
- Word
- Arbeiten
- Werk
- würde
- geschrieben
- Jahr
- Ihr
- Youtube
- Zephyrnet