AI Tom Hanks bood me geen baan aan, maar het klinkt zeker alsof hij het deed

Heruitgegeven door Plato

volgers: 0

AI Tom Hanks heeft me geen baan aangeboden, maar het klinkt zeker alsof hij dat wel deed | Computer wereld

<!–

De mens kijkt in de spiegel naar de robot

Afbeelding: Mark Hachman / IDG via Dreamstudio.ai

Tom Hanks belde me niet alleen om een rol voor me te pitchen, maar het klinkt zeker zo.

Sinds PCWorld begon met het verslaan van de opkomst van verschillende AI-toepassingen zoals AI-kunst, Ik heb rondgesnuffeld in de coderepository's in GitHub en links binnen Reddit, waar mensen tweaks zullen posten voor hun eigen AI-modellen voor verschillende benaderingen.

Sommige van deze modellen komen daadwerkelijk terecht op commerciële sites, die hun eigen algoritmen gebruiken of andere aanpassen die als open source zijn gepubliceerd. Een goed voorbeeld van een bestaande AI-audiosite is Uberduck.ai, die letterlijk honderden voorgeprogrammeerde modellen biedt. Voer de tekst in het tekstveld in en je kunt een virtuele Elon Musk, Bill Gates, Peggy Hill, Daffy Duck, Alex Trebek, Beavis, The Joker of zelfs Siri je voorgeprogrammeerde regels laten voorlezen.

We hebben vorig jaar een valse Bill Clinton geüpload die PCWorld prees en het model klinkt al redelijk goed.

Hier is een model van onze voormalige president die aan tafel zit met PCWorld en een snack. Het is natuurlijk nep.

Het trainen van een AI om spraak te reproduceren, omvat het uploaden van duidelijke stemvoorbeelden. De AI "leert" hoe de spreker geluiden combineert met het doel om die relaties te leren, te perfectioneren en de resultaten te imiteren. Als je bekend bent met de uitstekende thriller uit 1992 Sneakers (met een all-star cast van onder andere Robert Redford, Sidney Poitier en Ben Kingsley), dan ken je de scène waarin de personages een biometrisch stemwachtwoord moeten "kraken" door een stemvoorbeeld van de stem van het doelwit op te nemen . Dit is bijna precies hetzelfde.

Normaal gesproken kan het samenstellen van een goed stemmodel behoorlijk wat training vergen, met lange voorbeelden om aan te geven hoe een bepaalde persoon spreekt. De afgelopen dagen is er echter iets nieuws opgedoken: Microsoft Vall-E, een onderzoekspaper (met live voorbeelden) van een gesynthetiseerde stem die slechts een paar seconden bronaudio nodig heeft om een volledig programmeerbare stem te genereren.

Natuurlijk wilden AI-onderzoekers en andere AI-groupies weten of het Vall-E-model al voor het publiek was vrijgegeven. Het antwoord is nee, hoewel je desgewenst met een ander model kunt spelen, genaamd Tortoise. (De auteur merkt op dat het Tortoise wordt genoemd omdat het traag is, wat het ook is, maar het werkt.)

Train je eigen AI-stem met Tortoise

Wat Tortoise interessant maakt, is dat je het model kunt trainen op elke stem die je kiest door simpelweg een paar audioclips te uploaden. De Tortoise GitHub-pagina merkt op dat je een paar clips van ongeveer een dozijn seconden of zo zou moeten hebben. U moet ze opslaan als een .WAV-bestand met een specifieke kwaliteit.

Hoe werkt het allemaal? Via een openbare nutsvoorziening waarvan u misschien niet op de hoogte bent: Google Colab. Collab is in wezen een cloudservice die Google aanbiedt en die toegang geeft tot een Python-server. De code die u (of iemand anders) schrijft, kan worden opgeslagen als een notitieblok, dat kan worden gedeeld met gebruikers die een generiek Google-account hebben. De Schildpad gedeelde bron is hier.

De interface ziet er intimiderend uit, maar is niet zo erg. U moet zijn aangemeld als Google-gebruiker en vervolgens op 'Verbinden' in de rechterbovenhoek klikken. Een waarschuwing. Hoewel deze Colab niets naar je Google Drive downloadt, kunnen andere Colabs dat wel. (De audiobestanden die hierdoor worden gegenereerd, worden echter opgeslagen in de browser, maar kunnen naar uw pc worden gedownload.) Houd er rekening mee dat u code gebruikt die iemand anders heeft geschreven. Mogelijk ontvangt u foutmeldingen vanwege slechte invoer of omdat Google een hapering heeft aan de achterkant, zoals het ontbreken van een beschikbare GPU. Het is allemaal een beetje experimenteel.

Google Collab Schildpad — De Tortoise-samenwerking. Klik op de knop "Verbinden" om aan de slag te gaan en klik vervolgens achtereenvolgens op het kleine "afspelen" -pictogram naast elk codeblok.

Mark Hachman / IDG

Elk codeblok heeft een klein "afspeel"-pictogram dat verschijnt als u er met uw muis overheen beweegt. U moet op elk codeblok op "afspelen" klikken om het uit te voeren, wachtend tot elk blok is uitgevoerd voordat u het volgende uitvoert.

Hoewel we niet stap voor stap door gedetailleerde instructies voor alle functies gaan, moet u er rekening mee houden dat de rode tekst door de gebruiker kan worden gewijzigd, zoals de voorgestelde tekst die u het model wilt laten uitspreken. Ongeveer zeven blokken verderop heb je de mogelijkheid om het model te trainen. U moet het model een naam geven en vervolgens de audiobestanden uploaden. Wanneer dat is voltooid, selecteert u het nieuwe audiomodel in het vierde blok, voert u de code uit en configureert u vervolgens de tekst in het derde blok. Rennen dat code blok.

Als alles volgens plan verloopt, heb je een kleine audio-uitvoer van je voorbeeldstem. Werkt het? Wel, ik deed een quick-and-dirty stemmodel van mijn collega Gordon Mah Ung, wiens werk op onze De Full Nerd-podcast evenals verschillende video's. Ik heb een voorbeeld van enkele minuten geüpload in plaats van de korte fragmenten, gewoon om te zien of het zou werken.

Het resultaat? Nou, het geluiden levensecht, maar helemaal niet zoals Gordon. Hij is voorlopig zeker veilig voor digitale imitatie. (Dit is ook geen goedkeuring van een fastfoodketen.)

Maar een bestaand model dat de Tortoise-auteur op acteur Tom Hanks heeft getraind, klinkt best goed. Dit is niet Tom Hanks die hier spreekt! Tom deed het ook niet bood me een baan aan, maar het was genoeg om minstens één van mijn vrienden voor de gek te houden.

De conclusie? Het is een beetje eng: het tijdperk van geloven wat we horen (en binnenkort zien) loopt ten einde. Of dat heeft het al gedaan.

Auteur: Mark Hachman, Senior redacteur

Als senior editor van PCWorld richt Mark zich onder meer op Microsoft-nieuws en chiptechnologie. Hij heeft eerder geschreven voor PCMag, BYTE, Slashdot, eWEEK en ReadWrite.

Recente verhalen van Mark Hachman:

Couponcodes

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
Platoblockchain. Web3 Metaverse Intelligentie. Kennis versterkt. Toegang hier.
Bron: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html

Tijdstempel: 13 januari 2023

Tijdstempel: Augustus 18, 2023

AI Tom Hanks heeft me geen baan aangeboden, maar zo te horen heeft hij dat wel gedaan

Heruitgegeven door Plato

Train je eigen AI-stem met Tortoise

Auteur: Mark Hachman, Senior redacteur

Recente verhalen van Mark Hachman:

Couponcodes

Meer van computer wereld

De beste gaming-laptops onder de $ 1,500: de beste in het algemeen, de meest draagbare en meer

Counter-Strike 2 is hier en gratis op Steam

Verken nieuwe steden in 2023 met deze vertaaloordopjes — nu 55% korting

In 2024 zal er een enorme verandering plaatsvinden in de manier waarop u monitoren koopt

Google heeft zojuist browsergames een enorme GPU-aangedreven upgrade gegeven

Geef deze feestdagen een leven lang leren voor slechts $ 20

De beste gratis antivirus voor Android

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account