->
Bild: Mark Hachman / IDG via Dreamstudio.ai
Tom Hanks ringde mig inte bara för att pitcha en roll, men det låter verkligen som det.
Ända sedan PCWorld började täcka uppkomsten av olika AI-applikationer som AI art, Jag har letat runt i kodförråden i GitHub och länkar inom Reddit, där folk kommer att lägga upp justeringar av sina egna AI-modeller för olika tillvägagångssätt.
Vissa av dessa modeller hamnar faktiskt på kommersiella sajter, som antingen rullar sina egna algoritmer eller anpassar andra som har publicerats som öppen källkod. Ett bra exempel på en befintlig AI-ljudsajt är Uberduck.ai, som erbjuder bokstavligen hundratals förprogrammerade modeller. Skriv in texten i textfältet och du kan låta en virtuell Elon Musk, Bill Gates, Peggy Hill, Daffy Duck, Alex Trebek, Beavis, The Joker eller till och med Siri läsa upp dina förprogrammerade rader.
Vi laddade upp en falsk Bill Clinton som prisade PCWorld förra året och modellen låter redan ganska bra.
Att träna en AI för att återge tal innebär att ladda upp tydliga röstprover. AI:n "lär sig" hur högtalaren kombinerar ljud med målet att lära sig dessa relationer, fullända dem och imitera resultaten. Om du är bekant med den utmärkta thrillern från 1992 Gymnastikskor (med bland annat Robert Redford, Sidney Poitier och Ben Kingsley), då vet du om scenen där karaktärerna behöver "knäcka" ett biometriskt röstlösenord genom att spela in ett röstprov av målets röst . Det här är nästan exakt samma sak.
Normalt kan det ta en hel del träning att sätta ihop en bra röstmodell, med långa prover för att indikera hur en viss person talar. Under de senaste dagarna har dock något nytt dykt upp: Microsoft Vall-E, en forskningsartikel (med live-exempel) av en syntetiserad röst som bara kräver några sekunders källljud för att generera en helt programmerbar röst.
Naturligtvis ville AI-forskare och andra AI-grupper veta om Vall-E-modellen hade släppts för allmänheten ännu. Svaret är nej, även om du kan leka med en annan modell om du vill, kallad Tortoise. (Författaren noterar att den heter Tortoise eftersom den är långsam, vilket den är, men den fungerar.)
Träna din egen AI-röst med Tortoise
Det som gör Tortoise intressant är att du kan träna modellen på vilken röst du än väljer genom att bara ladda upp några ljudklipp. De Tortoise GitHub-sida noterar att du bör ha några klipp på ungefär ett dussin sekunder eller så. Du måste spara dem som en .WAV-fil med en viss kvalitet.
Hur fungerar det hela? Genom ett allmännyttigt verktyg som du kanske inte känner till: Google Colab. I huvudsak är Collab en molntjänst som Google tillhandahåller som tillåter åtkomst till en Python-server. Koden som du (eller någon annan) skriver kan lagras som en anteckningsbok, som kan delas med användare som har ett generiskt Google-konto. De Tortoise delade resurs är här.
Gränssnittet ser skrämmande ut, men det är inte så illa. Du måste vara inloggad som Google-användare och sedan måste du klicka på "Anslut" i det övre högra hörnet. Ett ord av varning. Även om denna Colab inte laddar ner något till din Google Drive, kan andra Colabs kanske. (Ljudfilerna som detta genererar lagras dock i webbläsaren men kan laddas ner till din PC.) Var medveten om att du kör kod som någon annan har skrivit. Du kan få felmeddelanden antingen på grund av dåliga ingångar eller på grund av att Google har en hicka på baksidan som att inte ha en tillgänglig GPU. Det hela är lite experimentellt.
Varje kodblock har en liten "spel"-ikon som visas om du håller musen över den. Du måste klicka på "spela" på varje kodblock för att köra det, och vänta på att varje block ska köras innan du kör nästa.
Även om vi inte kommer att gå igenom detaljerade instruktioner om alla funktioner, var bara medveten om att den röda texten kan ändras av användaren, till exempel den föreslagna texten som du vill att modellen ska tala. Ungefär sju kvarter ner har du möjlighet att träna modellen. Du måste namnge modellen och sedan ladda upp ljudfilerna. När det är klart, välj den nya ljudmodellen i det fjärde blocket, kör koden och konfigurera sedan texten i det tredje blocket. Springa den där kodblock.
Om allt går som planerat får du en liten ljudutgång av din provröst. Fungerar det? Tja, jag gjorde en snabb och smutsig röstmodell av min kollega Gordon Mah Ung, vars arbete visas på vår The Full Nerd podcast samt olika videor. Jag laddade upp ett prov på flera minuter istället för de korta utdragen, bara för att se om det skulle fungera.
Resultatet? Tja, det ljud verklighetstrogen, men inte alls som Gordon. Han är säkerligen säker från digital personifiering för tillfället. (Detta är inte heller ett stöd för någon snabbmatskedja.)
Men en befintlig modell som sköldpaddsförfattaren tränade på skådespelaren Tom Hanks låter ganska bra. Det är inte Tom Hanks som talar här! Tom gjorde också inte erbjuda mig ett jobb, men det räckte för att lura åtminstone en av mina vänner.
Slutsatsen? Det är lite läskigt: åldern att tro på det vi hör (och snart ser) tar slut. Eller så har det redan gjort det.
Kupongkoder
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
- Källa: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html
- 1
- 2023
- 39
- a
- Om oss
- tillgång
- Konto
- faktiskt
- anpassa
- AI
- alex
- algoritmer
- Alla
- tillåter
- redan
- bland
- amp
- och
- Annan
- svara
- tillämpningar
- tillvägagångssätt
- runt
- Artikeln
- konstgjord
- audio
- Författaren
- tillgänglig
- tillbaka
- Badrum
- därför att
- innan
- började
- tro
- Bill
- Bill Clinton
- Bill Gates
- biometriska
- Bit
- Blockera
- Block
- webbläsare
- Knappen
- Ring
- kallas
- kortet
- Kategori
- säkerligen
- kedja
- tecken
- chip
- Välja
- klar
- klipp
- cloud
- koda
- kollega
- kombinerar
- kommentarer
- kommersiella
- slutför
- slutsats
- kontroller
- Corner
- Naturligtvis
- beläggning
- kredit
- CSS
- Datum
- Dagar
- beskrivning
- detaljerad
- DID
- digital
- inte
- ner
- ladda ner
- dussin
- driv
- varje
- redaktör
- antingen
- Elon
- Elon Musk
- dykt
- tillräckligt
- ange
- fel
- väsentligen
- Eter (ETH)
- Även
- allt
- exempel
- exempel
- utmärkt
- exekvera
- befintliga
- fejka
- bekant
- Funktioner
- få
- fält
- Fil
- Filer
- fokuserar
- följer
- Tidigare
- förr
- Fjärde
- vänner
- från
- full
- fullständigt
- grindar
- generera
- genererar
- skaffa sig
- få
- GitHub
- Målet
- Går
- kommer
- god
- GPU
- stor
- har
- höjd
- hovring
- Hur ser din drömresa ut
- Men
- html
- HTTPS
- humant
- Hundratals
- IKON
- bild
- in
- index
- indikerar
- instruktioner
- intressant
- Gränssnitt
- hotfull
- IT
- Januari
- Jobb
- Joker
- Vet
- Large
- Efternamn
- Förra året
- inlärning
- rader
- länkar
- liten
- lever
- UTSEENDE
- GÖR
- chef
- markera
- Matris
- max-bredd
- meddelanden
- Microsoft
- kanske
- minuter
- spegel
- modell
- modeller
- Mysk
- namn
- Behöver
- Nya
- nyheter
- Nästa
- anteckningsbok
- Anmärkningar
- erbjudanden
- Erbjudanden
- ONE
- öppet
- öppen källkod
- optimerad
- Alternativet
- Övriga
- Övrigt
- egen
- del
- särskilt
- Lösenord
- Tidigare
- PC
- Personer
- fullända
- personen
- personlig
- Tonhöjd
- planeras
- plato
- Platon Data Intelligence
- PlatonData
- Spela
- plugin
- Inlägg
- Premium
- VD
- pretty
- primär
- Profil
- ger
- allmän
- publicerade
- Python
- kvalitet
- Läsa
- Läsning
- motta
- senaste
- inspelning
- Red
- Förhållanden
- frigörs
- Kräver
- forskning
- forskare
- resurs
- resultera
- Resultat
- Rise
- ROBERT
- Roboten
- robotar
- Rulla
- Körning
- rinnande
- säker
- Samma
- Save
- scen
- sekunder
- senior
- SEO
- service
- Tjänster
- sju
- delas
- Kort
- skall
- helt enkelt
- eftersom
- enda
- syria
- webbplats
- Områden
- Sittande
- långsam
- Small
- So
- Mjukvara
- någon
- något
- Alldeles strax
- Källa
- tala
- Högtalare
- tala
- talar
- specifik
- tal
- starta
- igång
- Steg
- lagras
- Upplevelser för livet
- sådana
- bord
- MÄRKA
- Ta
- Teknologi
- Smakämnen
- deras
- sak
- Tredje
- Genom
- tid
- Titel
- till
- alltför
- Tåg
- tränad
- Utbildning
- SVÄNG
- uppladdad
- uppladdning
- URL
- Användare
- användare
- verktyg
- olika
- version
- via
- Video
- Virtuell
- Röst
- RÖSTER
- W
- väntar
- ville
- varning
- Vad
- som
- medan
- VEM
- kommer
- inom
- ord
- Arbete
- fungerar
- skulle
- skriven
- år
- Din
- Youtube
- zephyrnet