AI Tom Hanks erbjöd mig inte ett jobb, men det låter säkert som han gjorde

Återutgiven av Platon

anhängare: 0

AI Tom Hanks erbjöd mig inget jobb, men det låter verkligen som om han gjorde det | PCWorld

<!--

Bild: Mark Hachman / IDG via Dreamstudio.ai

Tom Hanks ringde mig inte bara för att pitcha en roll, men det låter verkligen som det.

Ända sedan PCWorld började täcka uppkomsten av olika AI-applikationer som AI art, Jag har letat runt i kodförråden i GitHub och länkar inom Reddit, där folk kommer att lägga upp justeringar av sina egna AI-modeller för olika tillvägagångssätt.

Vissa av dessa modeller hamnar faktiskt på kommersiella sajter, som antingen rullar sina egna algoritmer eller anpassar andra som har publicerats som öppen källkod. Ett bra exempel på en befintlig AI-ljudsajt är Uberduck.ai, som erbjuder bokstavligen hundratals förprogrammerade modeller. Skriv in texten i textfältet och du kan låta en virtuell Elon Musk, Bill Gates, Peggy Hill, Daffy Duck, Alex Trebek, Beavis, The Joker eller till och med Siri läsa upp dina förprogrammerade rader.

Vi laddade upp en falsk Bill Clinton som prisade PCWorld förra året och modellen låter redan ganska bra.

Här är en modell av vår tidigare president som sitter ner med PCWorld och ett mellanmål. Det är fake, såklart.

Att träna en AI för att återge tal innebär att ladda upp tydliga röstprover. AI:n "lär sig" hur högtalaren kombinerar ljud med målet att lära sig dessa relationer, fullända dem och imitera resultaten. Om du är bekant med den utmärkta thrillern från 1992 Gymnastikskor (med bland annat Robert Redford, Sidney Poitier och Ben Kingsley), då vet du om scenen där karaktärerna behöver "knäcka" ett biometriskt röstlösenord genom att spela in ett röstprov av målets röst . Det här är nästan exakt samma sak.

Normalt kan det ta en hel del träning att sätta ihop en bra röstmodell, med långa prover för att indikera hur en viss person talar. Under de senaste dagarna har dock något nytt dykt upp: Microsoft Vall-E, en forskningsartikel (med live-exempel) av en syntetiserad röst som bara kräver några sekunders källljud för att generera en helt programmerbar röst.

Naturligtvis ville AI-forskare och andra AI-grupper veta om Vall-E-modellen hade släppts för allmänheten ännu. Svaret är nej, även om du kan leka med en annan modell om du vill, kallad Tortoise. (Författaren noterar att den heter Tortoise eftersom den är långsam, vilket den är, men den fungerar.)

Träna din egen AI-röst med Tortoise

Det som gör Tortoise intressant är att du kan träna modellen på vilken röst du än väljer genom att bara ladda upp några ljudklipp. De Tortoise GitHub-sida noterar att du bör ha några klipp på ungefär ett dussin sekunder eller så. Du måste spara dem som en .WAV-fil med en viss kvalitet.

Hur fungerar det hela? Genom ett allmännyttigt verktyg som du kanske inte känner till: Google Colab. I huvudsak är Collab en molntjänst som Google tillhandahåller som tillåter åtkomst till en Python-server. Koden som du (eller någon annan) skriver kan lagras som en anteckningsbok, som kan delas med användare som har ett generiskt Google-konto. De Tortoise delade resurs är här.

Gränssnittet ser skrämmande ut, men det är inte så illa. Du måste vara inloggad som Google-användare och sedan måste du klicka på "Anslut" i det övre högra hörnet. Ett ord av varning. Även om denna Colab inte laddar ner något till din Google Drive, kan andra Colabs kanske. (Ljudfilerna som detta genererar lagras dock i webbläsaren men kan laddas ner till din PC.) Var medveten om att du kör kod som någon annan har skrivit. Du kan få felmeddelanden antingen på grund av dåliga ingångar eller på grund av att Google har en hicka på baksidan som att inte ha en tillgänglig GPU. Det hela är lite experimentellt.

Google Collab sköldpadda — The Tortoise Collab. Klicka på knappen "Anslut" för att komma igång, klicka sedan på den lilla "spela"-ikonen bredvid varje kodblock i tur och ordning.

Mark Hachman / IDG

Varje kodblock har en liten "spel"-ikon som visas om du håller musen över den. Du måste klicka på "spela" på varje kodblock för att köra det, och vänta på att varje block ska köras innan du kör nästa.

Även om vi inte kommer att gå igenom detaljerade instruktioner om alla funktioner, var bara medveten om att den röda texten kan ändras av användaren, till exempel den föreslagna texten som du vill att modellen ska tala. Ungefär sju kvarter ner har du möjlighet att träna modellen. Du måste namnge modellen och sedan ladda upp ljudfilerna. När det är klart, välj den nya ljudmodellen i det fjärde blocket, kör koden och konfigurera sedan texten i det tredje blocket. Springa den där kodblock.

Om allt går som planerat får du en liten ljudutgång av din provröst. Fungerar det? Tja, jag gjorde en snabb och smutsig röstmodell av min kollega Gordon Mah Ung, vars arbete visas på vår The Full Nerd podcast samt olika videor. Jag laddade upp ett prov på flera minuter istället för de korta utdragen, bara för att se om det skulle fungera.

Resultatet? Tja, det ljud verklighetstrogen, men inte alls som Gordon. Han är säkerligen säker från digital personifiering för tillfället. (Detta är inte heller ett stöd för någon snabbmatskedja.)

Men en befintlig modell som sköldpaddsförfattaren tränade på skådespelaren Tom Hanks låter ganska bra. Det är inte Tom Hanks som talar här! Tom gjorde också inte erbjuda mig ett jobb, men det räckte för att lura åtminstone en av mina vänner.

Slutsatsen? Det är lite läskigt: åldern att tro på det vi hör (och snart ser) tar slut. Eller så har det redan gjort det.

Författare: Mark Hachman, seniorredaktör

Som PCWorlds seniorredaktör fokuserar Mark på Microsofts nyheter och chipteknologi, bland andra beats. Han har tidigare skrivit för PCMag, BYTE, Slashdot, eWEEK och ReadWrite.

Nya berättelser av Mark Hachman:

Kupongkoder

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
Källa: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html

Tidsstämpel: Januari 13, 2023

Tidsstämpel: December 15, 2023

AI Tom Hanks erbjöd mig inget jobb, men det låter verkligen som han gjorde det

Återutgiven av Platon

Träna din egen AI-röst med Tortoise

Författare: Mark Hachman, seniorredaktör

Nya berättelser av Mark Hachman:

Kupongkoder

Mer från PC World

RIP Cortana: Microsoft säger att dess Windows AI-app kommer att dö

Testad: Microsofts DirectStorage-teknik signalerar solnedgången för SATA SSD:er

Lenovos nya e-bläckbärbara dator i färg kan vara värd att köpa

Dells lyxiga bärbara dator XPS 13 säljs för $650

Nvidia släpper GeForce RTX 4070 Ti, avancerade bärbara datorer i RTX 40-serien och mer

Lär dig något nytt varje dag med 20 USD extra i rabatt på Headway

Acers senaste Swift Edge 16 blir tunnare, smartare och billigare

Den 1 stora säkerhetsåtgärden du alltid bör aktivera på en ny PC

Dessa nödficklampor är till försäljning för Memorial Day

Gordon Moore, Intels medgrundare och chipindustrilegend, dör vid 94 år

Uppgradera till Microsoft Office Pro 2021 för livet för bara $50

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto