AI Tom Hanks nu mi-a oferit un loc de muncă, dar cu siguranță sună ca și cum a făcut-o

Republicat de Platon

Urmaritori: 0

AI Tom Hanks nu mi-a oferit un loc de muncă, dar sigur pare că a făcut-o | PCWorld

<!–

Imagine: Mark Hachman / IDG prin Dreamstudio.ai

Tom Hanks nu m-a sunat doar ca să-mi prezinte un rol, dar cu siguranță sună așa.

De când PCWorld a început să acopere ascensiunea diverse aplicații AI, cum ar fi AI art, am căutat în depozitele de coduri din GitHub și în linkurile din Reddit, unde oamenii vor posta modificări ale propriilor modele AI pentru diferite abordări.

Unele dintre aceste modele ajung de fapt pe site-uri comerciale, care fie rulează propriile algoritmi, fie adaptează alții care au publicat ca sursă deschisă. Un exemplu excelent de site audio AI existent este Uberduck.ai, care oferă literalmente sute de modele preprogramate. Introduceți textul în câmpul de text și puteți cere unui virtual Elon Musk, Bill Gates, Peggy Hill, Daffy Duck, Alex Trebek, Beavis, The Joker sau chiar Siri să vă citească liniile preprogramate.

Am încărcat un Bill Clinton fals care lăuda PCWorld anul trecut și modelul sună deja destul de bine.

Iată un model al fostului nostru președinte stând cu PCWorld și o gustare. Este fals, desigur.

Antrenarea unei AI pentru a reproduce vorbirea implică încărcarea de mostre clare de voce. AI „învață” modul în care vorbitorul combină sunetele cu scopul pentru a învăța acele relații, perfecționându-le și imitând rezultatele. Dacă ești familiarizat cu excelentul thriller din 1992 Sneakers (cu o distribuție de stele cu Robert Redford, Sidney Poitier și Ben Kingsley, printre alții), atunci știți despre scena în care personajele trebuie să „sparge” o parolă biometrică de voce prin înregistrarea unei mostre de voce a vocii țintei. . Acesta este aproape exact același lucru.

În mod normal, asamblarea unui model vocal bun poate necesita destul de mult antrenament, cu mostre lungi pentru a indica modul în care vorbește o anumită persoană. În ultimele zile, însă, a apărut ceva nou: Microsoft Vall-E, o lucrare de cercetare (cu exemple live) de o voce sintetizată care necesită doar câteva secunde de sursă audio pentru a genera o voce complet programabilă.

Desigur, cercetătorii AI și alte grupări AI au vrut să știe dacă modelul Vall-E a fost încă lansat publicului. Răspunsul este nu, deși poți să te joci cu un alt model dacă vrei, numit Tortoise. (Autoarea notează că se numește Tortoise pentru că este lent, ceea ce este, dar funcționează.)

Antrenează-ți propria voce AI cu Tortoise

Ceea ce face ca Tortoise să fie interesant este faptul că puteți antrena modelul pe orice voce alegeți, pur și simplu încărcând câteva clipuri audio. The Pagina GitHub Tortoise observă că ar trebui să aveți câteva clipuri de aproximativ o duzină de secunde. Va trebui să le salvați ca fișier .WAV cu o anumită calitate.

Cum funcționează totul? Printr-o utilitate publică de care s-ar putea să nu știți: google colab. În esență, Collab este un serviciu cloud pe care Google îl oferă și care permite accesul la un server Python. Codul pe care îl scrieți dvs. (sau altcineva) poate fi stocat ca un blocnotes, care poate fi partajat cu utilizatorii care au un cont Google generic. The Resursa comună Tortoise este aici.

Interfața pare intimidantă, dar nu este chiar așa de rău. Va trebui să fiți conectat ca utilizator Google și apoi va trebui să faceți clic pe „Conectați” în colțul din dreapta sus. Un cuvânt de avertisment. În timp ce acest Colab nu descarcă nimic pe Google Drive, alte Colab s-ar putea. (Fișierele audio pe care le generează, totuși, sunt stocate în browser, dar pot fi descărcate pe computer.) Fiți conștienți de faptul că executați cod pe care altcineva l-a scris. Este posibil să primiți mesaje de eroare fie din cauza intrărilor greșite, fie din cauza faptului că Google are un sughiț în partea din spate, cum ar fi faptul că nu are un GPU disponibil. Totul este un pic experimental.

Google Colab Broasca țestoasă — Colaborarea țestoasei. Faceți clic pe butonul „Conectați” pentru a începe, apoi faceți clic pe pictograma mică „play” de lângă fiecare bloc de cod pe rând.

Mark Hachman / IDG

Fiecare bloc de cod are o pictogramă mică „play” care apare dacă treceți mouse-ul peste el. Va trebui să faceți clic pe „play” pe fiecare bloc de cod pentru al rula, așteptând ca fiecare bloc să se execute înainte de a rula următorul.

Deși nu vom parcurge instrucțiuni detaliate cu privire la toate funcțiile, trebuie doar să rețineți că textul roșu poate fi modificat de utilizator, cum ar fi textul sugerat pe care doriți să îl rostească modelul. La aproximativ șapte blocuri mai jos, veți avea opțiunea de a antrena modelul. Va trebui să denumiți modelul, apoi să încărcați fișierele audio. Când se termină, selectați noul model audio în al patrulea bloc, rulați codul, apoi configurați textul în al treilea bloc. Alerga acea bloc de cod.

Dacă totul decurge conform planului, veți avea o ieșire audio mică a vocii eșantionului. Funcționează? Ei bine, am făcut un model de voce rapid și murdar al colegului meu Gordon Mah Ung, a cărui lucrare apare pe Podcastul Full Nerd precum și diverse videoclipuri. Am încărcat o mostră de câteva minute, mai degrabă decât fragmentele scurte, doar pentru a vedea dacă ar funcționa.

Rezultatul? Ei bine, asta sunete reală, dar deloc ca Gordon. Cu siguranță este ferit de uzurparea identității digitale pentru moment. (Acesta nu este nici o susținere a niciunui lanț de fast-food.)

Dar un model existent pe care autorul Tortoise l-a antrenat pe actorul Tom Hanks sună destul de bine. Acesta nu este Tom Hanks care vorbește aici! Și Tom a făcut-o nu oferiți-mi o slujbă, dar a fost suficient să păcălesc pe cel puțin unul dintre prietenii mei.

Concluzia? Este puțin înfricoșător: epoca de a crede ceea ce auzim (și vedem în curând) se termină. Sau a făcut-o deja.

Autor: Mark Hachman, Senior Editor

În calitate de redactor senior al PCWorld, Mark se concentrează pe știrile Microsoft și pe tehnologia cipurilor, printre alte beat-uri. El a scris anterior pentru PCMag, BYTE, Slashdot, eWEEK și ReadWrite.

Povești recente de Mark Hachman:

Coduri promoționale

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. Accesați Aici.
Sursa: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html

Timestamp-ul: Ianuarie 13, 2023

Timestamp-ul: Februarie 23, 2023

AI Tom Hanks nu mi-a oferit un loc de muncă, dar sigur pare că a făcut-o

Republicat de Platon

Antrenează-ți propria voce AI cu Tortoise

Autor: Mark Hachman, Senior Editor

Povești recente de Mark Hachman:

Coduri promoționale

Mai mult de la PC World

Revizuire StarTech USB-C Triple Monitor Dock: există opțiuni mai bune

Economisiți 36% la această tastatură mecanică Corsair cu aspect futurist

Vinerea neagră: această dronă cu cameră 4K are o reducere de 40 USD acum

Această alternativă la App Store este o putere de productivitate

Economisiți până la 400 USD la iluminatul biroului cu aceste lămpi la preț redus

Tur de laborator! Intră în tehnologia futuristă de răcire a laptopului cu stare solidă a AirJet

Cele mai bune laptopuri cu ecran tactil din 2023: recomandări practice

Economisiți 150 USD la acest monitor de gaming LG de 240 Hz

Revizuirea securității Windows: protecție de bază, dar eficientă încorporată în Windows

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont