L'intelligenza artificiale Tom Hanks non mi ha offerto un lavoro, ma sembra proprio che lo abbia fatto

Ripubblicato da Platone

Seguaci: 0

AI Tom Hanks non mi ha offerto un lavoro, ma sembra proprio che l'abbia fatto | PC World

<!--

L'essere umano guarda il robot nello specchio

Immagine: Mark Hachman / IDG via Dreamstudio.ai

Tom Hanks non mi ha chiamato solo per propormi una parte, ma suona proprio così.

Da quando PCWorld ha iniziato a coprire l'ascesa di varie applicazioni AI come AI art, ho cercato nei repository di codice in GitHub e nei collegamenti all'interno di Reddit, dove le persone pubblicheranno modifiche ai propri modelli di intelligenza artificiale per vari approcci.

Alcuni di questi modelli finiscono effettivamente su siti commerciali, che lanciano i propri algoritmi o adattano altri che sono stati pubblicati come open source. Un ottimo esempio di un sito audio AI esistente è Uberduck.ai, che offre letteralmente centinaia di modelli preprogrammati. Inserisci il testo nel campo di testo e puoi avere un virtuale Elon Musk, Bill Gates, Peggy Hill, Daffy Duck, Alex Trebek, Beavis, The Joker o persino Siri che leggono le tue battute pre-programmate.

L'anno scorso abbiamo caricato un falso Bill Clinton che lodava PCWorld e il modello suona già abbastanza bene.

Ecco un modello del nostro ex presidente seduto con PCWorld e uno spuntino. È falso, ovviamente.

Addestrare un'intelligenza artificiale a riprodurre il parlato comporta il caricamento di campioni vocali chiari. L'intelligenza artificiale "impara" come l'oratore combina i suoni con l'obiettivo di apprendere quelle relazioni, perfezionarle e imitare i risultati. Se hai familiarità con l'eccellente thriller del 1992 Sneakers (con un cast stellare di Robert Redford, Sidney Poitier e Ben Kingsley, tra gli altri), allora conosci la scena in cui i personaggi devono "decifrare" una password vocale biometrica registrando un campione vocale della voce del bersaglio . Questa è quasi la stessa identica cosa.

Normalmente, l'assemblaggio di un buon modello vocale può richiedere un po' di allenamento, con lunghi campioni per indicare come parla una determinata persona. Negli ultimi giorni, però, è emersa una novità: Microsoft Vall-E, un documento di ricerca (con esempi dal vivo) di una voce sintetizzata che richiede solo pochi secondi di audio sorgente per generare una voce completamente programmabile.

Naturalmente, i ricercatori di intelligenza artificiale e altri gruppi di intelligenza artificiale volevano sapere se il modello Vall-E fosse già stato rilasciato al pubblico. La risposta è no, anche se puoi giocare con un altro modello se lo desideri, chiamato Tortoise. (L'autore nota che si chiama Tortoise perché è lento, il che è, ma funziona.)

Allena la tua voce AI con Tortoise

Ciò che rende Tortoise interessante è che puoi addestrare il modello su qualsiasi voce tu scelga semplicemente caricando alcune clip audio. Il Pagina GitHub tartaruga nota che dovresti avere alcune clip di circa una dozzina di secondi circa. Dovrai salvarli come file .WAV con una qualità specifica.

Come funziona tutto? Attraverso un'utilità pubblica di cui potresti non essere a conoscenza: Google Cola. In sostanza, Collab è un servizio cloud fornito da Google che consente l'accesso a un server Python. Il codice che tu (o qualcun altro) scrive può essere memorizzato come un taccuino, che può essere condiviso con gli utenti che hanno un account Google generico. Il La risorsa condivisa Tortoise è qui.

L'interfaccia sembra intimidatoria, ma non è poi così male. Dovrai accedere come utente Google e quindi fare clic su "Connetti" nell'angolo in alto a destra. Una parola di avvertimento. Sebbene questo Colab non scarichi nulla sul tuo Google Drive, altri Colab potrebbero farlo. (I file audio che questo genera, tuttavia, sono memorizzati nel browser ma possono essere scaricati sul tuo PC.) Tieni presente che stai eseguendo il codice che qualcun altro ha scritto. Potresti ricevere messaggi di errore a causa di input errati o perché Google ha un singhiozzo nel back-end come non avere una GPU disponibile. È tutto un po' sperimentale.

Tartaruga in collaborazione con Google — La collaborazione con le tartarughe. Fai clic sul pulsante "Connetti" per iniziare, quindi fai clic sulla piccola icona "Riproduci" accanto a ciascun blocco di codice a turno.

Mark Hachman / IDG

Ogni blocco di codice ha una piccola icona "play" che appare se ci passi sopra con il mouse. Dovrai fare clic su "Riproduci" su ogni blocco di codice per eseguirlo, aspettando che ogni blocco venga eseguito prima di eseguire il successivo.

Anche se non forniremo istruzioni dettagliate su tutte le funzionalità, tieni presente che il testo in rosso è modificabile dall'utente, come il testo suggerito che vuoi che il modello pronunci. Circa sette isolati più in basso, avrai la possibilità di addestrare il modello. Dovrai nominare il modello, quindi caricare i file audio. Al termine, seleziona il nuovo modello audio nel quarto blocco, esegui il codice, quindi configura il testo nel terzo blocco. Correre che blocco di codice.

Se tutto va come previsto, avrai una piccola uscita audio della tua voce di esempio. Funziona? Bene, ho fatto un modello vocale veloce e sporco del mio collega Gordon Mah Ung, il cui lavoro appare sul nostro Il podcast Full Nerd oltre a vari video. Ho caricato un campione di diversi minuti anziché i brevi frammenti, solo per vedere se avrebbe funzionato.

Il risultato? Bene suoni realistico, ma non come Gordon. Per ora è certamente al sicuro dalla rappresentazione digitale. (Nemmeno questa è un'approvazione di alcuna catena di fast food.)

Ma un modello esistente che l'autore di Tortoise ha addestrato sull'attore Tom Hanks suona piuttosto bene. Non è Tom Hanks che parla qui! Anche Tom lo ha fatto non offrirmi un lavoro, ma è bastato per fregare almeno uno dei miei amici.

La conclusione? Fa un po' paura: l'era di credere a ciò che sentiamo (e presto vediamo) sta finendo. O lo è già.

Autore: Mark Hachman, Editore anziano

In qualità di redattore senior di PCWorld, Mark si concentra, tra le altre cose, sulle novità Microsoft e sulla tecnologia dei chip. In precedenza ha scritto per PCMag, BYTE, Slashdot, eWEEK e ReadWrite.

Storie recenti di Mark Hachman:

Codici promozionali

Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
Platoblockchain. Web3 Metaverse Intelligence. Conoscenza amplificata. Accedi qui.
Fonte: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html

Timestamp: Gennaio 13, 2023

Timestamp: Dicembre 15, 2023

AI Tom Hanks non mi ha offerto un lavoro, ma sembra proprio che l'abbia fatto

Ripubblicato da Platone

Allena la tua voce AI con Tortoise

Autore: Mark Hachman, Editore anziano

Storie recenti di Mark Hachman:

Codici promozionali

Di più da PC World

RIP Cortana: Microsoft afferma che la sua app Windows AI morirà

Testato: la tecnologia DirectStorage di Microsoft segnala il tramonto degli SSD SATA

Potrebbe valere la pena acquistare il nuovo laptop e-ink a colori di Lenovo

Il lussuoso laptop XPS 13 di Dell è in vendita per $ 650

Nvidia lancia la GeForce RTX 4070 Ti, i laptop avanzati della serie RTX 40 e altro ancora

Impara qualcosa di nuovo ogni giorno con uno sconto extra di $ 20 su Headway

L'ultimo Swift Edge 16 di Acer diventa più sottile, intelligente ed economico

La principale precauzione di sicurezza che dovresti sempre abilitare su un nuovo PC

Queste torce di emergenza sono in vendita per il Memorial Day

Gordon Moore, co-fondatore di Intel e leggenda dell'industria dei chip, muore a 94 anni

Passa a Microsoft Office Pro 2021 a vita per soli $ 50

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account