->
Immagine: Mark Hachman / IDG via Dreamstudio.ai
Tom Hanks non mi ha chiamato solo per propormi una parte, ma suona proprio così.
Da quando PCWorld ha iniziato a coprire l'ascesa di varie applicazioni AI come AI art, ho cercato nei repository di codice in GitHub e nei collegamenti all'interno di Reddit, dove le persone pubblicheranno modifiche ai propri modelli di intelligenza artificiale per vari approcci.
Alcuni di questi modelli finiscono effettivamente su siti commerciali, che lanciano i propri algoritmi o adattano altri che sono stati pubblicati come open source. Un ottimo esempio di un sito audio AI esistente è Uberduck.ai, che offre letteralmente centinaia di modelli preprogrammati. Inserisci il testo nel campo di testo e puoi avere un virtuale Elon Musk, Bill Gates, Peggy Hill, Daffy Duck, Alex Trebek, Beavis, The Joker o persino Siri che leggono le tue battute pre-programmate.
L'anno scorso abbiamo caricato un falso Bill Clinton che lodava PCWorld e il modello suona già abbastanza bene.
Addestrare un'intelligenza artificiale a riprodurre il parlato comporta il caricamento di campioni vocali chiari. L'intelligenza artificiale "impara" come l'oratore combina i suoni con l'obiettivo di apprendere quelle relazioni, perfezionarle e imitare i risultati. Se hai familiarità con l'eccellente thriller del 1992 Sneakers (con un cast stellare di Robert Redford, Sidney Poitier e Ben Kingsley, tra gli altri), allora conosci la scena in cui i personaggi devono "decifrare" una password vocale biometrica registrando un campione vocale della voce del bersaglio . Questa è quasi la stessa identica cosa.
Normalmente, l'assemblaggio di un buon modello vocale può richiedere un po' di allenamento, con lunghi campioni per indicare come parla una determinata persona. Negli ultimi giorni, però, è emersa una novità: Microsoft Vall-E, un documento di ricerca (con esempi dal vivo) di una voce sintetizzata che richiede solo pochi secondi di audio sorgente per generare una voce completamente programmabile.
Naturalmente, i ricercatori di intelligenza artificiale e altri gruppi di intelligenza artificiale volevano sapere se il modello Vall-E fosse già stato rilasciato al pubblico. La risposta è no, anche se puoi giocare con un altro modello se lo desideri, chiamato Tortoise. (L'autore nota che si chiama Tortoise perché è lento, il che è, ma funziona.)
Allena la tua voce AI con Tortoise
Ciò che rende Tortoise interessante è che puoi addestrare il modello su qualsiasi voce tu scelga semplicemente caricando alcune clip audio. Il Pagina GitHub tartaruga nota che dovresti avere alcune clip di circa una dozzina di secondi circa. Dovrai salvarli come file .WAV con una qualità specifica.
Come funziona tutto? Attraverso un'utilità pubblica di cui potresti non essere a conoscenza: Google Cola. In sostanza, Collab è un servizio cloud fornito da Google che consente l'accesso a un server Python. Il codice che tu (o qualcun altro) scrive può essere memorizzato come un taccuino, che può essere condiviso con gli utenti che hanno un account Google generico. Il La risorsa condivisa Tortoise è qui.
L'interfaccia sembra intimidatoria, ma non è poi così male. Dovrai accedere come utente Google e quindi fare clic su "Connetti" nell'angolo in alto a destra. Una parola di avvertimento. Sebbene questo Colab non scarichi nulla sul tuo Google Drive, altri Colab potrebbero farlo. (I file audio che questo genera, tuttavia, sono memorizzati nel browser ma possono essere scaricati sul tuo PC.) Tieni presente che stai eseguendo il codice che qualcun altro ha scritto. Potresti ricevere messaggi di errore a causa di input errati o perché Google ha un singhiozzo nel back-end come non avere una GPU disponibile. È tutto un po' sperimentale.
Ogni blocco di codice ha una piccola icona "play" che appare se ci passi sopra con il mouse. Dovrai fare clic su "Riproduci" su ogni blocco di codice per eseguirlo, aspettando che ogni blocco venga eseguito prima di eseguire il successivo.
Anche se non forniremo istruzioni dettagliate su tutte le funzionalità, tieni presente che il testo in rosso è modificabile dall'utente, come il testo suggerito che vuoi che il modello pronunci. Circa sette isolati più in basso, avrai la possibilità di addestrare il modello. Dovrai nominare il modello, quindi caricare i file audio. Al termine, seleziona il nuovo modello audio nel quarto blocco, esegui il codice, quindi configura il testo nel terzo blocco. Correre che blocco di codice.
Se tutto va come previsto, avrai una piccola uscita audio della tua voce di esempio. Funziona? Bene, ho fatto un modello vocale veloce e sporco del mio collega Gordon Mah Ung, il cui lavoro appare sul nostro Il podcast Full Nerd oltre a vari video. Ho caricato un campione di diversi minuti anziché i brevi frammenti, solo per vedere se avrebbe funzionato.
Il risultato? Bene suoni realistico, ma non come Gordon. Per ora è certamente al sicuro dalla rappresentazione digitale. (Nemmeno questa è un'approvazione di alcuna catena di fast food.)
Ma un modello esistente che l'autore di Tortoise ha addestrato sull'attore Tom Hanks suona piuttosto bene. Non è Tom Hanks che parla qui! Anche Tom lo ha fatto non offrirmi un lavoro, ma è bastato per fregare almeno uno dei miei amici.
La conclusione? Fa un po' paura: l'era di credere a ciò che sentiamo (e presto vediamo) sta finendo. O lo è già.
Codici promozionali
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- Platoblockchain. Web3 Metaverse Intelligence. Conoscenza amplificata. Accedi qui.
- Fonte: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html
- 1
- 2023
- 39
- a
- Chi siamo
- accesso
- Il mio account
- effettivamente
- adattare
- AI
- alex
- Algoritmi
- Tutti
- consente
- già
- tra
- amp
- ed
- Un altro
- rispondere
- applicazioni
- approcci
- in giro
- articolo
- artificiale
- Audio
- autore
- disponibile
- precedente
- Vasca
- perché
- prima
- ha iniziato
- credendo
- Conto
- Bill Clinton
- Bill Gates
- biometrico
- Po
- Bloccare
- Blocchi
- del browser
- pulsante
- chiamata
- detto
- carta
- Categoria
- certamente
- catena
- caratteri
- patata fritta
- Scegli
- pulire campo
- clip
- Cloud
- codice
- collega
- combina
- Commenti
- Completa
- conclusione
- controlli
- Angolo
- corso
- copertura
- credito
- CSS
- Data
- Giorni
- descrizione
- dettagliati
- DID
- digitale
- non
- giù
- scaricare
- dozzina
- guidare
- ogni
- editore
- o
- Elon
- Elon Musk
- emerse
- abbastanza
- entrare
- errore
- essenzialmente
- Etere (ETH)
- Anche
- qualunque cosa
- esempio
- Esempi
- eccellente
- eseguire
- esistente
- falso
- familiare
- Caratteristiche
- pochi
- campo
- Compila il
- File
- si concentra
- seguire
- Ex
- precedentemente
- Quarto
- amici
- da
- pieno
- completamente
- Gates
- generare
- genera
- ottenere
- ottenere
- GitHub
- scopo
- va
- andando
- buono
- GPU
- grande
- avendo
- altezza
- librarsi
- Come
- Tuttavia
- HTML
- HTTPS
- umano
- centinaia
- ICON
- Immagine
- in
- Index
- indicare
- istruzioni
- interessante
- Interfaccia
- intimidatorio
- IT
- Gennaio
- Lavoro
- Burlone
- Sapere
- grandi
- Cognome
- L'anno scorso
- apprendimento
- Linee
- Collegamento
- piccolo
- vivere
- SEMBRA
- FA
- direttore
- marchio
- Matrice
- max-width
- messaggi
- Microsoft
- forza
- verbale
- specchio
- modello
- modelli
- Muschio
- Nome
- Bisogno
- New
- notizie
- GENERAZIONE
- taccuino
- Note
- offrire
- Offerte
- ONE
- aprire
- open source
- ottimizzati
- Opzione
- Altro
- Altri
- proprio
- parte
- particolare
- Password
- passato
- PC
- Persone
- perfezionamento
- persona
- cronologia
- Intonazione
- previsto
- Platone
- Platone Data Intelligence
- PlatoneDati
- Giocare
- plug-in
- Post
- Premium
- Presidente
- piuttosto
- primario
- Profilo
- fornisce
- la percezione
- pubblicato
- Python
- qualità
- Leggi
- Lettura
- ricevere
- recente
- registrazione
- Rosso
- Relazioni
- rilasciato
- richiede
- riparazioni
- ricercatori
- risorsa
- colpevole
- Risultati
- Aumento
- ROBERT
- robot
- robot
- Rotolo
- Correre
- running
- sicura
- stesso
- Risparmi
- scena
- secondo
- anziano
- SEO
- servizio
- Servizi
- Sette
- condiviso
- Corti
- dovrebbero
- semplicemente
- da
- singolo
- granchio
- site
- Siti
- Seduta
- rallentare
- piccole
- So
- Software
- Qualcuno
- qualcosa
- Arrivo
- Fonte
- parlare
- Speaker
- parlando
- Parla
- specifico
- discorso
- inizia a
- iniziato
- step
- memorizzati
- Storie
- tale
- tavolo
- TAG
- Fai
- Tecnologia
- I
- loro
- cosa
- Terza
- Attraverso
- tempo
- Titolo
- a
- pure
- Treni
- allenato
- Training
- TURNO
- caricato
- Caricamento
- URL
- Utente
- utenti
- utilità
- vario
- versione
- via
- Video
- virtuale
- Voce
- VOCI
- W
- In attesa
- ricercato
- identificazione dei warning
- Che
- quale
- while
- OMS
- volere
- entro
- Word
- Lavora
- lavori
- sarebbe
- scritto
- anno
- Trasferimento da aeroporto a Sharm
- youtube
- zefiro