AI Tom Hanks no me ofreció un trabajo, pero seguro que parece que lo hizo

Reeditado por Platón

seguidores: 0

AI Tom Hanks no me ofreció un trabajo, pero parece que lo hizo | Mundo PC

<!--

Imagen: Mark Hachman / IDG a través de Dreamstudio.ai

Tom Hanks no solo me llamó para proponerme un papel, pero seguro que suena así.

Desde que PCWorld comenzó a cubrir el surgimiento de varias aplicaciones de IA como AI art, he estado hurgando en los repositorios de código en GitHub y en los enlaces dentro de Reddit, donde las personas publicarán ajustes en sus propios modelos de IA para varios enfoques.

Algunos de estos modelos en realidad terminan en sitios comerciales, que implementan sus propios algoritmos o adaptan otros que se han publicado como código abierto. Un gran ejemplo de un sitio de audio AI existente es Uberduck.ai, que ofrece literalmente cientos de modelos preprogramados. Ingrese el texto en el campo de texto y puede hacer que un Elon Musk, Bill Gates, Peggy Hill, Daffy Duck, Alex Trebek, Beavis, The Joker o incluso Siri virtuales lean sus líneas preprogramadas.

Subimos un Bill Clinton falso alabando a PCWorld el año pasado y el modelo ya suena bastante bien.

Aquí hay un modelo de nuestro ex presidente sentado con PCWorld y un refrigerio. Es falso, por supuesto.

Entrenar una IA para reproducir el habla implica cargar muestras de voz claras. La IA "aprende" cómo el hablante combina los sonidos con el objetivo de aprender esas relaciones, perfeccionarlas e imitar los resultados. Si está familiarizado con el excelente thriller de 1992 Zapatillas (con un elenco estelar de Robert Redford, Sidney Poitier y Ben Kingsley, entre otros), entonces conoce la escena en la que los personajes necesitan "descifrar" una contraseña de voz biométrica grabando una muestra de voz de la voz del objetivo. . Esto es casi exactamente lo mismo.

Normalmente, ensamblar un buen modelo de voz puede requerir bastante entrenamiento, con muestras largas para indicar cómo habla una persona en particular. En los últimos días, sin embargo, ha surgido algo nuevo: Microsoft Vall-E, un trabajo de investigación (con ejemplos en vivo) de una voz sintetizada que requiere solo unos segundos de fuente de audio para generar una voz totalmente programable.

Naturalmente, los investigadores de IA y otros seguidores de IA querían saber si el modelo Vall-E ya se había lanzado al público. La respuesta es no, aunque puedes jugar con otro modelo si lo deseas, llamado Tortoise. (El autor señala que se llama Tortuga porque es lento, lo cual es, pero funciona).

Entrena tu propia voz de IA con Tortoise

Lo que hace que Tortoise sea interesante es que puedes entrenar al modelo con cualquier voz que elijas simplemente cargando algunos clips de audio. Él Página de tortuga GitHub señala que debería tener algunos clips de aproximadamente una docena de segundos más o menos. Deberá guardarlos como un archivo .WAV con una calidad específica.

¿Cómo funciona todo? A través de una empresa de servicios públicos de la que quizás no tenga conocimiento: Colaboración de Google. Esencialmente, Collab es un servicio en la nube que proporciona Google que permite el acceso a un servidor de Python. El código que usted (o alguien más) escribe se puede almacenar como un cuaderno, que se puede compartir con los usuarios que tienen una cuenta genérica de Google. Él El recurso compartido Tortuga está aquí.

La interfaz parece intimidante, pero no es tan mala. Deberá iniciar sesión como usuario de Google y luego deberá hacer clic en "Conectar" en la esquina superior derecha. Una palabra de advertencia. Si bien este Colab no descarga nada en su Google Drive, otros Colabs podrían hacerlo. (Sin embargo, los archivos de audio que esto genera se almacenan en el navegador, pero se pueden descargar a su PC). Tenga en cuenta que está ejecutando un código que otra persona ha escrito. Puede recibir mensajes de error debido a entradas incorrectas o porque Google tiene problemas en el back-end, como no tener una GPU disponible. Es todo un poco experimental.

Tortuga de colaboración de Google — La colaboración de la tortuga. Haga clic en el botón "Conectar" para comenzar, luego haga clic en el pequeño ícono de "reproducir" al lado de cada bloque de código por turno.

Mark Hachman / IDG

Cada bloque de código tiene un pequeño ícono de "reproducir" que aparece si pasa el mouse sobre él. Deberá hacer clic en "reproducir" en cada bloque de código para ejecutarlo, esperando que se ejecute cada bloque antes de ejecutar el siguiente.

Si bien no vamos a pasar por instrucciones detalladas sobre todas las características, solo tenga en cuenta que el usuario puede modificar el texto rojo, como el texto sugerido que desea que hable el modelo. Unas siete cuadras más abajo, tendrás la opción de entrenar al modelo. Deberá nombrar el modelo y luego cargar los archivos de audio. Cuando se complete, seleccione el nuevo modelo de audio en el cuarto bloque, ejecute el código y luego configure el texto en el tercer bloque. Correr esa bloque de código.

Si todo sale según lo planeado, tendrá una pequeña salida de audio de su voz de muestra. ¿Funciona? Bueno, hice un modelo de voz rápido y sucio de mi colega Gordon Mah Ung, cuyo trabajo aparece en nuestro El podcast de Full Nerd así como varios videos. Subí una muestra de varios minutos en lugar de los fragmentos cortos, solo para ver si funcionaba.

¿El resultado? Así que suena realista, pero no como Gordon en absoluto. Ciertamente está a salvo de la suplantación digital por ahora. (Esto tampoco es un respaldo a ninguna cadena de comida rápida).

Pero un modelo existente que el autor de Tortoise entrenó en el actor Tom Hanks suena bastante bien. ¡Este no es Tom Hanks hablando aquí! Tom también lo hizo no ofrecerme un trabajo, pero fue suficiente para engañar al menos a uno de mis amigos.

¿La conclusión? Da un poco de miedo: la era de creer lo que escuchamos (y pronto vemos) está terminando. O ya lo tiene.

Autor: Mark Hachmann, Editor en jefe

Como editor senior de PCWorld, Mark se centra en las noticias de Microsoft y la tecnología de chips, entre otros temas. Anteriormente escribió para PCMag, BYTE, Slashdot, eWEEK y ReadWrite.

Historias recientes de Mark Hachman:

Los códigos de cupones

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. Accede Aquí.
Fuente: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html

Sello de tiempo: Enero 13, 2023

Sello de tiempo: 15 de diciembre de 2023

AI Tom Hanks no me ofreció un trabajo, pero parece que lo hizo

Reeditado por Platón

Entrena tu propia voz de IA con Tortoise

Autor: Mark Hachmann, Editor en jefe

Historias recientes de Mark Hachman:

Los códigos de cupones

Mas de PC World

RIP Cortana: Microsoft dice que su aplicación Windows AI morirá

Probado: la tecnología DirectStorage de Microsoft señala el ocaso de los SSD SATA

Vale la pena comprar la nueva computadora portátil de tinta electrónica en color de Lenovo

La lujosa computadora portátil XPS 13 de Dell está a la venta por $ 650

Nvidia lanza GeForce RTX 4070 Ti, laptops avanzadas de la serie RTX 40 y más

Aprenda algo nuevo todos los días con un descuento adicional de $20 en Headway

El último Swift Edge 16 de Acer se vuelve más delgado, inteligente y económico

La principal precaución de seguridad que siempre debe habilitar en una PC nueva

Estas linternas de emergencia están a la venta para el Día de los Caídos

Gordon Moore, cofundador de Intel y leyenda de la industria de los chips, muere a los 94 años

Actualice a Microsoft Office Pro 2021 de por vida por solo $50

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta