Redes neuronales abiertas: la intersección de IA y web3

Nodo de origen: 1683067

por Rishin Sharma y Jake Brukhman.

Un agradecimiento especial a todos los que dieron su opinión sobre este artículo, incluidos Nick Yakovenko, David Pakman, Jan Coppens, AC, Evan Feng, Adi Sideman.

Mensaje: "cyborg translúcido sentado en un trono de metal en un castillo futurista, cyberpunk, líneas nítidas y muy detalladas, luces de neón"

Fuente: imagen generada por IA de Lexica.art, un motor de búsqueda de difusión estable

La innovación tecnológica nunca descansa, y esto es especialmente cierto para la inteligencia artificial. En los últimos años, hemos visto resurgir la popularidad de los modelos de aprendizaje profundo como precursores de la IA. También conocido como redes neuronales, estos modelos se componen de capas de nodos densamente interconectados que pasan información entre sí, imitando aproximadamente la construcción del cerebro humano. A principios de la década de 2010, los modelos más avanzados tenían millones de parámetros, modelos muy supervisados ​​que se usaban para el análisis y la clasificación de sentimientos específicos. Los modelos más avanzados de la actualidad, como DreamStudio, GPT-3, DALL-E2y Imagen se acercan al billón de parámetros y realizan tareas complejas e incluso creativas que rivalizan con el trabajo humano. Tomemos, por ejemplo, la imagen de encabezado o el resumen de esta publicación de blog. Ambos fueron producidos por inteligencia artificial. Apenas estamos comenzando a ver las implicaciones sociales y culturales de estos modelos, ya que dan forma a cómo aprendemos cosas nuevas, interactuamos entre nosotros y nos expresamos creativamente.

Sin embargo, gran parte del conocimiento técnico, los conjuntos de datos clave y la capacidad computacional para entrenar grandes redes neuronales en la actualidad son de código cerrado y están controlados por empresas de "Big Tech" como Google y Meta. Si bien replicar modelos de código abierto como GPT-NeoX, DALLE-megay BLOOM han sido encabezadas por organizaciones que incluyen EstabilidadAI, Eleuther IAy AbrazandoCara, web3 está preparado para potenciar aún más la IA de código abierto.

“Una capa de infraestructura web3 para IA podría introducir elementos de desarrollo de código abierto, propiedad y gobierno de la comunidad y acceso universal que crean nuevos modelos y eficiencias en el desarrollo de estas nuevas tecnologías."

Además, muchos casos de uso críticos para web3 mejorarán con la adopción de tecnologías de IA. De NFT de arte generativo a paisajes metaversales, AI encontrará muchos casos de uso en web3. La IA de código abierto se ajusta al espíritu abierto, descentralizado y democratizado de web3 y representa una alternativa a la IA proporcionada por Big Tech, que probablemente no estará abierta en el corto plazo.

Modelos de cimentación son redes neuronales entrenadas en extensos conjuntos de datos para realizar tareas que normalmente requerirían un comportamiento humano inteligente. Estos modelos han creado algunos resultados impresionantes.

Modelos de lenguaje como OpenAI GPT-3, LaMDA de Googley Megatron-Turing NLG de Nvidia tener la capacidad de comprender y producir lenguaje natural, resumir y sintetizar texto, e incluso escribir código de computadora.

DALLE-2 es de OpenAI modelo de difusión de texto a imagen que puede producir imágenes únicas a partir de texto escrito. La división de inteligencia artificial de Google, DeepMind, ha producido modelos de la competencia, incluido PaLM, un modelo de lenguaje de parámetros 540B, e Imagen, su propio modelo de generación de imágenes que supera a DALLE-2 en DrawBench y COCO FID Benchmarks. Imagen produce notablemente resultados más fotorrealistas y tiene la habilidad de deletrear.

Modelos de aprendizaje por refuerzo como el de Google AlphaGo han derrotado a los Campeón del mundo de go humano mientras descubre nuevas estrategias y técnicas de juego que no han aparecido en los tres mil años de historia del juego.

La carrera para construir modelos básicos complejos ya ha comenzado con Big Tech a la vanguardia de la innovación. Tan emocionante como es el avance del campo, hay un tema clave que es motivo de preocupación.

Durante la última década, a medida que los modelos de IA se han vuelto más sofisticados, también se han vuelto cada vez más cerrados al público.

Los gigantes tecnológicos están invirtiendo mucho en la producción de dichos modelos y en la retención de datos y códigos como tecnologías patentadas, al tiempo que preservan su foso competitivo a través de sus ventajas de economías de escala para el entrenamiento y el cálculo de modelos.

Para cualquier tercero, la producción de modelos básicos es un proceso intensivo en recursos con tres cuellos de botella principales: datos, calcular, y monetización.

Aquí es donde vemos las primeras incursiones de los temas web3 para resolver algunos de estos problemas.

Los conjuntos de datos etiquetados son críticos para construir modelos efectivos. Los sistemas de IA aprenden al generalizar a partir de ejemplos dentro de conjuntos de datos y mejoran continuamente a medida que se entrenan con el tiempo. Sin embargo, la compilación y el etiquetado de conjuntos de datos de calidad requieren conocimientos y procesamiento especializados además de recursos computacionales. Las grandes empresas de tecnología suelen tener equipos de datos internos especializados en trabajar con grandes conjuntos de datos patentados y sistemas de PI para entrenar sus modelos, y tienen pocos incentivos para abrir el acceso a la producción o distribución de sus datos.

Ya hay comunidades que están haciendo que la capacitación modelo sea abierta y accesible para una comunidad global de investigadores. Aquí hay unos ejemplos:

  1. Rastreo común, un depósito público de diez años de datos de Internet, se puede utilizar para la formación general. (Aunque investigación muestra que conjuntos de datos reducidos y más precisos pueden mejorar el conocimiento general entre dominios y las capacidades de generalización posteriores de los modelos).
  2. LAION es una organización sin fines de lucro que tiene como objetivo poner a disposición del público en general modelos y conjuntos de datos de aprendizaje automático a gran escala y publicarlos LAION5B, un conjunto de datos de pares de texto e imagen filtrados por CLIP de 5.85 millones que, al publicarse, se convirtió en el conjunto de datos de texto e imagen de acceso abierto más grande del mundo.
  3. Eleuther IA es un colectivo descentralizado que lanzó uno de los conjuntos de datos de texto de código abierto más grandes llamado La pila. The Pile es un conjunto de datos en inglés de 825.18 GiB para el modelado de lenguaje que utiliza 22 fuentes de datos diferentes.

Actualmente, estas comunidades están organizadas informalmente y dependen de las contribuciones de una amplia base de voluntarios. Para potenciar sus esfuerzos, las recompensas de fichas se pueden utilizar como un mecanismo para crear conjuntos de datos de código abierto. Los tokens podrían emitirse en función de las contribuciones, como el etiquetado de un gran conjunto de datos de imágenes de texto, y una comunidad DAO podría validar tales afirmaciones. En última instancia, los modelos grandes pueden emitir tokens de un fondo común, y los ingresos posteriores de los productos creados sobre dichos modelos pueden acumularse en el valor del token. De esta manera, los contribuyentes de conjuntos de datos pueden tener una participación en los modelos grandes a través de sus tokens y los investigadores podrán monetizar los recursos de construcción abiertamente.

La compilación de conjuntos de datos de código abierto bien construidos es fundamental para ampliar la accesibilidad de la investigación para modelos grandes y mejorar el rendimiento del modelo. Los conjuntos de datos de imágenes de texto se pueden ampliar aumentando el tamaño y los filtros para diferentes tipos de imágenes para obtener resultados más precisos. Se necesitarán conjuntos de datos que no estén en inglés para entrenar modelos de lenguaje natural que puedan usar las poblaciones que no hablan inglés. Con el tiempo, podemos lograr estos resultados mucho más rápido y más abiertamente utilizando un enfoque web3.

La computación requerida para entrenar redes neuronales a gran escala es uno de los cuellos de botella más grandes en los modelos básicos. Durante la última década, la demanda de cómputo en el entrenamiento de modelos de IA ha se duplica cada 3.4 meses. Durante este período, los modelos de IA han pasado del reconocimiento de imágenes al uso de algoritmos de aprendizaje por refuerzo para vencer a campeones humanos en juegos de estrategia y utilizar transformadores para entrenar modelos de lenguaje. Por ejemplo, el GPT-3 de OpenAI tenía 175 mil millones de parámetros y tomó 3,640 petaFLOPS-día para entrenar. Esto tomaría dos semanas en la supercomputadora más rápida del mundo y más de un milenio para una computadora portátil estándar. Como los tamaños de los modelos continúan creciendo, la computación sigue siendo un cuello de botella en el avance del campo.

Las supercomputadoras de IA requieren hardware específico optimizado para realizar las operaciones matemáticas necesarias para entrenar redes neuronales, como unidades de procesamiento de gráficos (GPU) o circuitos integrados específicos de la aplicación (ASIC). Hoy en día, la mayor parte del hardware optimizado para este tipo de computación está controlado por unos pocos proveedores de servicios en la nube oligopólicos como Google Cloud, Amazon Web Services, Microsoft Azure e IBM Cloud.

Esta es la siguiente gran intersección en la que vemos que la asignación informática descentralizada a través de redes abiertas y públicas gana terreno. La gobernanza descentralizada se puede utilizar para financiar y asignar recursos para capacitar proyectos impulsados ​​por la comunidad. Además, se puede acceder abiertamente a un modelo de mercado descentralizado en todas las geografías, de modo que cualquier investigador pueda acceder a los recursos informáticos. Imagine un sistema de recompensas que financia el entrenamiento modelo mediante la emisión de tokens. Los crowdfundings exitosos recibirán cómputo priorizado para su modelo e impulsarán las innovaciones donde haya una gran demanda. Por ejemplo, si existe una demanda significativa de la DAO para producir un modelo GPT en español o hindi para servir a sectores más grandes de la población, la investigación puede enfocarse en ese dominio.

Ya empresas como GenSyn están trabajando en el lanzamiento de protocolos para incentivar y coordinar el acceso a hardware alternativo, rentable y basado en la nube para el cómputo de aprendizaje profundo. Con el tiempo, una red informática global compartida y descentralizada construida con infraestructura web3 será más rentable para escalar y nos servirá mejor a medida que exploramos colectivamente la frontera de la inteligencia artificial.

Los conjuntos de datos y la computación permitirán esta tesis: modelos de IA de código abierto. En los últimos años, los modelos grandes se han vuelto cada vez más privados a medida que la inversión en recursos necesaria para producirlos ha empujado a los proyectos a volverse de código cerrado.

Tome OpenAI. OpenAI se fundó en 2015 como un laboratorio de investigación sin fines de lucro con la misión de producir inteligencia general artificial para el beneficio de toda la humanidad, un marcado contraste con los líderes en IA en ese momento, Google y Facebook. Con el tiempo, la feroz competencia y la presión por la financiación han erosionado los ideales de transparencia y código abierto a medida que OpenAI se convirtió en un modelo con fines de lucro y firmó un masivo Acuerdo comercial de mil millones de dólares con Microsoft. Además, la controversia reciente ha rodeado a su modelo de texto a imagen, DALLE-2, por su censura generalizada. (Por ejemplo, DALLE-2 ha prohibido los términos 'arma', 'ejecutar', 'atacar', 'Ucrania' e imágenes de celebridades; una censura tan cruda impide mensajes como 'Lebron James atacando la canasta' o 'un programador ejecutando un línea de código'.) El acceso a la beta privada para estos modelos tiene un sesgo geográfico implícito para que los usuarios occidentales impidan que grandes franjas de la población global interactúen e informen estos modelos.

No es así como se debe difundir la inteligencia artificial: vigilada, vigilada y preservada por unas pocas grandes empresas tecnológicas. Como en el caso de blockchain, la tecnología novedosa debe aplicarse de la manera más equitativa posible para que sus beneficios no se concentren entre los pocos que tienen acceso. El progreso compuesto en inteligencia artificial debe aprovecharse abiertamente en diferentes industrias, geografías y comunidades para descubrir colectivamente los casos de uso más atractivos y llegar a un consenso sobre el uso justo de la IA. Mantener los modelos básicos de código abierto puede garantizar que se evite la censura y que el sesgo se controle cuidadosamente a la vista del público.

Con una estructura de tokens para modelos básicos generalizados, será posible agregar un grupo más grande de colaboradores que puedan monetizar su trabajo mientras liberan código de código abierto. Proyectos como OpenAI creados con una tesis de código abierto en mente han tenido que pasar a ser una empresa financiada de forma independiente para competir por el talento y los recursos. Web3 permite que los proyectos de código abierto sean financieramente lucrativos y compitan aún más con aquellos que están liderados por inversiones privadas de Big Tech. Además, los innovadores que crean productos sobre modelos de código abierto pueden construir con la confianza de que hay transparencia en la IA subyacente. El efecto posterior de esto será la rápida adopción y comercialización de nuevos casos de uso de inteligencia artificial. En el espacio web3, esto incluye aplicaciones de seguridad que realizan análisis predictivos para vulnerabilidades de contratos inteligentes y tiradas de alfombras, generadores de imagen que se pueden usar para acuñar NFT y crear paisajes de metaverso, personalidades digitales de IA que pueden existir en la cadena para preservar la propiedad individual, y mucho más.

La inteligencia artificial es una de las tecnologías de más rápido avance en la actualidad que tendrá inmensas implicaciones en nuestra sociedad en su conjunto. Hoy en día, el campo está dominado por la gran tecnología, ya que las inversiones financieras en talento, datos y computación crean fosos significativos para el desarrollo de código abierto. La integración de web3 en la capa de infraestructura de IA es un paso crucial para garantizar que los sistemas de inteligencia artificial se construyan de manera justa, abierta y accesible. Ya estamos viendo que los modelos abiertos toman una posición de innovación pública rápida en espacios abiertos como Twitter y HuggingFace y crypto puede potenciar estos esfuerzos en el futuro.

Esto es lo que el equipo de CoinFund está buscando en la intersección de IA y criptografía:

  1. Equipos con inteligencia artificial abierta en el centro de su misión
  2. Comunidades que seleccionan recursos públicos como datos y computación para ayudar a construir modelos de IA
  3. Productos que utilizan IA para llevar la creatividad, la seguridad y la innovación a la adopción generalizada

Si está construyendo un proyecto en la intersección de AI y web3, chatee con nosotros comunicándose con CoinFund en Twitter o envíe un correo electrónico a rishin@coinfund.io or jake@coinfund.io.

Sello de tiempo:

Mas de el fondo de monedas