IA y software de código abierto: ¿separados al nacer? - KDnuggets

Reeditado por Platón

seguidores: 0

IA y software de código abierto: ¿separados al nacer?
Imagen por editor

He estado leyendo, escribiendo y hablando desde finales del año pasado sobre la intersección del software de código abierto y el aprendizaje automático, tratando de comprender lo que nos deparará el futuro.

Cuando comencé, esperaba hablar principalmente sobre cómo la comunidad de aprendizaje automático utiliza el software de código abierto. Pero cuanto más exploré, más me di cuenta de que existen muchas similitudes entre las dos áreas de práctica. En este artículo, analizaré algunos de esos paralelos y lo que el aprendizaje automático puede y no puede aprender del software de código abierto.

El paralelo fácil y obvio es que tanto el aprendizaje automático moderno como el software moderno se crean casi en su totalidad con software de código abierto. Para el software, es decir, compiladores y editores de código; para el aprendizaje automático, se trata de marcos de entrenamiento e inferencia como PyTorch y TensorFlow. Estos espacios están dominados por el software de código abierto y nada parece dispuesto a cambiar eso.

Hay una excepción aparente y notable a esto: todos estos marcos dependen de la pila de hardware y software patentada de Nvidia. En realidad, esto es más paralelo de lo que podría parecer a primera vista. Durante mucho tiempo, el software de código abierto se ejecutaba principalmente en sistemas operativos propietarios Unix, vendidos por proveedores de hardware propietarios. Fue sólo después de la aparición de Linux que comenzamos a dar por sentado que un “fondo” abierto de la pila era incluso posible, y hoy en día se realiza mucho desarrollo abierto en MacOS y Windows. No está claro cómo se desarrollará esto en el aprendizaje automático. Amazon (para AWS), Google (tanto para la nube como para Android) y Apple están invirtiendo en chips y pilas de la competencia, y es posible que uno o más de ellos sigan el camino trazado por Linus (e Intel) de liberar el toda montón.

Un paralelo más crítico entre cómo se construye el software de código abierto y cómo se construye el aprendizaje automático es la complejidad y la disponibilidad pública de los datos sobre los que se construye cada uno.

Como se detalla en este preprint “The Data Provenance Project,” del que soy coautor, el aprendizaje automático moderno se basa literalmente en miles de fuentes de datos, al igual que el software moderno de código abierto se basa en cientos de miles de bibliotecas. Y así como cada biblioteca abierta trae consigo desafíos legales, de seguridad y de mantenimiento, cada conjunto de datos públicos trae consigo exactamente el mismo conjunto de dificultades.

En mi organización, hemos hablado de la versión de software de código abierto de este desafío como un "cadena de suministro accidental.” La industria del software comenzó a construir cosas porque los increíbles componentes básicos de las bibliotecas de código abierto permitieron que pudiéramos hacerlo. Esto significó que la industria comenzó a tratar el software de código abierto como una cadena de suministro, lo que fue una sorpresa para muchos de esos “proveedores”.

Para mitigar estos desafíos, el software de código abierto ha desarrollado muchas técnicas sofisticadas (aunque imperfectas), como escáneres para identificar qué se está utilizando y metadatos para rastrear cosas después de la implementación. También estamos empezando a invertir en humanos, para tratar de abordar el desajuste entre las necesidades industriales y las motivaciones de los voluntarios.

Desafortunadamente, la comunidad de aprendizaje automático parece dispuesta a caer exactamente en el mismo error “accidental” de la cadena de suministro: hacer muchas cosas porque puede, sin detenerse a pensar mucho en las implicaciones a largo plazo una vez que toda la economía se base en estos conjuntos de datos. .

Un último paralelo importante es que sospecho firmemente que el aprendizaje automático se expandirá para llenar muchos, muchos nichos, tal como lo ha hecho el software de código abierto. Por el momento, el (merecido) revuelo se centra en los modelos generativos grandes, pero también hay muchos modelos pequeños, así como ajustes en modelos más grandes. De hecho, el sitio de alojamiento HuggingFace, la principal plataforma de alojamiento de aprendizaje automático, informa que la cantidad de modelos en su sitio está creciendo exponencialmente.

Es probable que estos modelos sean abundantes y estén disponibles para mejorar, al igual que pequeñas piezas de software de código abierto. Eso los hará increíblemente flexibles y poderosos. Estoy usando una pequeña herramienta basada en aprendizaje automático para realizar mediciones de tráfico económicas y sensibles a la privacidad en mi calle, por ejemplo, un caso de uso que no habría sido posible excepto en dispositivos costosos hace unos años.

Pero esta proliferación significa que será necesario realizar un seguimiento: los modelos pueden volverse menos parecidos a mainframes y más a software de código abierto o SaaS, que aparecen en todas partes debido a su bajo costo y facilidad de implementación.

Entonces, si existen estos paralelos importantes (particularmente entre cadenas de suministro complejas y distribución proliferante), ¿qué puede aprender el aprendizaje automático del software de código abierto?

La primera lección paralela que podemos extraer es simplemente que, para comprender sus numerosos desafíos, el aprendizaje automático necesitará metadatos y herramientas. El software de código abierto tropezó con el trabajo de metadatos a través del cumplimiento de derechos de autor y licencias, pero a medida que la cadena de suministro accidental de software maduró, los metadatos han demostrado ser inmensamente útiles en una variedad de frentes.

En el aprendizaje automático, el seguimiento de metadatos es un trabajo en progreso. Algunos ejemplos:

A documento clave 2019, ampliamente citado en la industria, instó a los desarrolladores de modelos a documentar su trabajo con “tarjetas modelo”. Desafortunadamente, investigaciones recientes sugieren que su la implementación en la naturaleza aún es débil.
Las especificaciones de listas de materiales (SBOM) del software SPDX y CycloneDX están trabajando en listas de materiales (AI BOM) de IA para ayudar a rastrear los datos y modelos de aprendizaje automático, de una manera más estructurada que las tarjetas modelo (acorde con la complejidad que uno esperaría si esto realmente hace software paralelo de código abierto).
HuggingFace ha creado una variedad de especificaciones y herramientas para permitir que los autores de modelos y conjuntos de datos documenten sus fuentes.
El artículo del MIT Data Provenance citado anteriormente intenta comprender la “verdad fundamental” de las licencias de datos, para ayudar a desarrollar las especificaciones con datos del mundo real.
Como anécdota, muchas empresas que realizan trabajos de capacitación en aprendizaje automático parecen tener relaciones un tanto casuales con el seguimiento de datos, utilizando "más es mejor" como excusa para introducir datos en la tolva sin necesariamente realizar un buen seguimiento.

Si algo hemos aprendido desde el principio es que obtener los metadatos correctos (primero, las especificaciones, luego los datos reales) será un proyecto de años y puede requerir Intervención gubernamental. El aprendizaje automático debería dar el salto a los metadatos más temprano que tarde.

La seguridad ha sido otro importante impulsor de la demanda de metadatos del software de código abierto: si no sabes lo que estás ejecutando, no puedes saber si eres susceptible al flujo aparentemente interminable de ataques.

El aprendizaje automático no está sujeto a la mayoría de los tipos de ataques de software tradicionales, pero eso no significa que sean invulnerables. (Mi ejemplo favorito es que era posible conjuntos de entrenamiento de imágenes de veneno porque a menudo se basaban en dominios muertos). La investigación en esta área es lo suficientemente candente como para que ya hayamos superado la “prueba de concepto” y hayamos llegado a “hay suficientes ataques para lista y taxonomizar."

Desafortunadamente, el software de código abierto no puede ofrecer al aprendizaje automático ninguna solución mágica para la seguridad; si las tuviéramos, las estaríamos usando. Pero la historia de cómo el software de código abierto se extendió a tantos nichos sugiere que el aprendizaje automático debe tomar este desafío en serio, comenzando con el seguimiento del uso y los metadatos de implementación, precisamente porque es probable que se aplique de muchas maneras más allá de aquellas en las que se aplica actualmente. desplegada.

Las motivaciones que impulsaron los metadatos de código abierto (licencias, luego seguridad) apuntan al siguiente paralelo importante: a medida que crece la importancia de un sector, se ampliará el alcance de las cosas que deben medirse y rastrearse, porque se expandirán la regulación y la responsabilidad.

En el software de código abierto, la principal “regulación” gubernamental durante muchos años fue la ley de derechos de autor, por lo que se desarrollaron metadatos para respaldarla. Pero el software de código abierto ahora enfrenta una variedad de reglas de seguridad y responsabilidad del producto, y debemos madurar nuestras cadenas de suministro para cumplir con esos nuevos requisitos.

De manera similar, la IA se regulará de muchas maneras cada vez mayores a medida que adquiera cada vez más importancia. Las fuentes de regulación serán extremadamente diversas, incluyendo el contenido (tanto de entradas como de salidas), la discriminación y la responsabilidad del producto. Esto requerirá lo que a veces se llama “trazabilidad de ”—comprender cómo se construyen los modelos y cómo esas elecciones (incluidas las fuentes de datos) impactan los resultados de los modelos.

Este requisito fundamental: ¿qué tenemos? ¿Cómo llegó hasta aquí? – ahora es íntimamente familiar para los desarrolladores de software empresarial de código abierto. Sin embargo, puede ser un cambio radical para los desarrolladores de aprendizaje automático y debe ser adoptado.

Otra lección paralela que el aprendizaje automático puede extraer del software de código abierto (y de hecho de muchas oleadas de software anteriores, que se remontan al menos al mainframe) es que su vida útil será muy, muy larga. Una vez que una tecnología es “suficientemente buena”, se implementará y, por lo tanto, deberá mantenerse durante un tiempo muy, muy largo. Esto implica que debemos pensar en el mantenimiento de este software lo antes posible y pensar en lo que significará que este software pueda sobrevivir durante décadas. “Décadas” no es una exageración; Muchos de los clientes con los que me encuentro utilizan software que tiene la edad suficiente para votar. Muchas empresas de software de código abierto, y algunos proyectos, ahora tienen las llamadas versiones de “soporte a largo plazo” que están destinadas a este tipo de casos de uso.

Por el contrario, OpenAI mantuvo su herramienta Codex disponible durante menos de dos años.lo que genera mucha ira, especialmente en la comunidad académica. Dado el rápido ritmo de cambio en el aprendizaje automático y que la mayoría de quienes lo adoptan probablemente estén interesados en utilizar lo último en tecnología, esto probablemente no era descabellado, pero llegará el día, antes de lo que la industria piensa, en el que será necesario planificar esto. una especie de “largo plazo”, incluida la forma en que interactúa con la responsabilidad y la seguridad.

Finalmente, está claro que, al igual que el software de código abierto, habrá mucho dinero fluyendo hacia el aprendizaje automático, pero la mayor parte de ese dinero se concentrará en lo que un autor ha llamado las empresas “ricas en procesadores”. Si se desarrollan los paralelos con el software de código abierto, esas empresas tendrán preocupaciones y prioridades de gasto muy diferentes a las del creador (o usuario) medio de modelos.

Nuestra empresa, Tidelift, lleva algún tiempo pensando en este problema de los incentivos en el software de código abierto, y entidades como el mayor comprador de software del mundo, el gobierno de Estados Unidos, están investigando el problema también.

Las empresas de aprendizaje automático, especialmente aquellas que buscan crear comunidades de creadores, deberían pensar detenidamente en este desafío. Si dependen de miles de conjuntos de datos, ¿cómo garantizarán que se financien durante décadas para su mantenimiento, cumplimiento legal y seguridad? Si las grandes empresas terminan con docenas o cientos de modelos implementados en toda la empresa, ¿cómo garantizarán que aquellos con el mejor conocimiento especializado (los que crearon los modelos) sigan trabajando en nuevos problemas a medida que se descubran?

Al igual que la seguridad, no hay respuestas fáciles para este desafío. Pero cuanto antes el aprendizaje automático tome en serio el problema (no como un acto de caridad, sino como un componente clave del crecimiento a largo plazo), mejor estará toda la industria y el mundo entero.

Las profundas raíces del aprendizaje automático en la cultura del experimentalismo académico y la cultura de iteración rápida de Silicon Valley le han servido bien, dando lugar a una sorprendente explosión de innovación que habría parecía mágico hace menos de una década. El curso del software de código abierto en la última década tal vez haya sido menos glamoroso, pero durante ese tiempo se ha convertido en la base de todo el software empresarial y ha aprendido muchas lecciones a lo largo del camino. Esperemos que el aprendizaje automático no reinvente esas ruedas.

luis vila es cofundador y asesor general de Tidelift. Anteriormente, fue un destacado abogado de código abierto que asesoraba a clientes, desde empresas Fortune 50 hasta nuevas empresas líderes, sobre desarrollo de productos y licencias de código abierto.