IA et logiciels open source : séparés à la naissance ? - KDnuggets

Republié par Platon

Suiveurs: 0

IA et logiciels open source : séparés à la naissance ?
Image par l'éditeur

J'ai lu, écrit et parlé depuis la fin de l'année dernière sur l'intersection des logiciels open source et de l'apprentissage automatique, en essayant de comprendre ce que l'avenir pourrait nous apporter.

Quand j'ai commencé, je m'attendais à parler principalement de la façon dont les logiciels open source sont utilisés par la communauté de l'apprentissage automatique. Mais plus j’explore, plus je me rends compte qu’il existe de nombreuses similitudes entre les deux domaines de pratique. Dans cet article, j'aborderai certains de ces parallèles et ce que l'apprentissage automatique peut et ne peut pas apprendre des logiciels open source.

Le parallèle simple et évident est que l’apprentissage automatique moderne et les logiciels modernes sont presque entièrement construits avec des logiciels open source. Pour les logiciels, c'est-à-dire les compilateurs et les éditeurs de code ; pour l'apprentissage automatique, il s'agit de frameworks de formation et d'inférence comme PyTorch et TensorFlow. Ces espaces sont dominés par les logiciels open source, et rien ne semble prêt à changer cela.

Il existe une exception notable et apparente à cela : tous ces frameworks dépendent de la pile matérielle et logicielle très propriétaire de Nvidia. En fait, c’est plus parallèle qu’il n’y paraît au premier abord. Pendant longtemps, les logiciels open source fonctionnaient principalement sur des systèmes d'exploitation Unix propriétaires, vendus par des fournisseurs de matériel propriétaire. Ce n’est qu’après l’arrivée de Linux que nous avons commencé à considérer comme acquis qu’un « bas » ouvert de la pile était possible, et de nos jours, de nombreux développements ouverts sont réalisés sous MacOS et Windows. On ne sait pas exactement comment cela se déroulera dans l’apprentissage automatique. Amazon (pour AWS), Google (pour le cloud et Android) et Apple investissent tous dans des puces et des piles concurrentes, et il est possible qu'un ou plusieurs d'entre eux suivent le chemin tracé par Linus (et Intel) de libérer le tout empiler.

Un parallèle plus critique entre la façon dont les logiciels open source sont créés et la manière dont l’apprentissage automatique est construit est la complexité et la disponibilité publique des données sur lesquelles chacun est construit.

Comme détaillé dans ce pré-impression papier « Le projet sur la provenance des données » que j'ai co-écrit, l'apprentissage automatique moderne repose littéralement sur des milliers de sources de données, tout comme les logiciels open source modernes reposent sur des centaines de milliers de bibliothèques. Et tout comme chaque bibliothèque ouverte comporte des défis juridiques, de sécurité et de maintenance, chaque ensemble de données publiques entraîne exactement le même ensemble de difficultés.

Dans mon organisation, nous avons parlé de la version open source de ce défi comme étant un «chaîne d'approvisionnement accidentelle.» L’industrie du logiciel a commencé à construire des choses parce que les incroyables éléments constitutifs des bibliothèques open source signifiaient que nous le pouvions. Cela signifie que l’industrie a commencé à traiter les logiciels open source comme une chaîne d’approvisionnement, ce qui a surpris bon nombre de ces « fournisseurs ».

Pour atténuer ces défis, les logiciels open source ont développé de nombreuses techniques sophistiquées (bien qu'imparfaites), comme des scanners pour identifier ce qui est utilisé et des métadonnées pour suivre les éléments après le déploiement. Nous commençons également à investir dans l'humain, pour tenter de remédier à l'inadéquation entre les besoins industriels et les motivations des bénévoles.

Malheureusement, la communauté du machine learning semble prête à plonger dans exactement la même erreur « accidentelle » de la chaîne d’approvisionnement : faire beaucoup de choses parce qu’elle le peut, sans réfléchir aux implications à long terme une fois que l’ensemble de l’économie sera basée sur ces ensembles de données. .

Un dernier parallèle important est que je soupçonne fortement que l’apprentissage automatique se développera pour remplir de très nombreuses niches, tout comme l’ont fait les logiciels open source. Pour le moment, le battage médiatique (mérité) concerne les grands modèles génératifs, mais il existe également de nombreux petits modèles, ainsi que des modifications sur des modèles plus grands. En effet, le site d'hébergement HuggingFace, la principale plateforme d'hébergement de machine learning, rapporte que le nombre de modèles sur son site augmente de façon exponentielle.

Ces modèles seront probablement nombreux et disponibles pour amélioration, tout comme les petits logiciels open source. Cela les rendra incroyablement flexibles et puissants. J'utilise par exemple un petit outil basé sur l'apprentissage automatique pour effectuer des mesures de trafic peu coûteuses et sensibles à la confidentialité dans ma rue, un cas d'utilisation qui n'aurait été possible que sur des appareils coûteux il y a quelques années.

Mais cette prolifération signifie qu'ils devront être suivis : les modèles pourraient ressembler moins à des mainframes qu'à des logiciels open source ou SaaS, qui apparaissent partout en raison de leur faible coût et de leur facilité de déploiement.

Alors, s’il existe ces parallèles importants (en particulier entre les chaînes d’approvisionnement complexes et la distribution proliférante), que peut apprendre l’apprentissage automatique des logiciels open source ?

La première leçon parallèle que nous pouvons tirer est simplement que pour comprendre ses nombreux défis, l’apprentissage automatique aura besoin de métadonnées et d’outils. Les logiciels open source se sont lancés dans le travail sur les métadonnées en raison du respect des droits d'auteur et des licences, mais à mesure que la chaîne d'approvisionnement accidentelle des logiciels a mûri, les métadonnées se sont révélées extrêmement utiles sur divers fronts.

En apprentissage automatique, le suivi des métadonnées est un travail en cours. Quelques exemples :

A article clé de 2019, largement cité dans l’industrie, a exhorté les développeurs de modèles à documenter leur travail avec des « fiches modèles ». Malheureusement, des recherches récentes suggèrent que leur la mise en œuvre dans la nature est encore faible.
Les spécifications des nomenclatures logicielles SPDX et CycloneDX (SBOM) travaillent sur les nomenclatures AI (AI BOM) pour aider à suivre les données et les modèles d'apprentissage automatique, d'une manière plus structurée que les cartes modèles (conforme à la complexité à laquelle on pourrait s'attendre si cela fait vraiment des logiciels open source parallèles).
HuggingFace a créé une variété de spécifications et d'outils pour permettre aux auteurs de modèles et d’ensembles de données de documenter leurs sources.
L'article du MIT Data Provenance cité ci-dessus tente de comprendre la « vérité terrain » des licences de données, pour aider à étoffer les spécifications avec des données du monde réel.
De manière anecdotique, de nombreuses entreprises effectuant des travaux de formation en apprentissage automatique semblent avoir des relations quelque peu informelles avec le suivi des données, utilisant « plus c'est mieux » comme excuse pour mettre des données dans la trémie sans nécessairement les suivre correctement.

Si nous avons appris quelque chose de l'open, c'est que l'obtention des bonnes métadonnées (d'abord les spécifications, puis les données réelles) va être un projet qui prendra des années et peut nécessiter Intervention gouvernementale. l’apprentissage automatique devrait faire plonger ces métadonnées le plus tôt possible.

La sécurité est un autre moteur majeur de la demande de métadonnées des logiciels open source : si vous ne savez pas ce que vous exécutez, vous ne pouvez pas savoir si vous êtes vulnérable au flux apparemment incessant d'attaques.

L'apprentissage automatique n'est pas soumis à la plupart des types d'attaques logicielles traditionnelles, mais cela ne signifie pas qu'ils sont invulnérables. (Mon exemple préféré est qu'il était possible de ensembles de formation sur les images empoisonnées car ils s'appuyaient souvent sur des domaines morts.) La recherche dans ce domaine est suffisamment chaude pour que nous ayons déjà dépassé la « preuve de concept » et concluons « il y a suffisamment d'attaques pour liste ainsi que le taxonomiser. »

Malheureusement, les logiciels open source ne peuvent pas offrir de solution miracle à l'apprentissage automatique en matière de sécurité : si nous en avions, nous les utiliserions. Mais l'histoire de la propagation des logiciels open source dans de nombreuses niches suggère que l'apprentissage automatique doit prendre ce défi au sérieux, en commençant par le suivi des métadonnées d'utilisation et de déploiement, précisément parce qu'il est susceptible d'être appliqué de bien des manières au-delà de celles dans lesquelles il est actuellement. déployé.

Les motivations qui ont motivé les métadonnées open source (licences, puis sécurité) pointent vers le prochain parallèle important : à mesure que l’importance d’un secteur augmente, la portée des éléments qui doivent être mesurés et suivis va s’élargir, car la réglementation et la responsabilité vont s’élargir.

Dans le domaine des logiciels open source, la principale « réglementation » gouvernementale a été pendant de nombreuses années la loi sur le droit d’auteur, et des métadonnées ont donc été développées pour soutenir cette loi. Mais les logiciels open source sont désormais confrontés à diverses règles de sécurité et de responsabilité du fait des produits, et nous devons faire évoluer nos chaînes d'approvisionnement pour répondre à ces nouvelles exigences.

De la même manière, l’IA sera réglementée d’une multitude de façons toujours plus nombreuses à mesure qu’elle deviendra de plus en plus importante. Les sources de réglementation seront extrêmement diverses, notamment sur le contenu (à la fois les intrants et les extrants), la discrimination et la responsabilité du fait des produits. Cela nécessitera ce qu’on appelle parfois «traçabilité de» – comprendre comment les modèles sont construits et comment ces choix (y compris les sources de données) ont un impact sur les résultats des modèles.

Cette exigence fondamentale : qu’avons-nous ? comment en est-il arrivé là ? – est désormais intimement familier aux développeurs de logiciels open source d’entreprise. Cependant, cela pourrait constituer un changement radical pour les développeurs de machine learning et doit être adopté.

Une autre leçon parallèle que l’apprentissage automatique peut tirer des logiciels open source (et même des nombreuses vagues de logiciels qui les ont précédés, remontant au moins au mainframe) est que leur durée de vie utile sera très, très longue. Une fois qu’une technologie est « suffisamment performante », elle sera déployée et devra donc être maintenue pendant très, très longtemps. Cela implique que nous devons penser à la maintenance de ce logiciel le plus tôt possible et réfléchir à ce que cela signifiera pour que ce logiciel puisse survivre pendant des décennies. « Des décennies » n’est pas une exagération ; de nombreux clients que je rencontre utilisent un logiciel suffisamment ancien pour voter. De nombreux éditeurs de logiciels open source, ainsi que certains projets, disposent désormais de versions dites de « support à long terme » destinées à ce type de cas d'utilisation.

En revanche, OpenAI a maintenu son outil Codex disponible pendant moins de deux ans :entraînant beaucoup de colère, notamment dans la communauté universitaire. Étant donné le rythme rapide de l'évolution de l'apprentissage automatique et le fait que la plupart des utilisateurs sont probablement intéressés à utiliser les technologies les plus avancées, cela n'était probablement pas déraisonnable, mais le jour viendra, plus tôt que ne le pense l'industrie, où elle devra planifier cela. une sorte de « long terme », y compris la façon dont il interagit avec la responsabilité et la sécurité.

Enfin, il est clair que, comme pour les logiciels open source, beaucoup d’argent sera investi dans l’apprentissage automatique, mais la majeure partie de cet argent sera mise en commun autour de ce qu’un auteur a appelé les entreprises « riches en processeurs ». Si les parallèles avec les logiciels open source se vérifient, ces entreprises auront des préoccupations et des priorités de dépenses très différentes de celles du créateur (ou utilisateur) médian des modèles.

Notre société, Tidelift, réfléchit depuis un certain temps à ce problème d'incitations dans le domaine des logiciels open source, et des entités comme le plus grand acheteur mondial de logiciels, le gouvernement américain, sont en train de réfléchir. examiner également le problème.

Les entreprises de machine learning, en particulier celles qui cherchent à créer des communautés de créateurs, devraient réfléchir sérieusement à ce défi. S'ils dépendent de milliers d'ensembles de données, comment garantiront-ils que ceux-ci soient financés pour la maintenance, la conformité légale et la sécurité pendant des décennies ? Si les grandes entreprises se retrouvent avec des dizaines ou des centaines de modèles déployés dans l’entreprise, comment garantiront-elles que ceux qui possèdent les meilleures connaissances spécialisées – ceux qui ont créé les modèles – soient toujours là pour travailler sur les nouveaux problèmes à mesure qu’ils sont découverts ?

Tout comme en matière de sécurité, il n’existe pas de réponse simple à ce défi. Mais plus tôt l’apprentissage automatique prendra le problème au sérieux – non pas comme un acte de charité, mais comme un élément clé de la croissance à long terme – mieux l’ensemble de l’industrie et le monde entier s’en porteront.

Les racines profondes de l'apprentissage automatique dans la culture de l'expérimentation du monde universitaire et dans la culture de l'itération rapide de la Silicon Valley lui ont bien servi, conduisant à une étonnante explosion d'innovation qui aurait pu Cela semblait magique il y a moins de dix ans. L'évolution des logiciels open source au cours de la dernière décennie a peut-être été moins glamour, mais au cours de cette période, ils sont devenus le fondement de tous les logiciels d'entreprise et ont appris de nombreuses leçons en cours de route. Espérons que l’apprentissage automatique ne réinventera pas ces roues.

Luis Villa est co-fondateur et avocat général de Tidelift. Auparavant, il était l'un des meilleurs avocats open source, conseillant des clients, des sociétés Fortune 50 aux startups de premier plan, sur le développement de produits et les licences open source.