Штучний інтелект і програмне забезпечення з відкритим кодом: розділені при народженні? - KDnuggets

Перевидано Платоном

читають: 0

ШІ та програмне забезпечення з відкритим вихідним кодом: розділені при народженні?
Зображення редактора

З кінця минулого року я читав, писав і говорив про перетин програмного забезпечення з відкритим кодом і машинного навчання, намагаючись зрозуміти, що може принести майбутнє.

Коли я починав, я очікував, що говоритиму переважно про те, як програмне забезпечення з відкритим кодом використовується спільнотою машинного навчання. Але чим більше я досліджував, тим більше я розумів, що між двома сферами практики є багато подібного. У цій статті я обговорю деякі з цих паралелей — і що машинне навчання може, а що не може навчитися з програмного забезпечення з відкритим кодом.

Легка й очевидна паралель полягає в тому, що і сучасне машинне навчання, і сучасне програмне забезпечення майже повністю побудовані на програмному забезпеченні з відкритим кодом. Для програмного забезпечення, тобто компіляторів і редакторів коду; для машинного навчання – це тренінги та системи висновків, такі як PyTorch і TensorFlow. У цих просторах домінує програмне забезпечення з відкритим кодом, і, здається, ніщо не готове це змінити.

З цього є один помітний, очевидний виняток: усі ці фреймворки залежать від власного апаратного та програмного стеку Nvidia. Це насправді більш паралельно, ніж може здатися на перший погляд. Довгий час програмне забезпечення з відкритим кодом працювало здебільшого на власних операційних системах Unix, які продавалися постачальниками власного апаратного забезпечення. Лише після того, як з’явилася Linux, ми почали сприймати як належне те, що відкрите «дно» стека навіть можливо, і сьогодні багато відкритих розробок ведеться на MacOS і Windows. Незрозуміло, як це вплине на машинне навчання. Amazon (для AWS), Google (як для хмари, так і для Android) і Apple інвестують у конкуруючі чіпи та стеки, і цілком можливо, що один або кілька з них підуть шляхом, прокладеним Лінус (і Intel) про звільнення весь стек.

Більш важливою паралеллю між тим, як створюється програмне забезпечення з відкритим вихідним кодом, і тим, як будується машинне навчання, є складність і загальнодоступність даних, на основі яких побудовано кожне з них.

Як детально описано в цьому передрук папір “The Data Provenance Project,” співавтором якого я є, сучасне машинне навчання базується буквально на тисячах джерел даних, так само як сучасне програмне забезпечення з відкритим кодом побудоване на сотнях тисяч бібліотек. І так само, як кожна відкрита бібліотека несе з собою проблеми з законодавством, безпекою та обслуговуванням, кожен загальнодоступний набір даних несе з собою точно такий же набір труднощів.

У моїй організації ми говорили про те, що версія програмного забезпечення з відкритим кодом цього виклику є «випадковий ланцюг поставок.” Індустрія програмного забезпечення почала створювати речі, тому що неймовірні будівельні блоки бібліотек з відкритим кодом означали, що ми могли. Це означало, що індустрія почала розглядати програмне забезпечення з відкритим кодом як ланцюжок поставок, що стало несподіванкою для багатьох із цих «постачальників».

Щоб пом’якшити ці проблеми, програмне забезпечення з відкритим кодом розробило багато складних (хоча й недосконалих) методів, як-от сканери для визначення того, що використовується, і метадані для відстеження речей після розгортання. Ми також починаємо інвестувати в людей, щоб спробувати усунути невідповідність між промисловими потребами та мотивацією волонтерів.

На жаль, спільнота машинного навчання, схоже, готова зануритися в ту саму «випадкову» помилку ланцюжка поставок — робити багато речей, тому що це можливо, не замислюючись над довгостроковими наслідками, коли вся економіка базуватиметься на цих наборах даних. .

Остання важлива паралель полягає в тому, що я сильно підозрюю, що машинне навчання розшириться, щоб заповнити багато-багато ніш, так само, як програмне забезпечення з відкритим кодом. На даний момент (заслужений) ажіотаж пов’язаний з великими, генеративними моделями, але є також багато маленьких моделей, а також налаштувань більших моделей. Дійсно, сайт хостингу HuggingFace, основна платформа хостингу машинного навчання, повідомляє, що кількість моделей на їхньому сайті зростає експоненціально.

Цих моделей, імовірно, буде багато і вони будуть доступні для вдосконалення, подібно до невеликих частин програмного забезпечення з відкритим кодом. Це зробить їх неймовірно гнучкими та потужними. Наприклад, я використовую невеликий інструмент на основі машинного навчання для дешевого, чутливого до конфіденційності вимірювання трафіку на моїй вулиці. Цей варіант використання був би неможливий, окрім дорогих пристроїв кілька років тому.

Але це поширення означає, що їх потрібно відстежувати — моделі можуть стати менш схожими на мейнфрейми і більше схожими на програмне забезпечення з відкритим кодом або SaaS, які з’являються всюди через низьку вартість і легкість розгортання.

Отже, якщо є ці важливі паралелі (зокрема, складні ланцюги поставок і розповсюдження дистрибуції), чому машинне навчання може навчитися з програмного забезпечення з відкритим кодом?

Перший паралельний урок, який ми можемо зробити, полягає в тому, що для розуміння численних проблем машинного навчання потрібні метадані та інструменти. Програмне забезпечення з відкритим кодом наткнулося на роботу з метаданими через відповідність авторським правам і ліцензіям, але в міру того, як випадковий ланцюжок поставок програмного забезпечення дозрів, метадані виявилися надзвичайно корисними на різних фронтах.

У машинному навчанні робота над відстеженням метаданих триває. Кілька прикладів:

A ключ 2019 папір, широко цитований у галузі, закликав розробників моделей документувати свою роботу за допомогою «карток моделей». На жаль, останні дослідження показують їх реалізація в дикій природі все ще слабка.
Специфікації специфікацій програмного забезпечення SPDX і CycloneDX специфікації матеріалів (SBOM) працюють над специфікаціями штучного інтелекту (AI BOM), щоб допомогти відстежувати дані та моделі машинного навчання більш структуровано, ніж картки моделей (відповідає складності, яку можна очікувати, якщо це справді виконує паралельне програмне забезпечення з відкритим кодом).
HuggingFace створив різноманітні специфікації та інструменти дозволити авторам моделі та набору даних документувати свої джерела.
Цитована вище стаття MIT Data Provenance намагається зрозуміти «основну правду» ліцензування даних, щоб допомогти конкретизувати специфікації реальними даними.
Як не дивно, багато компаній, які займаються тренінгами з машинного навчання, здається, мають дещо випадкові стосунки з відстеженням даних, використовуючи «більше, тим краще» як виправдання, щоб завантажувати дані в бункер, не обов’язково добре їх відстежуючи.

Якщо ми чогось навчилися з відкритого доступу, це те, що отримання правильних метаданих (спочатку специфікацій, а потім фактичних даних) буде проектом років і може вимагати втручання уряду. машинне навчання повинно якнайшвидше зважитися на метадані.

Безпека була ще одним головним рушієм попиту на метадані програмного забезпечення з відкритим кодом — якщо ви не знаєте, що ви використовуєте, ви не можете знати, чи вразливі ви до, здавалося б, нескінченного потоку атак.

Машинне навчання не піддається більшості типів традиційних програмних атак, але це не означає, що вони невразливі. (Мій улюблений приклад – це можливо навчальні набори зображень отрути тому що вони часто черпали з мертвих доменів.) Дослідження в цій галузі настільки гарячі, що ми вже пройшли повз «підтвердження концепції» і перейшли до «є достатньо атак, щоб список та таксономізувати».

На жаль, програмне забезпечення з відкритим вихідним кодом не може запропонувати машинному навчанню жодних чарівних засобів безпеки — якби ми їх мали, ми б ними користувалися. Але історія того, як програмне забезпечення з відкритим вихідним кодом поширилося на стільки ніш, свідчить про те, що машинне навчання має серйозно поставитися до цього виклику, починаючи з відстеження використання та метаданих розгортання, саме тому, що воно, ймовірно, буде застосовано у багатьох способах, крім тих, у яких воно зараз використовується. розгорнуто.

Мотиви, які спонукали метадані з відкритим кодом (ліцензування, потім безпека), вказують на наступну важливу паралель: із зростанням важливості сектора розширюється обсяг речей, які потрібно вимірювати та відстежувати, оскільки розширяться регулювання та відповідальність.

У програмному забезпеченні з відкритим вихідним кодом основним урядовим «регулюванням» протягом багатьох років був закон про авторське право, тому метадані були розроблені для його підтримки. Але програмне забезпечення з відкритим кодом зараз стикається з різними правилами безпеки та відповідальності за продукт, і ми повинні вдосконалити наші ланцюги поставок, щоб відповідати цим новим вимогам.

Так само штучний інтелект буде регулюватися різноманітними способами, оскільки він стає все більш важливим. Джерела регулювання будуть надзвичайно різноманітними, включаючи зміст (як входи, так і результати), дискримінацію та відповідальність за продукт. Для цього знадобиться те, що іноді називають "простежуваність” — розуміння того, як будуються моделі та як цей вибір (включаючи джерела даних) впливає на результати моделей.

Ця основна вимога — що ми маємо? як він сюди потрапив? — тепер добре знайомий для корпоративних розробників програмного забезпечення з відкритим кодом. Однак це може бути радикальною зміною для розробників машинного навчання, і її потрібно прийняти.

Інший паралельний урок, який машинне навчання може винести з програмного забезпечення з відкритим кодом (і справді з багатьох хвиль програмного забезпечення до нього, починаючи принаймні з мейнфреймів), полягає в тому, що термін його корисного використання буде дуже, дуже довгим. Як тільки технологія стане «досить хорошою», її буде розгорнуто, і тому її потрібно підтримувати протягом дуже, дуже тривалого часу. Це означає, що ми повинні думати про технічне обслуговування цього програмного забезпечення якомога раніше та думати про те, що це означатиме, що це програмне забезпечення може жити десятиліттями. «Десятиліття» не є перебільшенням; багато клієнтів, з якими я стикався, використовують програмне забезпечення, яке є достатньо старим, щоб голосувати. Багато компаній з відкритим кодом програмного забезпечення та деякі проекти тепер мають так звану «довгострокову підтримку» версій, які призначені для таких випадків використання.

Навпаки, OpenAI тримав свій інструмент Codex доступним менше двох років —викликало велике обурення, особливо в академічній спільноті. Враховуючи швидкі темпи змін у машинному навчанні та те, що більшість користувачів, ймовірно, зацікавлені у використанні самих передових технологій, це, ймовірно, не було нерозумним, але настане день, раніше, ніж галузь думає, коли їй потрібно буде планувати це щось на кшталт «довгострокового», включаючи те, як це взаємодіє з відповідальністю та безпекою.

Нарешті, зрозуміло, що, як і програмне забезпечення з відкритим кодом, у машинне навчання піде багато грошей, але більша частина цих грошей збиратиметься навколо того, що один автор назвав «багаті на процесори» компанії. Якщо паралелі з програмним забезпеченням з відкритим вихідним кодом відтворяться, ці компанії матимуть зовсім інші проблеми та пріоритети витрат, ніж середні творці (або користувачі) моделей.

Наша компанія, Tidelift, думала над цією проблемою стимулів у програмному забезпеченні з відкритим кодом протягом деякого часу, і такі організації, як найбільший у світі покупець програмного забезпечення – уряд США – також вивчає проблему.

Компанії, що займаються машинним навчанням, особливо ті, хто прагне створити спільноти творців, повинні добре подумати про це завдання. Якщо вони залежать від тисяч наборів даних, як вони гарантуватимуть, що ці десятиліття фінансуватимуться для обслуговування, відповідності законодавству та безпеки? Якщо великі компанії отримають десятки чи сотні моделей, розгорнутих навколо компанії, як вони гарантуватимуть, що ті, хто володіють найкращими спеціальними знаннями — ті, хто створив моделі — продовжуватимуть працювати над новими проблемами, коли вони будуть виявлені?

Як і безпека, на це завдання немає простих відповідей. Але чим швидше машинне навчання сприйме проблему серйозно — не як акт милосердя, а як ключовий компонент довгострокового зростання, — тим краще буде для всієї галузі та всього світу.

Глибоке коріння машинного навчання в академічній культурі експерименталізму та культурі швидкої ітерації Кремнієвої долини добре послужили йому, що призвело до дивовижного вибуху інновацій, які мали б здавалося чарівним менше десяти років тому. Курс програмного забезпечення з відкритим кодом за останнє десятиліття був, можливо, менш гламурним, але за цей час воно стало основою всього корпоративного програмного забезпечення — і попутно засвоїло багато уроків. Сподіваємось, машинне навчання не винаходитиме ці колеса.

Луїс Вілья є співзасновником і головним радником Tidelift. Раніше він був провідним юристом у сфері відкритого коду, консультуючи клієнтів, від компаній зі списку Fortune 50 до провідних стартапів, щодо розробки продуктів і ліцензування відкритого коду.