Зображення редактора
З кінця минулого року я читав, писав і говорив про перетин програмного забезпечення з відкритим кодом і машинного навчання, намагаючись зрозуміти, що може принести майбутнє.
Коли я починав, я очікував, що говоритиму переважно про те, як програмне забезпечення з відкритим кодом використовується спільнотою машинного навчання. Але чим більше я досліджував, тим більше я розумів, що між двома сферами практики є багато подібного. У цій статті я обговорю деякі з цих паралелей — і що машинне навчання може, а що не може навчитися з програмного забезпечення з відкритим кодом.
Легка й очевидна паралель полягає в тому, що і сучасне машинне навчання, і сучасне програмне забезпечення майже повністю побудовані на програмному забезпеченні з відкритим кодом. Для програмного забезпечення, тобто компіляторів і редакторів коду; для машинного навчання – це тренінги та системи висновків, такі як PyTorch і TensorFlow. У цих просторах домінує програмне забезпечення з відкритим кодом, і, здається, ніщо не готове це змінити.
З цього є один помітний, очевидний виняток: усі ці фреймворки залежать від власного апаратного та програмного стеку Nvidia. Це насправді більш паралельно, ніж може здатися на перший погляд. Довгий час програмне забезпечення з відкритим кодом працювало здебільшого на власних операційних системах Unix, які продавалися постачальниками власного апаратного забезпечення. Лише після того, як з’явилася Linux, ми почали сприймати як належне те, що відкрите «дно» стека навіть можливо, і сьогодні багато відкритих розробок ведеться на MacOS і Windows. Незрозуміло, як це вплине на машинне навчання. Amazon (для AWS), Google (як для хмари, так і для Android) і Apple інвестують у конкуруючі чіпи та стеки, і цілком можливо, що один або кілька з них підуть шляхом, прокладеним Лінус (і Intel) про звільнення весь стек.
Більш важливою паралеллю між тим, як створюється програмне забезпечення з відкритим вихідним кодом, і тим, як будується машинне навчання, є складність і загальнодоступність даних, на основі яких побудовано кожне з них.
Як детально описано в цьому передрук папір “The Data Provenance Project,” співавтором якого я є, сучасне машинне навчання базується буквально на тисячах джерел даних, так само як сучасне програмне забезпечення з відкритим кодом побудоване на сотнях тисяч бібліотек. І так само, як кожна відкрита бібліотека несе з собою проблеми з законодавством, безпекою та обслуговуванням, кожен загальнодоступний набір даних несе з собою точно такий же набір труднощів.
У моїй організації ми говорили про те, що версія програмного забезпечення з відкритим кодом цього виклику є «випадковий ланцюг поставок.” Індустрія програмного забезпечення почала створювати речі, тому що неймовірні будівельні блоки бібліотек з відкритим кодом означали, що ми могли. Це означало, що індустрія почала розглядати програмне забезпечення з відкритим кодом як ланцюжок поставок, що стало несподіванкою для багатьох із цих «постачальників».
Щоб пом’якшити ці проблеми, програмне забезпечення з відкритим кодом розробило багато складних (хоча й недосконалих) методів, як-от сканери для визначення того, що використовується, і метадані для відстеження речей після розгортання. Ми також починаємо інвестувати в людей, щоб спробувати усунути невідповідність між промисловими потребами та мотивацією волонтерів.
На жаль, спільнота машинного навчання, схоже, готова зануритися в ту саму «випадкову» помилку ланцюжка поставок — робити багато речей, тому що це можливо, не замислюючись над довгостроковими наслідками, коли вся економіка базуватиметься на цих наборах даних. .
Остання важлива паралель полягає в тому, що я сильно підозрюю, що машинне навчання розшириться, щоб заповнити багато-багато ніш, так само, як програмне забезпечення з відкритим кодом. На даний момент (заслужений) ажіотаж пов’язаний з великими, генеративними моделями, але є також багато маленьких моделей, а також налаштувань більших моделей. Дійсно, сайт хостингу HuggingFace, основна платформа хостингу машинного навчання, повідомляє, що кількість моделей на їхньому сайті зростає експоненціально.
Цих моделей, імовірно, буде багато і вони будуть доступні для вдосконалення, подібно до невеликих частин програмного забезпечення з відкритим кодом. Це зробить їх неймовірно гнучкими та потужними. Наприклад, я використовую невеликий інструмент на основі машинного навчання для дешевого, чутливого до конфіденційності вимірювання трафіку на моїй вулиці. Цей варіант використання був би неможливий, окрім дорогих пристроїв кілька років тому.
Але це поширення означає, що їх потрібно відстежувати — моделі можуть стати менш схожими на мейнфрейми і більше схожими на програмне забезпечення з відкритим кодом або SaaS, які з’являються всюди через низьку вартість і легкість розгортання.
Отже, якщо є ці важливі паралелі (зокрема, складні ланцюги поставок і розповсюдження дистрибуції), чому машинне навчання може навчитися з програмного забезпечення з відкритим кодом?
Перший паралельний урок, який ми можемо зробити, полягає в тому, що для розуміння численних проблем машинного навчання потрібні метадані та інструменти. Програмне забезпечення з відкритим кодом наткнулося на роботу з метаданими через відповідність авторським правам і ліцензіям, але в міру того, як випадковий ланцюжок поставок програмного забезпечення дозрів, метадані виявилися надзвичайно корисними на різних фронтах.
У машинному навчанні робота над відстеженням метаданих триває. Кілька прикладів:
- A ключ 2019 папір, широко цитований у галузі, закликав розробників моделей документувати свою роботу за допомогою «карток моделей». На жаль, останні дослідження показують їх реалізація в дикій природі все ще слабка.
- Специфікації специфікацій програмного забезпечення SPDX і CycloneDX специфікації матеріалів (SBOM) працюють над специфікаціями штучного інтелекту (AI BOM), щоб допомогти відстежувати дані та моделі машинного навчання більш структуровано, ніж картки моделей (відповідає складності, яку можна очікувати, якщо це справді виконує паралельне програмне забезпечення з відкритим кодом).
- HuggingFace створив різноманітні специфікації та інструменти дозволити авторам моделі та набору даних документувати свої джерела.
- Цитована вище стаття MIT Data Provenance намагається зрозуміти «основну правду» ліцензування даних, щоб допомогти конкретизувати специфікації реальними даними.
- Як не дивно, багато компаній, які займаються тренінгами з машинного навчання, здається, мають дещо випадкові стосунки з відстеженням даних, використовуючи «більше, тим краще» як виправдання, щоб завантажувати дані в бункер, не обов’язково добре їх відстежуючи.
Якщо ми чогось навчилися з відкритого доступу, це те, що отримання правильних метаданих (спочатку специфікацій, а потім фактичних даних) буде проектом років і може вимагати втручання уряду. машинне навчання повинно якнайшвидше зважитися на метадані.
Безпека була ще одним головним рушієм попиту на метадані програмного забезпечення з відкритим кодом — якщо ви не знаєте, що ви використовуєте, ви не можете знати, чи вразливі ви до, здавалося б, нескінченного потоку атак.
Машинне навчання не піддається більшості типів традиційних програмних атак, але це не означає, що вони невразливі. (Мій улюблений приклад – це можливо навчальні набори зображень отрути тому що вони часто черпали з мертвих доменів.) Дослідження в цій галузі настільки гарячі, що ми вже пройшли повз «підтвердження концепції» і перейшли до «є достатньо атак, щоб список та таксономізувати».
На жаль, програмне забезпечення з відкритим вихідним кодом не може запропонувати машинному навчанню жодних чарівних засобів безпеки — якби ми їх мали, ми б ними користувалися. Але історія того, як програмне забезпечення з відкритим вихідним кодом поширилося на стільки ніш, свідчить про те, що машинне навчання має серйозно поставитися до цього виклику, починаючи з відстеження використання та метаданих розгортання, саме тому, що воно, ймовірно, буде застосовано у багатьох способах, крім тих, у яких воно зараз використовується. розгорнуто.
Мотиви, які спонукали метадані з відкритим кодом (ліцензування, потім безпека), вказують на наступну важливу паралель: із зростанням важливості сектора розширюється обсяг речей, які потрібно вимірювати та відстежувати, оскільки розширяться регулювання та відповідальність.
У програмному забезпеченні з відкритим вихідним кодом основним урядовим «регулюванням» протягом багатьох років був закон про авторське право, тому метадані були розроблені для його підтримки. Але програмне забезпечення з відкритим кодом зараз стикається з різними правилами безпеки та відповідальності за продукт, і ми повинні вдосконалити наші ланцюги поставок, щоб відповідати цим новим вимогам.
Так само штучний інтелект буде регулюватися різноманітними способами, оскільки він стає все більш важливим. Джерела регулювання будуть надзвичайно різноманітними, включаючи зміст (як входи, так і результати), дискримінацію та відповідальність за продукт. Для цього знадобиться те, що іноді називають "простежуваність” — розуміння того, як будуються моделі та як цей вибір (включаючи джерела даних) впливає на результати моделей.
Ця основна вимога — що ми маємо? як він сюди потрапив? — тепер добре знайомий для корпоративних розробників програмного забезпечення з відкритим кодом. Однак це може бути радикальною зміною для розробників машинного навчання, і її потрібно прийняти.
Інший паралельний урок, який машинне навчання може винести з програмного забезпечення з відкритим кодом (і справді з багатьох хвиль програмного забезпечення до нього, починаючи принаймні з мейнфреймів), полягає в тому, що термін його корисного використання буде дуже, дуже довгим. Як тільки технологія стане «досить хорошою», її буде розгорнуто, і тому її потрібно підтримувати протягом дуже, дуже тривалого часу. Це означає, що ми повинні думати про технічне обслуговування цього програмного забезпечення якомога раніше та думати про те, що це означатиме, що це програмне забезпечення може жити десятиліттями. «Десятиліття» не є перебільшенням; багато клієнтів, з якими я стикався, використовують програмне забезпечення, яке є достатньо старим, щоб голосувати. Багато компаній з відкритим кодом програмного забезпечення та деякі проекти тепер мають так звану «довгострокову підтримку» версій, які призначені для таких випадків використання.
Навпаки, OpenAI тримав свій інструмент Codex доступним менше двох років —викликало велике обурення, особливо в академічній спільноті. Враховуючи швидкі темпи змін у машинному навчанні та те, що більшість користувачів, ймовірно, зацікавлені у використанні самих передових технологій, це, ймовірно, не було нерозумним, але настане день, раніше, ніж галузь думає, коли їй потрібно буде планувати це щось на кшталт «довгострокового», включаючи те, як це взаємодіє з відповідальністю та безпекою.
Нарешті, зрозуміло, що, як і програмне забезпечення з відкритим кодом, у машинне навчання піде багато грошей, але більша частина цих грошей збиратиметься навколо того, що один автор назвав «багаті на процесори» компанії. Якщо паралелі з програмним забезпеченням з відкритим вихідним кодом відтворяться, ці компанії матимуть зовсім інші проблеми та пріоритети витрат, ніж середні творці (або користувачі) моделей.
Наша компанія, Tidelift, думала над цією проблемою стимулів у програмному забезпеченні з відкритим кодом протягом деякого часу, і такі організації, як найбільший у світі покупець програмного забезпечення – уряд США – також вивчає проблему.
Компанії, що займаються машинним навчанням, особливо ті, хто прагне створити спільноти творців, повинні добре подумати про це завдання. Якщо вони залежать від тисяч наборів даних, як вони гарантуватимуть, що ці десятиліття фінансуватимуться для обслуговування, відповідності законодавству та безпеки? Якщо великі компанії отримають десятки чи сотні моделей, розгорнутих навколо компанії, як вони гарантуватимуть, що ті, хто володіють найкращими спеціальними знаннями — ті, хто створив моделі — продовжуватимуть працювати над новими проблемами, коли вони будуть виявлені?
Як і безпека, на це завдання немає простих відповідей. Але чим швидше машинне навчання сприйме проблему серйозно — не як акт милосердя, а як ключовий компонент довгострокового зростання, — тим краще буде для всієї галузі та всього світу.
Глибоке коріння машинного навчання в академічній культурі експерименталізму та культурі швидкої ітерації Кремнієвої долини добре послужили йому, що призвело до дивовижного вибуху інновацій, які мали б здавалося чарівним менше десяти років тому. Курс програмного забезпечення з відкритим кодом за останнє десятиліття був, можливо, менш гламурним, але за цей час воно стало основою всього корпоративного програмного забезпечення — і попутно засвоїло багато уроків. Сподіваємось, машинне навчання не винаходитиме ці колеса.
Луїс Вілья є співзасновником і головним радником Tidelift. Раніше він був провідним юристом у сфері відкритого коду, консультуючи клієнтів, від компаній зі списку Fortune 50 до провідних стартапів, щодо розробки продуктів і ліцензування відкритого коду.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://www.kdnuggets.com/ai-and-open-source-software-separated-at-birth?utm_source=rss&utm_medium=rss&utm_campaign=ai-and-open-source-software-separated-at-birth
- : має
- :є
- : ні
- :де
- $UP
- 2019
- 50
- a
- МЕНЮ
- вище
- академічний
- випадковість
- Діяти
- фактичний
- насправді
- адреса
- усиновлювачів
- консультування
- після
- назад
- AI
- ВСІ
- дозволяти
- майже
- по
- вже
- Також
- дивовижний
- Amazon
- an
- та
- чоловіча
- гнів
- Інший
- Відповіді
- будь-який
- все
- здається
- з'являтися
- з'являється
- Apple
- прикладної
- ЕСТЬ
- ПЛОЩА
- області
- навколо
- стаття
- AS
- At
- нападки
- автор
- authors
- наявність
- доступний
- AWS
- назад
- заснований
- BE
- оскільки
- ставати
- стає
- було
- перед тим
- почалася
- буття
- КРАЩЕ
- Краще
- між
- За
- Банкноти
- народження
- блоки
- обидва
- приносити
- Приносить
- Створюємо
- побудований
- але
- by
- званий
- прийшов
- CAN
- Cards
- випадок
- випадків
- випадковий
- ланцюг
- ланцюга
- виклик
- проблеми
- зміна
- благодійність
- дешево
- Чіпси
- вибір
- цитується
- ясно
- клієнтів
- хмара
- Співзасновник
- код
- Приходити
- спільноти
- співтовариство
- Компанії
- компанія
- конкурують
- комплекс
- складність
- дотримання
- компонент
- Турбота
- зміст
- контрастність
- авторське право
- Core
- Коштувати
- може
- адвокат
- курс
- створювати
- створений
- творець
- Творці
- критичний
- культура
- В даний час
- Клієнти
- різання
- дані
- набір даних
- набори даних
- датування
- день
- Днів
- мертвий
- десятиліття
- десятиліття
- глибокий
- залежний
- розгорнути
- розгортання
- докладно
- розвиненою
- розробників
- розробка
- прилади
- DID
- різний
- утруднення
- відкритий
- дискримінація
- обговорювати
- розподіл
- Різне
- do
- документ
- робить
- Ні
- справи
- домени
- зроблений
- Не знаю
- безліч
- малювати
- водій
- під час
- кожен
- Рано
- простота
- легко
- економіка
- край
- editors
- охопила
- зіткнення
- кінець
- Нескінченний
- досить
- забезпечувати
- підприємство
- Весь
- повністю
- юридичні особи
- особливо
- Ефір (ETH)
- Навіть
- постійно зростаючий
- точно
- приклад
- Приклади
- Крім
- виняток
- Розширювати
- очікувати
- очікуваний
- дорогий
- Розвіданий
- вибух
- експоненціально
- надзвичайно
- особи
- знайомий
- ШВИДКО
- Улюблений
- кілька
- заповнювати
- Перший
- гнучкий
- Тече
- стежити
- для
- стан
- каркаси
- від
- накопичувальна
- майбутнє
- Загальне
- генеративний
- отримати
- отримання
- GitHub
- даний
- буде
- пішов
- Уряд
- надається
- Зростання
- Зростає
- було
- Жорсткий
- апаратні засоби
- Мати
- he
- допомога
- тут
- історія
- З надією
- хостинг
- ГАРЯЧА
- Як
- Однак
- HTTPS
- HuggingFace
- Людей
- Сотні
- обман
- i
- Я БУДУ
- ідентифікує
- IEEE
- if
- зображення
- надзвичайно
- Impact
- наслідки
- значення
- важливо
- поліпшення
- in
- стимули
- У тому числі
- неймовірний
- неймовірно
- промислові
- промисловість
- інновація
- витрати
- Intel
- призначених
- взаємодіє
- зацікавлений
- перетин
- в
- Invest
- інвестування
- IT
- ітерація
- ЙОГО
- просто
- KDnuggets
- збережений
- ключ
- Знати
- великий
- більше
- найбільших
- останній
- Минулого року
- Пізно
- пізніше
- закон
- юрист
- провідний
- УЧИТЬСЯ
- вчений
- вивчення
- найменш
- легальний
- менше
- урок
- Уроки
- відповідальність
- libraries
- бібліотека
- ліцензування
- життя
- як
- Ймовірно
- Linux
- Довго
- багато часу
- довгостроковий
- подивитися
- серія
- багато
- низький
- машина
- навчання за допомогою машини
- MacOS
- магія
- обслуговування
- основний
- зробити
- манера
- багато
- Матеріали
- зрілий
- Може..
- значити
- засоби
- означав
- виміряний
- вимір
- Зустрічатися
- метадані
- може бути
- MIT
- Пом'якшити
- модель
- Моделі
- сучасний
- момент
- гроші
- більше
- найбільш
- в основному
- мотиви
- багато
- безліч
- повинен
- my
- обов'язково
- Необхідність
- потреби
- Нові
- наступний
- немає
- Помітний
- нічого
- зараз
- номер
- Nvidia
- Очевидний
- of
- від
- пропонувати
- часто
- Старий
- on
- один раз
- ONE
- тільки
- відкрити
- з відкритим вихідним кодом
- OpenAI
- операційний
- операційні системи
- or
- організація
- наші
- з
- Результати
- виходи
- над
- алюр
- Папір
- Паралельні
- Паралелі
- особливо
- Минуле
- шлях
- може бути
- частин
- місце
- план
- платформа
- plato
- Інформація про дані Платона
- PlatoData
- Play
- зануритися
- точка
- басейн
- поп
- це можливо
- потужний
- практика
- раніше
- первинний
- ймовірно
- Проблема
- проблеми
- Product
- розробка продукту
- прогрес
- проект
- проектів
- власником
- доведений
- походження
- громадськість
- покупець
- піторх
- радикальний
- швидко
- швидше
- читання
- готовий
- Реальний світ
- зрозумів,
- останній
- регулюється
- Регулювання
- винаходити
- Відносини
- Звіти
- вимагати
- Вимога
- дослідження
- Дослідження показують,
- право
- коренеплоди
- біг
- s
- SaaS
- то ж
- SBOM
- сфера
- сектор
- безпеку
- пошук
- Здається,
- серйозно
- комплект
- набори
- Повинен
- Кремній
- схожість
- Аналогічно
- просто
- з
- сайт
- невеликий
- So
- Софтвер
- Розробники ПЗ
- проданий
- деякі
- іноді
- кілька
- складний
- Source
- Джерела
- пробіли
- розмова
- спеціаліст
- специфікації
- дані
- Витрати
- поширення
- стек
- Стеки
- почалася
- Починаючи
- Стартапи
- Як і раніше
- зупинка
- потік
- вулиця
- сильно
- структурований
- тема
- Запропонує
- поставка
- ланцюжка поставок
- Ланцюги постачання
- підтримка
- сюрприз
- виживати
- схильний
- Systems
- Приймати
- приймає
- говорити
- методи
- Технологія
- тензорний потік
- термін
- ніж
- Що
- Команда
- Майбутнє
- їх
- Їх
- потім
- Там.
- отже
- Ці
- вони
- речі
- думати
- Мислення
- Думає
- це
- ті
- хоча?
- тисячі
- через
- час
- до
- інструмент
- топ
- трек
- Відстеження
- традиційний
- трафік
- Навчання
- лікування
- по-справжньому
- намагатися
- намагається
- Tweaks
- два
- Типи
- незрозуміло
- що лежить в основі
- розуміти
- на жаль
- UNIX
- us
- Використання
- використання
- використання випадку
- використовуваний
- користувач
- використання
- різноманітність
- постачальники
- версія
- дуже
- волонтер
- Голосувати
- було
- хвилі
- шлях..
- способи
- we
- ДОБРЕ
- Що
- Що таке
- який
- ВООЗ
- широко
- Wild
- волі
- windows
- з
- без
- Work
- робочий
- світ
- світі
- б
- лист
- рік
- років
- ви
- зефірнет