Изображение от редактора
С конца прошлого года я читаю, пишу и выступаю на тему пересечения программного обеспечения с открытым исходным кодом и машинного обучения, пытаясь понять, что может принести будущее.
Когда я начинал, я ожидал, что буду говорить в основном о том, как программное обеспечение с открытым исходным кодом используется сообществом машинного обучения. Но чем больше я исследовал, тем больше понимал, что между этими двумя областями практики есть много общего. В этой статье я расскажу о некоторых из этих параллелей, а также о том, чему машинное обучение может и не может научиться у программного обеспечения с открытым исходным кодом.
Простая и очевидная параллель заключается в том, что и современное машинное обучение, и современное программное обеспечение почти полностью построены на программном обеспечении с открытым исходным кодом. Что касается программного обеспечения, то это компиляторы и редакторы кода; для машинного обучения — это платформы обучения и вывода, такие как PyTorch и TensorFlow. В этих сферах доминирует программное обеспечение с открытым исходным кодом, и, похоже, ничто не способно это изменить.
Из этого правила есть одно заметное и очевидное исключение: все эти платформы зависят от очень проприетарного аппаратного и программного стека Nvidia. На самом деле это более параллельно, чем может показаться на первый взгляд. Долгое время программное обеспечение с открытым исходным кодом работало в основном на проприетарных операционных системах Unix, продаваемых поставщиками проприетарного оборудования. И только после появления Linux мы начали считать само собой разумеющимся, что открытое «дно» стека вообще возможно, и в наши дни ведется большая открытая разработка для MacOS и Windows. Неясно, как это отразится на машинном обучении. Amazon (для AWS), Google (как для облака, так и для Android) и Apple инвестируют в конкурирующие чипы и стеки, и вполне возможно, что один или несколько из них могут пойти по пути, указанному Линуса (и Интел) об освобождении весь стек.
Более важной параллелью между тем, как создается программное обеспечение с открытым исходным кодом, и тем, как строится машинное обучение, является сложность и общедоступность данных, на которых построено каждое из них.
Как подробно описано в этом препринт бумаги «Проект происхождения данных», Соавтором которого я являюсь, современное машинное обучение построено буквально на тысячах источников данных, точно так же, как современное программное обеспечение с открытым исходным кодом построено на сотнях тысяч библиотек. И точно так же, как каждая открытая библиотека сопряжена с проблемами юридического характера, безопасности и обслуживания, каждый общедоступный набор данных несет с собой точно такой же набор трудностей.
В моей организации мы говорили о версии этой проблемы с открытым исходным кодом как о «случайная цепочка поставок». Индустрия программного обеспечения начала создавать что-то, потому что невероятные строительные блоки библиотек с открытым исходным кодом означали, что мы можем это сделать. Это означало, что отрасль начала относиться к программному обеспечению с открытым исходным кодом как к цепочке поставок, что стало неожиданностью для многих из этих «поставщиков».
Чтобы смягчить эти проблемы, программное обеспечение с открытым исходным кодом разработало множество сложных (хотя и несовершенных) методов, таких как сканеры для определения того, что используется, и метаданные для отслеживания вещей после развертывания. Мы также начинаем инвестировать в людей, чтобы попытаться устранить несоответствие между потребностями промышленности и мотивацией волонтеров.
К сожалению, сообщество машинного обучения, похоже, готово совершить ту же самую «случайную» ошибку в цепочке поставок — делать множество вещей, потому что может, не задумываясь о долгосрочных последствиях, когда вся экономика будет основана на этих наборах данных. .
Последняя важная параллель заключается в том, что я сильно подозреваю, что машинное обучение будет расширяться и заполнять множество ниш, как это произошло с программным обеспечением с открытым исходным кодом. На данный момент (заслуженный) ажиотаж вокруг больших генеративных моделей, но существует также много маленьких моделей, а также доработки более крупных моделей. Действительно, хостинг-сайт HuggingFace, основная хостинговая платформа машинного обучения, сообщает, что количество моделей на их сайте растет в геометрической прогрессии.
Этих моделей, вероятно, будет много, и они будут доступны для улучшения, подобно небольшим фрагментам программного обеспечения с открытым исходным кодом. Это сделает их невероятно гибкими и мощными. Я использую небольшой инструмент на основе машинного обучения для дешевого и конфиденциального измерения трафика на моей улице, например, вариант использования, который несколько лет назад был бы невозможен, кроме как на дорогих устройствах.
Но такое распространение означает, что их нужно будет отслеживать: модели могут стать не столько похожими на мэйнфреймы, сколько больше похожими на программное обеспечение с открытым исходным кодом или SaaS, которые появляются повсюду из-за низкой стоимости и простоты развертывания.
Итак, если существуют эти важные параллели (особенно сложные цепочки поставок и быстрорастущая дистрибуция), чему машинное обучение может научиться у программного обеспечения с открытым исходным кодом?
Первый параллельный урок, который мы можем извлечь, заключается в том, что для понимания многочисленных проблем машинного обучения потребуются метаданные и инструменты. Программное обеспечение с открытым исходным кодом наткнулось на работу с метаданными из-за соблюдения авторских прав и лицензирования, но по мере того, как случайная цепочка поставок программного обеспечения развивалась, метаданные оказались чрезвычайно полезными на самых разных фронтах.
В области машинного обучения отслеживание метаданных находится в стадии разработки. Несколько примеров:
- A ключевой документ 2019 года, широко цитируемый в отрасли, призвал разработчиков моделей документировать свою работу с помощью «карточек моделей». К сожалению, недавние исследования показывают, что их реализация в дикой природе все еще слаба.
- Спецификации программного обеспечения SPDX и CycloneDX работают над спецификациями материалов AI (AI BOM), чтобы помочь отслеживать данные и модели машинного обучения более структурированным образом, чем карты моделей (что соответствует сложности, которую можно было бы ожидать, если бы это действительно занимается параллельным программным обеспечением с открытым исходным кодом).
- HuggingFace создало различные характеристики и инструменты чтобы позволить авторам моделей и наборов данных документировать свои источники.
- Упомянутая выше статья MIT Data Provenance пытается понять «основную истину» лицензирования данных, чтобы помочь конкретизировать спецификации с помощью реальных данных.
- Как ни странно, многие компании, занимающиеся обучением машинному обучению, имеют довольно небрежное отношение к отслеживанию данных, используя принцип «чем больше, тем лучше» в качестве предлога для того, чтобы загружать данные в бункер, не обязательно отслеживая их должным образом.
Если мы чему-то и научились из open, так это тому, что получение правильных метаданных (сначала спецификаций, затем фактических данных) будет многолетним проектом и может потребовать государственное вмешательство. машинное обучение должно как можно скорее заняться метаданными.
Безопасность была еще одним важным фактором спроса на метаданные программного обеспечения с открытым исходным кодом: если вы не знаете, что используете, вы не можете знать, восприимчивы ли вы к, казалось бы, бесконечному потоку атак.
Машинное обучение не подвержено большинству типов традиционных программных атак, но это не значит, что оно неуязвимо. (Мой любимый пример — то, что можно было тренировочные наборы ядовитых изображений потому что они часто опирались на мертвые области.) Исследования в этой области настолько горячи, что мы уже прошли мимо «проверки концепции» и пришли к выводу, что «существует достаточно атак, чтобы список и систематизировать".
К сожалению, программное обеспечение с открытым исходным кодом не может предложить машинному обучению каких-либо волшебных средств для обеспечения безопасности — если бы они у нас были, мы бы их использовали. Но история распространения программного обеспечения с открытым исходным кодом во многих нишах показывает, что машинное обучение должно серьезно отнестись к этой проблеме, начиная с отслеживания использования и метаданных развертывания, именно потому, что оно, вероятно, будет применяться во многих сферах, выходящих за рамки тех, в которых оно применяется в настоящее время. развернут.
Мотивы, которые стимулировали метаданные с открытым исходным кодом (лицензирование, затем безопасность), указывают на следующую важную параллель: по мере роста важности сектора будет расширяться объем вещей, которые необходимо измерять и отслеживать, потому что регулирование и ответственность будут расширяться.
В области программного обеспечения с открытым исходным кодом основным государственным «регулированием» в течение многих лет был закон об авторском праве, и поэтому были разработаны метаданные, подтверждающие это. Но программное обеспечение с открытым исходным кодом теперь сталкивается с множеством правил безопасности и ответственности за качество продукции, и мы должны усовершенствовать наши цепочки поставок, чтобы они соответствовали этим новым требованиям.
Аналогичным образом, ИИ будет регулироваться все более разнообразными способами по мере того, как он будет становиться все более важным. Источники регулирования будут чрезвычайно разнообразными, в том числе в отношении содержания (как ресурсов, так и результатов), дискриминации и ответственности за качество продукции. Для этого потребуется то, что иногда называют «прослеживаемость— понимание того, как строятся модели и как этот выбор (включая источники данных) влияет на результаты моделей.
Это основное требование: что у нас есть? как оно сюда попало? – теперь хорошо знакомо разработчикам корпоративного программного обеспечения с открытым исходным кодом. Однако для разработчиков машинного обучения это может стать радикальным изменением, и его необходимо принять.
Еще один параллельный урок, который машинное обучение может извлечь из программного обеспечения с открытым исходным кодом (и, действительно, из многих волн программного обеспечения до него, начиная, по крайней мере, с мэйнфреймов), заключается в том, что срок его полезного использования будет очень и очень долгим. Как только технология станет «достаточно хорошей», она будет внедрена и, следовательно, должна поддерживаться в течение очень и очень долгого времени. Это означает, что мы должны как можно раньше подумать об обслуживании этого программного обеспечения и подумать о том, что будет означать, что это программное обеспечение может существовать десятилетиями. «Десятилетия» — не преувеличение; многие клиенты, с которыми я сталкиваюсь, используют программное обеспечение, достаточно старое для голосования. Многие компании-разработчики программного обеспечения с открытым исходным кодом и некоторые проекты теперь имеют версии так называемой «долгосрочной поддержки», предназначенные для подобных случаев использования.
Напротив, OpenAI сохраняла свой инструмент Кодекса доступным менее двух лет.что приводит к большому гневу, особенно в академическом сообществе. Учитывая быстрые темпы изменений в машинном обучении и то, что большинство пользователей, вероятно, заинтересованы в использовании самых передовых технологий, это, вероятно, не было необоснованным, но наступит день, раньше, чем думает отрасль, когда нужно будет это планировать. своего рода «долгосрочной перспективе», включая то, как она взаимодействует с ответственностью и безопасностью.
Наконец, ясно, что, как и в случае с программным обеспечением с открытым исходным кодом, в машинное обучение будет поступать много денег, но большая часть этих денег будет сосредоточена вокруг того, что один автор назвал компании, богатые процессорами. Если параллели с программным обеспечением с открытым исходным кодом пройдут, у этих компаний будут совсем другие проблемы и приоритеты расходов, чем у среднего создателя (или пользователя) моделей.
Наша компания Tidelift уже некоторое время размышляет над проблемой стимулирования программного обеспечения с открытым исходным кодом, и такие организации, как крупнейший в мире покупатель программного обеспечения — правительство США — тоже изучаю проблему.
Компании, занимающиеся машинным обучением, особенно те, которые стремятся создать сообщества авторов, должны хорошенько подумать над этой проблемой. Если они зависят от тысяч наборов данных, как они смогут обеспечить финансирование их обслуживания, соблюдения законодательства и безопасности на протяжении десятилетий? Если крупные компании в конечном итоге будут использовать десятки или сотни моделей, развернутых вокруг компании, как они смогут гарантировать, что те, кто обладает лучшими специальными знаниями — те, кто создал модели — все еще рядом, чтобы работать над новыми проблемами по мере их обнаружения?
Как и в случае с безопасностью, на эту проблему не существует простых ответов. Но чем раньше машинное обучение воспримет эту проблему серьезно – не как акт благотворительности, а как ключевой компонент долгосрочного роста – тем лучше будет для всей отрасли и всего мира.
Глубокие корни машинного обучения в академической культуре экспериментирования и культуре быстрых итераций Кремниевой долины сослужили ему хорошую службу, приведя к удивительному взрыву инноваций, который казалось волшебным менее десяти лет назад. Курс ПО с открытым исходным кодом в последнее десятилетие, возможно, был менее гламурным, но за это время оно стало основой всего корпоративного программного обеспечения — и на этом пути было извлечено много уроков. Будем надеяться, что машинное обучение не изобретет эти колеса заново.
Луис Вилла является соучредителем и главным юрисконсультом компании Tidelift. Ранее он был ведущим юристом по вопросам открытого исходного кода, консультируя клиентов, от компаний из списка Fortune 50 до ведущих стартапов, по вопросам разработки продуктов и лицензирования открытого исходного кода.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://www.kdnuggets.com/ai-and-open-source-software-separated-at-birth?utm_source=rss&utm_medium=rss&utm_campaign=ai-and-open-source-software-separated-at-birth
- :имеет
- :является
- :нет
- :куда
- $UP
- 2019
- 50
- a
- О нас
- выше
- академический
- случайный
- Действие (Act):
- фактического соединения
- на самом деле
- адрес
- усыновителей
- консультирование
- После
- тому назад
- AI
- Все
- позволять
- почти
- вдоль
- уже
- причислены
- удивительный
- Amazon
- an
- и
- android
- гнев
- Другой
- ответы
- любой
- все
- очевидный
- появиться
- появляется
- Apple
- прикладной
- МЫ
- ПЛОЩАДЬ
- области
- около
- гайд
- AS
- At
- нападки
- автор
- Авторы
- свободных мест
- доступен
- AWS
- назад
- основанный
- BE
- , так как:
- становиться
- становится
- было
- до
- начал
- не являетесь
- ЛУЧШЕЕ
- Лучшая
- между
- Beyond
- Банкноты
- рождение
- Блоки
- изоферменты печени
- приносить
- Приносит
- Строительство
- построенный
- но
- by
- под названием
- пришел
- CAN
- Карты
- случаев
- случаев
- казуальная
- цепь
- цепи
- вызов
- проблемы
- изменение
- Благотворительность
- дешево
- чипсы
- выбор
- привел
- Очистить
- клиентов
- облако
- Соучредитель
- код
- как
- Сообщества
- сообщество
- Компании
- Компания
- конкурирующий
- комплекс
- сложность
- Соответствие закону
- компонент
- Обеспокоенность
- содержание
- контраст
- авторское право
- Основные
- Цена
- может
- адвокат
- курс
- Создайте
- создали
- создатель
- Создатели
- критической
- Культура
- В настоящее время
- Клиенты
- резки
- данным
- набор данных
- наборы данных
- Знакомства
- день
- Дней
- мертвый
- десятилетие
- десятилетия
- глубоко
- зависимый
- развернуть
- развертывание
- подробный
- развитый
- застройщиков
- Развитие
- Устройства
- DID
- различный
- затруднения
- открытый
- дискриминация
- обсуждать
- распределение
- Разное
- do
- документ
- приносит
- не
- дело
- доменов
- сделанный
- Dont
- множество
- рисовать
- водитель
- в течение
- каждый
- Рано
- простота
- легко
- экономику
- Edge
- редакторы
- обнялись
- столкновение
- конец
- Бесконечный
- достаточно
- обеспечивать
- Предприятие
- Весь
- полностью
- лиц
- особенно
- Эфир (ETH)
- Даже
- постоянно растущий
- точно,
- пример
- Примеры
- Кроме
- исключение
- Расширьте
- ожидать
- ожидаемый
- дорогим
- Разведанный
- взрыв
- экспоненциально
- чрезвычайно
- лица
- знакомый
- БЫСТРО
- Избранное
- несколько
- заполнять
- Во-первых,
- гибкого
- текущий
- следовать
- Что касается
- Fortune
- каркасы
- от
- фундированный
- будущее
- Общие
- генеративный
- получить
- получающий
- GitHub
- данный
- будет
- ушел
- Правительство
- предоставленный
- Рост
- Растет
- было
- Жесткий
- Аппаратные средства
- Есть
- he
- помощь
- здесь
- история
- С надеждой
- хостинг
- ГОРЯЧИЙ
- Как
- Однако
- HTTPS
- ОбниматьЛицо
- Людей
- Сотни
- Обман
- i
- БОЛЬНОЙ
- идентифицирующий
- IEEE
- if
- изображение
- очень
- Влияние
- последствия
- значение
- важную
- улучшение
- in
- Стимулы
- В том числе
- невероятный
- невероятно
- промышленность
- промышленность
- Инновации
- затраты
- Intel
- предназначенных
- взаимодействует
- заинтересованный
- пересечение
- в
- Грин- карта инвестору
- инвестирование
- IT
- итерация
- ЕГО
- всего
- КДнаггетс
- хранится
- Основные
- Знать
- большой
- больше
- крупнейших
- Фамилия
- В прошлом году
- Поздно
- новее
- закон
- адвокат
- ведущий
- УЧИТЬСЯ
- узнали
- изучение
- наименее
- Юр. Информация
- Меньше
- урок
- Уроки
- ответственность
- библиотеки
- Библиотека
- Лицензирование
- ЖИЗНЬЮ
- такое как
- Вероятно
- Linux
- Длинное
- много времени
- долгосрочный
- посмотреть
- серия
- много
- Низкий
- машина
- обучение с помощью машины
- MacOS
- магия
- техническое обслуживание
- основной
- сделать
- способ
- многих
- материалы
- зрелый
- Май..
- значить
- означает
- означает,
- измеренный
- измерение
- Встречайте
- Метаданные
- может быть
- MIT
- смягчать
- модель
- Модели
- Модерн
- момент
- деньги
- БОЛЕЕ
- самых
- в основном
- мотивации
- много
- множество
- должен
- my
- обязательно
- Необходимость
- потребности
- Новые
- следующий
- нет
- примечательный
- ничего
- сейчас
- номер
- Nvidia
- Очевидный
- of
- от
- предлагают
- .
- Старый
- on
- консолидировать
- ONE
- только
- открытый
- с открытым исходным кодом
- OpenAI
- операционный
- операционные системы
- or
- организация
- наши
- внешний
- Результаты
- выходы
- за
- Темп
- бумага & картон
- Параллельные
- Parallels
- особенно
- мимо
- путь
- возможно
- штук
- Часть
- план
- Платформа
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Играть
- окунуться
- Точка
- бассейн
- поп
- возможное
- мощный
- практика
- предварительно
- первичный
- вероятно
- Проблема
- проблемам
- Продукт
- разработка продукта
- Прогресс
- Проект
- проектов
- ( изучите наши патенты),
- доказанный
- происхождение
- что такое варган?
- приобретатель
- pytorch
- радикальный
- быстро
- скорее
- Reading
- готовый
- реальный мир
- реализованный
- последний
- регулируемых брокеров
- "Регулирование"
- изобрести
- Отношения
- Отчеты
- требовать
- Требования
- исследованиям
- Исследования показывают,
- правую
- корнеплоды
- Бег
- s
- SaaS
- то же
- СБОМ
- сфера
- сектор
- безопасность
- поиск
- кажется
- серьезно
- набор
- Наборы
- должен
- кремний
- сходство
- Аналогичным образом
- просто
- с
- сайте
- небольшой
- So
- Software
- Разработчики программного обеспечения
- проданный
- некоторые
- иногда
- в некотором роде
- сложный
- Источник
- Источники
- пространства
- Говоря
- специалист
- спецификации
- функции
- Расходы
- распространение
- стек
- Стеки
- и политические лидеры
- Начало
- Стартапы
- По-прежнему
- остановка
- поток
- улица
- сильно
- структурированный
- предмет
- Предлагает
- поставка
- цепочками поставок
- Каналы поставок
- поддержка
- сюрприз
- выживать
- восприимчивый
- системы
- взять
- принимает
- говорить
- снижения вреда
- Технологии
- tensorflow
- срок
- чем
- который
- Ассоциация
- Будущее
- их
- Их
- тогда
- Там.
- следовательно
- Эти
- они
- вещи
- think
- мышление
- Думает
- этой
- те
- хоть?
- тысячи
- Через
- время
- в
- инструментом
- топ
- трек
- Отслеживание
- традиционный
- трафик
- Обучение
- лечения
- по-настоящему
- стараться
- пытается
- твики
- два
- Типы
- не понятно
- подоплека
- понимать
- К сожалению
- Юникс
- us
- Применение
- использование
- прецедент
- используемый
- Информация о пользователе
- через
- разнообразие
- поставщики
- версия
- очень
- волонтер
- Голос
- законопроект
- волны
- Путь..
- способы
- we
- ЧТО Ж
- Что
- Что такое
- который
- КТО
- широко
- Дикий
- будете
- окна
- без
- Работа
- работает
- Мир
- мире
- бы
- письмо
- год
- лет
- являетесь
- зефирнет