ИИ и программное обеспечение с открытым исходным кодом: разделены при рождении? - KDnuggets

Переиздано Платоном

Читают: 0

ИИ и программное обеспечение с открытым исходным кодом: разделены при рождении?
Изображение от редактора

С конца прошлого года я читаю, пишу и выступаю на тему пересечения программного обеспечения с открытым исходным кодом и машинного обучения, пытаясь понять, что может принести будущее.

Когда я начинал, я ожидал, что буду говорить в основном о том, как программное обеспечение с открытым исходным кодом используется сообществом машинного обучения. Но чем больше я исследовал, тем больше понимал, что между этими двумя областями практики есть много общего. В этой статье я расскажу о некоторых из этих параллелей, а также о том, чему машинное обучение может и не может научиться у программного обеспечения с открытым исходным кодом.

Простая и очевидная параллель заключается в том, что и современное машинное обучение, и современное программное обеспечение почти полностью построены на программном обеспечении с открытым исходным кодом. Что касается программного обеспечения, то это компиляторы и редакторы кода; для машинного обучения — это платформы обучения и вывода, такие как PyTorch и TensorFlow. В этих сферах доминирует программное обеспечение с открытым исходным кодом, и, похоже, ничто не способно это изменить.

Из этого правила есть одно заметное и очевидное исключение: все эти платформы зависят от очень проприетарного аппаратного и программного стека Nvidia. На самом деле это более параллельно, чем может показаться на первый взгляд. Долгое время программное обеспечение с открытым исходным кодом работало в основном на проприетарных операционных системах Unix, продаваемых поставщиками проприетарного оборудования. И только после появления Linux мы начали считать само собой разумеющимся, что открытое «дно» стека вообще возможно, и в наши дни ведется большая открытая разработка для MacOS и Windows. Неясно, как это отразится на машинном обучении. Amazon (для AWS), Google (как для облака, так и для Android) и Apple инвестируют в конкурирующие чипы и стеки, и вполне возможно, что один или несколько из них могут пойти по пути, указанному Линуса (и Интел) об освобождении весь стек.

Более важной параллелью между тем, как создается программное обеспечение с открытым исходным кодом, и тем, как строится машинное обучение, является сложность и общедоступность данных, на которых построено каждое из них.

Как подробно описано в этом препринт бумаги «Проект происхождения данных», Соавтором которого я являюсь, современное машинное обучение построено буквально на тысячах источников данных, точно так же, как современное программное обеспечение с открытым исходным кодом построено на сотнях тысяч библиотек. И точно так же, как каждая открытая библиотека сопряжена с проблемами юридического характера, безопасности и обслуживания, каждый общедоступный набор данных несет с собой точно такой же набор трудностей.

В моей организации мы говорили о версии этой проблемы с открытым исходным кодом как о «случайная цепочка поставок». Индустрия программного обеспечения начала создавать что-то, потому что невероятные строительные блоки библиотек с открытым исходным кодом означали, что мы можем это сделать. Это означало, что отрасль начала относиться к программному обеспечению с открытым исходным кодом как к цепочке поставок, что стало неожиданностью для многих из этих «поставщиков».

Чтобы смягчить эти проблемы, программное обеспечение с открытым исходным кодом разработало множество сложных (хотя и несовершенных) методов, таких как сканеры для определения того, что используется, и метаданные для отслеживания вещей после развертывания. Мы также начинаем инвестировать в людей, чтобы попытаться устранить несоответствие между потребностями промышленности и мотивацией волонтеров.

К сожалению, сообщество машинного обучения, похоже, готово совершить ту же самую «случайную» ошибку в цепочке поставок — делать множество вещей, потому что может, не задумываясь о долгосрочных последствиях, когда вся экономика будет основана на этих наборах данных. .

Последняя важная параллель заключается в том, что я сильно подозреваю, что машинное обучение будет расширяться и заполнять множество ниш, как это произошло с программным обеспечением с открытым исходным кодом. На данный момент (заслуженный) ажиотаж вокруг больших генеративных моделей, но существует также много маленьких моделей, а также доработки более крупных моделей. Действительно, хостинг-сайт HuggingFace, основная хостинговая платформа машинного обучения, сообщает, что количество моделей на их сайте растет в геометрической прогрессии.

Этих моделей, вероятно, будет много, и они будут доступны для улучшения, подобно небольшим фрагментам программного обеспечения с открытым исходным кодом. Это сделает их невероятно гибкими и мощными. Я использую небольшой инструмент на основе машинного обучения для дешевого и конфиденциального измерения трафика на моей улице, например, вариант использования, который несколько лет назад был бы невозможен, кроме как на дорогих устройствах.

Но такое распространение означает, что их нужно будет отслеживать: модели могут стать не столько похожими на мэйнфреймы, сколько больше похожими на программное обеспечение с открытым исходным кодом или SaaS, которые появляются повсюду из-за низкой стоимости и простоты развертывания.

Итак, если существуют эти важные параллели (особенно сложные цепочки поставок и быстрорастущая дистрибуция), чему машинное обучение может научиться у программного обеспечения с открытым исходным кодом?

Первый параллельный урок, который мы можем извлечь, заключается в том, что для понимания многочисленных проблем машинного обучения потребуются метаданные и инструменты. Программное обеспечение с открытым исходным кодом наткнулось на работу с метаданными из-за соблюдения авторских прав и лицензирования, но по мере того, как случайная цепочка поставок программного обеспечения развивалась, метаданные оказались чрезвычайно полезными на самых разных фронтах.

В области машинного обучения отслеживание метаданных находится в стадии разработки. Несколько примеров:

A ключевой документ 2019 года, широко цитируемый в отрасли, призвал разработчиков моделей документировать свою работу с помощью «карточек моделей». К сожалению, недавние исследования показывают, что их реализация в дикой природе все еще слаба.
Спецификации программного обеспечения SPDX и CycloneDX работают над спецификациями материалов AI (AI BOM), чтобы помочь отслеживать данные и модели машинного обучения более структурированным образом, чем карты моделей (что соответствует сложности, которую можно было бы ожидать, если бы это действительно занимается параллельным программным обеспечением с открытым исходным кодом).
HuggingFace создало различные характеристики и инструменты чтобы позволить авторам моделей и наборов данных документировать свои источники.
Упомянутая выше статья MIT Data Provenance пытается понять «основную истину» лицензирования данных, чтобы помочь конкретизировать спецификации с помощью реальных данных.
Как ни странно, многие компании, занимающиеся обучением машинному обучению, имеют довольно небрежное отношение к отслеживанию данных, используя принцип «чем больше, тем лучше» в качестве предлога для того, чтобы загружать данные в бункер, не обязательно отслеживая их должным образом.

Если мы чему-то и научились из open, так это тому, что получение правильных метаданных (сначала спецификаций, затем фактических данных) будет многолетним проектом и может потребовать государственное вмешательство. машинное обучение должно как можно скорее заняться метаданными.

Безопасность была еще одним важным фактором спроса на метаданные программного обеспечения с открытым исходным кодом: если вы не знаете, что используете, вы не можете знать, восприимчивы ли вы к, казалось бы, бесконечному потоку атак.

Машинное обучение не подвержено большинству типов традиционных программных атак, но это не значит, что оно неуязвимо. (Мой любимый пример — то, что можно было тренировочные наборы ядовитых изображений потому что они часто опирались на мертвые области.) Исследования в этой области настолько горячи, что мы уже прошли мимо «проверки концепции» и пришли к выводу, что «существует достаточно атак, чтобы список и систематизировать".

К сожалению, программное обеспечение с открытым исходным кодом не может предложить машинному обучению каких-либо волшебных средств для обеспечения безопасности — если бы они у нас были, мы бы их использовали. Но история распространения программного обеспечения с открытым исходным кодом во многих нишах показывает, что машинное обучение должно серьезно отнестись к этой проблеме, начиная с отслеживания использования и метаданных развертывания, именно потому, что оно, вероятно, будет применяться во многих сферах, выходящих за рамки тех, в которых оно применяется в настоящее время. развернут.

Мотивы, которые стимулировали метаданные с открытым исходным кодом (лицензирование, затем безопасность), указывают на следующую важную параллель: по мере роста важности сектора будет расширяться объем вещей, которые необходимо измерять и отслеживать, потому что регулирование и ответственность будут расширяться.

В области программного обеспечения с открытым исходным кодом основным государственным «регулированием» в течение многих лет был закон об авторском праве, и поэтому были разработаны метаданные, подтверждающие это. Но программное обеспечение с открытым исходным кодом теперь сталкивается с множеством правил безопасности и ответственности за качество продукции, и мы должны усовершенствовать наши цепочки поставок, чтобы они соответствовали этим новым требованиям.

Аналогичным образом, ИИ будет регулироваться все более разнообразными способами по мере того, как он будет становиться все более важным. Источники регулирования будут чрезвычайно разнообразными, в том числе в отношении содержания (как ресурсов, так и результатов), дискриминации и ответственности за качество продукции. Для этого потребуется то, что иногда называют «прослеживаемость— понимание того, как строятся модели и как этот выбор (включая источники данных) влияет на результаты моделей.

Это основное требование: что у нас есть? как оно сюда попало? – теперь хорошо знакомо разработчикам корпоративного программного обеспечения с открытым исходным кодом. Однако для разработчиков машинного обучения это может стать радикальным изменением, и его необходимо принять.

Еще один параллельный урок, который машинное обучение может извлечь из программного обеспечения с открытым исходным кодом (и, действительно, из многих волн программного обеспечения до него, начиная, по крайней мере, с мэйнфреймов), заключается в том, что срок его полезного использования будет очень и очень долгим. Как только технология станет «достаточно хорошей», она будет внедрена и, следовательно, должна поддерживаться в течение очень и очень долгого времени. Это означает, что мы должны как можно раньше подумать об обслуживании этого программного обеспечения и подумать о том, что будет означать, что это программное обеспечение может существовать десятилетиями. «Десятилетия» — не преувеличение; многие клиенты, с которыми я сталкиваюсь, используют программное обеспечение, достаточно старое для голосования. Многие компании-разработчики программного обеспечения с открытым исходным кодом и некоторые проекты теперь имеют версии так называемой «долгосрочной поддержки», предназначенные для подобных случаев использования.

Напротив, OpenAI сохраняла свой инструмент Кодекса доступным менее двух лет.что приводит к большому гневу, особенно в академическом сообществе. Учитывая быстрые темпы изменений в машинном обучении и то, что большинство пользователей, вероятно, заинтересованы в использовании самых передовых технологий, это, вероятно, не было необоснованным, но наступит день, раньше, чем думает отрасль, когда нужно будет это планировать. своего рода «долгосрочной перспективе», включая то, как она взаимодействует с ответственностью и безопасностью.

Наконец, ясно, что, как и в случае с программным обеспечением с открытым исходным кодом, в машинное обучение будет поступать много денег, но большая часть этих денег будет сосредоточена вокруг того, что один автор назвал компании, богатые процессорами. Если параллели с программным обеспечением с открытым исходным кодом пройдут, у этих компаний будут совсем другие проблемы и приоритеты расходов, чем у среднего создателя (или пользователя) моделей.

Наша компания Tidelift уже некоторое время размышляет над проблемой стимулирования программного обеспечения с открытым исходным кодом, и такие организации, как крупнейший в мире покупатель программного обеспечения — правительство США — тоже изучаю проблему.

Компании, занимающиеся машинным обучением, особенно те, которые стремятся создать сообщества авторов, должны хорошенько подумать над этой проблемой. Если они зависят от тысяч наборов данных, как они смогут обеспечить финансирование их обслуживания, соблюдения законодательства и безопасности на протяжении десятилетий? Если крупные компании в конечном итоге будут использовать десятки или сотни моделей, развернутых вокруг компании, как они смогут гарантировать, что те, кто обладает лучшими специальными знаниями — те, кто создал модели — все еще рядом, чтобы работать над новыми проблемами по мере их обнаружения?

Как и в случае с безопасностью, на эту проблему не существует простых ответов. Но чем раньше машинное обучение воспримет эту проблему серьезно – не как акт благотворительности, а как ключевой компонент долгосрочного роста – тем лучше будет для всей отрасли и всего мира.

Глубокие корни машинного обучения в академической культуре экспериментирования и культуре быстрых итераций Кремниевой долины сослужили ему хорошую службу, приведя к удивительному взрыву инноваций, который казалось волшебным менее десяти лет назад. Курс ПО с открытым исходным кодом в последнее десятилетие, возможно, был менее гламурным, но за это время оно стало основой всего корпоративного программного обеспечения — и на этом пути было извлечено много уроков. Будем надеяться, что машинное обучение не изобретет эти колеса заново.

Луис Вилла является соучредителем и главным юрисконсультом компании Tidelift. Ранее он был ведущим юристом по вопросам открытого исходного кода, консультируя клиентов, от компаний из списка Fortune 50 до ведущих стартапов, по вопросам разработки продуктов и лицензирования открытого исходного кода.