AI와 오픈 소스 소프트웨어: 태어날 때부터 분리되었나요? - KDnuggets

플라톤에 의해 재발행

팔로워 : 0

AI와 오픈소스 소프트웨어: 태어날 때부터 헤어졌나요?
편집자별 이미지

저는 작년 말부터 오픈 소스 소프트웨어와 기계 학습의 교차점에 대해 읽고, 쓰고, 연설하며 미래가 가져올 일을 이해하려고 노력해 왔습니다.

제가 시작했을 때 저는 주로 머신러닝 커뮤니티에서 오픈소스 소프트웨어가 어떻게 사용되는지에 대해 이야기할 것이라고 예상했습니다. 하지만 더 많이 탐구할수록 두 실무 영역 사이에 많은 유사점이 있다는 것을 더 많이 깨달았습니다. 이 기사에서는 이러한 유사점 중 일부와 오픈 소스 소프트웨어에서 머신러닝이 배울 수 있는 것과 없는 것에 대해 논의하겠습니다.

쉽고 분명한 유사점은 최신 기계 학습과 최신 소프트웨어가 모두 거의 전적으로 오픈 소스 소프트웨어로 구축된다는 것입니다. 소프트웨어의 경우 컴파일러와 코드 편집기입니다. 머신러닝의 경우 PyTorch 및 TensorFlow와 같은 교육 및 추론 프레임워크입니다. 이러한 공간은 오픈 소스 소프트웨어가 지배하고 있으며 이를 바꿀 준비가 되어 있는 것은 아무것도 없습니다.

이에 대한 한 가지 주목할 만한 명백한 예외가 있습니다. 이러한 프레임워크는 모두 매우 독점적인 Nvidia 하드웨어 및 소프트웨어 스택에 의존합니다. 이것은 실제로 처음에 본 것보다 더 평행합니다. 오랫동안 오픈 소스 소프트웨어는 대부분 독점 하드웨어 공급업체가 판매하는 독점 Unix 운영 체제에서 실행되었습니다. 우리가 스택의 개방형 "바닥"이 가능하다는 사실을 당연하게 여기기 시작한 것은 Linux가 나온 이후부터였으며, 요즘에는 MacOS와 Windows에서 많은 개방형 개발이 이루어지고 있습니다. 이것이 머신러닝에서 어떻게 작동할지는 불분명합니다. Amazon(AWS용), Google(클라우드 및 Android 모두용) 및 Apple은 모두 경쟁 칩과 스택에 투자하고 있으며 이들 중 하나 이상이 다음과 같은 경로를 따를 가능성이 있습니다. 리누스(그리고 인텔)는 완전한 스택.

오픈 소스 소프트웨어 구축 방식과 머신 러닝 구축 방식 사이의 더욱 중요한 유사점은 구축된 데이터의 복잡성과 공개 가용성입니다.

이것에 자세히 나와 있듯이 프리 프린트 종이 “The Data Provenance Project,” 제가 공동 집필한 이 책의 최신 오픈 소스 소프트웨어가 수십만 개의 라이브러리를 기반으로 구축된 것처럼 현대 머신러닝은 말 그대로 수천 개의 데이터 소스를 기반으로 구축되었습니다. 그리고 각각의 개방형 라이브러리에 법적, 보안 및 유지 관리 문제가 발생하는 것처럼 각 공개 데이터 세트에도 똑같은 어려움이 발생합니다.

우리 조직에서는 이 도전 과제에 대한 오픈 소스 소프트웨어 버전에 대해 "우발적인 공급망.” 소프트웨어 산업은 오픈 소스 라이브러리의 놀라운 빌딩 블록이 우리가 할 수 있다는 것을 의미했기 때문에 무언가를 만들기 시작했습니다. 이는 업계가 오픈 소스 소프트웨어를 공급망으로 취급하기 시작했음을 의미하며, 이는 많은 "공급업체"에게 놀라운 일이었습니다.

이러한 문제를 완화하기 위해 오픈 소스 소프트웨어는 사용 중인 항목을 식별하는 스캐너, 배포 후 항목을 추적하기 위한 메타데이터와 같은 정교한(불완전하지만) 기술을 많이 개발했습니다. 우리는 또한 산업적 요구와 자원 봉사 동기 사이의 불일치를 해결하기 위해 인간에 대한 투자를 시작했습니다.

불행하게도 기계 학습 커뮤니티는 똑같은 "우연한" 공급망 실수에 빠질 준비가 되어 있는 것 같습니다. 전체 경제가 이러한 데이터 세트를 기반으로 하면 장기적인 영향에 대해 많이 생각하지 않고 할 수 있기 때문에 많은 일을 하는 것입니다. .

마지막으로 중요한 유사점은 머신러닝이 오픈 소스 소프트웨어처럼 수많은 틈새시장을 채우기 위해 확장될 것이라고 강력히 의심한다는 것입니다. 현재 (당당한) 과대 광고는 대형 생성 모델에 관한 것입니다. 그러나 더 큰 모델에 대한 수정은 물론 작은 모델도 많이 있습니다. 실제로, 기계 학습의 주요 호스팅 플랫폼인 호스팅 사이트 HuggingFace는 사이트의 모델 수가 기하급수적으로 증가하고 있다고 보고합니다.

이러한 모델은 작은 오픈 소스 소프트웨어처럼 풍부하고 개선이 가능합니다. 그러면 믿을 수 없을 만큼 유연하고 강력해집니다. 저는 거리에서 저렴하고 개인 정보 보호에 민감한 교통량 측정을 수행하기 위해 작은 기계 학습 기반 도구를 사용하고 있습니다. 예를 들어 몇 년 전에는 고가의 장치가 아니었다면 불가능했을 사용 사례입니다.

하지만 이러한 확산은 추적이 필요하다는 것을 의미합니다. 모델은 메인프레임이라기보다는 오픈 소스 소프트웨어나 SaaS와 비슷해질 수 있습니다. 이러한 오픈 소스 소프트웨어는 저렴한 비용과 배포 용이성 때문에 여기저기서 나타납니다.

그렇다면 이러한 중요한 유사점(특히 복잡한 공급망 및 확산되는 유통)이 있다면 머신러닝은 오픈 소스 소프트웨어에서 무엇을 배울 수 있을까요?

우리가 얻을 수 있는 첫 번째 병렬 교훈은 기계 학습의 많은 과제를 이해하려면 메타데이터와 도구가 필요하다는 것입니다. 오픈 소스 소프트웨어는 저작권 및 라이선스 준수로 인해 우연히 메타데이터 작업을 하게 되었지만 소프트웨어의 우연한 공급망이 성숙해짐에 따라 메타데이터는 다양한 측면에서 매우 유용한 것으로 입증되었습니다.

기계 학습에서는 메타데이터 추적이 진행 중인 작업입니다. 몇 가지 예:

A 핵심 2019 종이업계에서 널리 인용되는 에서는 모델 개발자에게 '모델 카드'를 사용하여 작업 내용을 문서화할 것을 촉구했습니다. 불행하게도 최근 연구에 따르면 야생에서의 구현은 여전히 약하다.
SPDX 및 CycloneDX 소프트웨어 SBOM(자재 명세서) 사양은 모두 AI BOM(자재 명세서)에서 작동하여 모델 카드보다 더 구조화된 방식으로 기계 학습 데이터 및 모델을 추적하는 데 도움이 됩니다(이 경우 예상되는 복잡성에 적합). 실제로 병렬 오픈 소스 소프트웨어를 사용합니다.)
HuggingFace가 생성되었습니다. 다양한 사양과 도구 모델 및 데이터 세트 작성자가 소스를 문서화할 수 있도록 합니다.
위에 인용된 MIT 데이터 출처(Data Provenance) 논문은 실제 데이터로 사양을 구체화하는 데 도움을 주기 위해 데이터 라이선싱의 "근거 진실"을 이해하려고 노력하고 있습니다.
일화로, 기계 학습 훈련 작업을 수행하는 많은 회사는 데이터 추적과 다소 우연한 관계를 맺고 있는 것으로 보입니다. "더 많을수록 좋다"는 핑계로 데이터를 제대로 추적하지 않고도 호퍼에 밀어넣는 것입니다.

우리가 오픈에서 배운 것이 있다면 올바른 메타데이터(먼저 사양, 그다음 실제 데이터)를 얻는 데 수년이 걸릴 프로젝트가 될 것이며 필요할 수도 있다는 것입니다. 정부 개입. 머신러닝은 메타데이터 급락을 조만간에 받아들여야 합니다.

보안은 오픈 소스 소프트웨어 메타데이터 수요의 또 다른 주요 동인이었습니다. 실행 중인 것이 무엇인지 모른다면 끝없는 공격 흐름에 취약한지 알 수 없습니다.

기계 학습은 대부분의 기존 소프트웨어 공격 유형에 영향을 받지 않지만 그렇다고 해서 공격이 불가능하다는 의미는 아닙니다. (제가 가장 좋아하는 예는 포이즌 이미지 트레이닝 세트 종종 죽은 도메인에서 가져오기 때문입니다.) 이 분야에 대한 연구는 이미 "개념 증명"을 넘어 "공격할 만큼 공격이 많다"고 말할 정도로 뜨겁습니다. 명부 및 분류하다. "

불행하게도 오픈 소스 소프트웨어는 보안을 위한 어떤 마법의 총알도 기계 학습에 제공할 수 없습니다. 만약 우리가 있었다면 우리는 그것을 사용했을 것입니다. 그러나 오픈 소스 소프트웨어가 어떻게 수많은 틈새 시장으로 확산되었는지에 대한 역사를 보면 기계 학습은 사용 및 배포 메타데이터 추적부터 시작하여 이 문제를 진지하게 받아들여야 함을 시사합니다. 왜냐하면 이는 현재의 방식을 넘어서 매우 다양한 방식으로 적용될 가능성이 높기 때문입니다. 배포되었습니다.

오픈 소스 메타데이터(라이선스, 보안)를 주도한 동기는 다음 중요한 유사점을 가리킵니다. 즉, 특정 분야의 중요성이 커짐에 따라 규제와 책임이 확대되기 때문에 측정하고 추적해야 하는 항목의 범위도 확대될 것입니다.

오픈 소스 소프트웨어에서 수년 동안 주요 정부 "규제"는 저작권법이었으므로 이를 지원하기 위해 메타데이터가 개발되었습니다. 그러나 오픈 소스 소프트웨어는 이제 다양한 보안 및 제조물 책임 규정에 직면해 있으며, 우리는 이러한 새로운 요구 사항을 충족하기 위해 공급망을 성숙시켜야 합니다.

AI는 점점 더 중요해짐에 따라 점점 더 많은 방식으로 규제될 것입니다. 규제의 원천은 내용(투입물과 산출물 모두), 차별, 제조물 책임 등을 포함하여 매우 다양합니다. 이를 위해서는 때때로 “추적 성”—모델 구축 방법과 이러한 선택(데이터 소스 포함)이 모델 결과에 어떤 영향을 미치는지 이해합니다.

이 핵심 요구 사항은 무엇입니까? 어떻게 여기까지 왔나요? - 이제 엔터프라이즈 오픈 소스 소프트웨어 개발자에게 매우 친숙합니다. 그러나 이는 기계 학습 개발자에게는 급격한 변화일 수 있으므로 이를 수용해야 합니다.

머신 러닝이 오픈 소스 소프트웨어(실제로 적어도 메인프레임까지 거슬러 올라가는 이전의 많은 소프트웨어 물결에서)에서 얻을 수 있는 또 다른 병렬 교훈은 그 유효 수명이 매우 길다는 것입니다. 기술이 "충분히 우수"해지면 배포되므로 아주 오랫동안 유지 관리해야 합니다. 이는 우리가 이 소프트웨어의 유지 관리에 대해 가능한 한 빨리 생각해야 함을 의미하며, 이 소프트웨어가 수십 년 동안 살아남을 수 있다는 것이 무엇을 의미하는지 생각해야 함을 의미합니다. "10년"은 과장이 아닙니다. 제가 만나는 많은 고객들은 투표할 수 있을 만큼 오래된 소프트웨어를 사용하고 있습니다. 많은 오픈 소스 소프트웨어 회사와 일부 프로젝트는 이제 이러한 종류의 사용 사례를 위한 소위 "장기 지원" 버전을 보유하고 있습니다.

이와 대조적으로 OpenAI는 Codex 도구를 2년 미만 동안 사용할 수 있게 유지했습니다.특히 학계에서 많은 분노를 불러일으켰습니다.. 기계 학습의 빠른 변화 속도와 아마도 대부분의 채택자가 최첨단 기술 사용에 관심이 있다는 점을 고려하면 이는 아마도 무리한 것은 아닐 것입니다. 그러나 업계가 생각하는 것보다 빨리 이에 대한 계획을 세워야 할 날이 올 것입니다. 책임 및 보안과 상호 작용하는 방식을 포함하여 일종의 "장기적"입니다.

마지막으로, 오픈 소스 소프트웨어와 마찬가지로 머신러닝에 많은 자금이 유입될 것이 분명하지만, 그 자금의 대부분은 한 저자가 "프로세서가 풍부한" 회사. 오픈 소스 소프트웨어와 유사점이 나타나면 해당 회사는 모델의 중간값 작성자(또는 사용자)와 매우 다른 관심사와 지출 우선순위를 갖게 될 것입니다.

우리 회사인 Tidelift는 오랫동안 오픈 소스 소프트웨어의 인센티브 문제에 대해 생각해 왔고, 세계 최대 소프트웨어 구매자인 미국 정부와 같은 기관은 문제도 살펴보고.

머신러닝 회사, 특히 창작자 커뮤니티를 만들고자 하는 회사는 이 과제에 대해 열심히 생각해 보아야 합니다. 수천 개의 데이터 세트에 의존하고 있다면 수십 년 동안 유지 관리, 법률 준수 및 보안을 위한 자금을 어떻게 확보할 수 있을까요? 대기업이 회사 전체에 수십 또는 수백 개의 모델을 배치하게 된다면, 최고의 전문 지식을 가진 사람들, 즉 모델을 만든 사람들이 새로운 문제가 발견될 때 계속해서 작업할 수 있도록 어떻게 보장할 것입니까?

보안과 마찬가지로 이 문제에도 쉬운 답은 없습니다. 그러나 머신러닝이 이 문제를 자선 활동이 아닌 장기적인 성장의 핵심 요소로 더 빨리 심각하게 받아들일수록 전체 산업과 전 세계가 더 나은 결과를 얻을 수 있습니다.

학계의 실험주의 문화와 실리콘밸리의 빠른 반복 문화에 깊이 뿌리를 둔 머신러닝은 이를 잘 뒷받침해 놀라운 혁신의 폭발을 가져왔습니다. 불과 10년 전만 해도 마술처럼 보였습니다.. 지난 10년 동안 오픈 소스 소프트웨어의 과정은 아마도 덜 화려했을 것입니다. 그러나 그 기간 동안 오픈 소스 소프트웨어는 모든 엔터프라이즈 소프트웨어의 토대가 되었으며 그 과정에서 많은 교훈을 얻었습니다. 기계 학습이 이러한 바퀴를 재발명하지 않기를 바랍니다.

루이스 빌라 Tidelift의 공동 창립자이자 법무 자문위원입니다. 이전에 그는 Fortune 50대 기업부터 주요 스타트업에 이르기까지 고객에게 제품 개발 및 오픈 소스 라이선스에 관해 조언하는 최고의 오픈 소스 변호사였습니다.