AI とオープンソースソフトウェア: 出生時に別居? - KDnuggets

プラトン再発行

フォロワー： 0

AI とオープンソースソフトウェア: 出生時に別居?
編集者による画像

私は昨年末から、オープンソースソフトウェアと機械学習の交差点について読み、書き、話し、将来に何が起こるかを理解しようと努めてきました。

話を始めたとき、主に機械学習コミュニティでオープンソースソフトウェアがどのように使用されているかについて話すことになると予想していました。しかし、調べれば調べるほど、この 2 つの実践分野には多くの類似点があることに気づきました。この記事では、それらの類似点のいくつかと、機械学習がオープンソースソフトウェアから学べることと学べないことについて説明します。

簡単かつ明白な類似点は、最新の機械学習と最新のソフトウェアの両方が、ほぼ完全にオープンソースソフトウェアで構築されていることです。ソフトウェアの場合は、コンパイラとコードエディタです。機械学習の場合は、PyTorch や TensorFlow などのトレーニングおよび推論フレームワークです。これらの分野はオープンソースソフトウェアによって支配されており、それを変える準備ができているものはないようです。

これには、明らかな例外が 1 つあります。これらのフレームワークはすべて、独自の Nvidia ハードウェアとソフトウェアスタックに依存しています。これは実際には、一見したよりも平行しています。長い間、オープンソースソフトウェアは主に、独自のハードウェアベンダーが販売する独自の Unix オペレーティングシステム上で実行されていました。スタックのオープンな「底部」が可能であることさえ当然のことだと考えるようになったのは、Linux が登場してからであり、最近では多くのオープン開発が MacOS と Windows で行われています。これが機械学習にどのように影響するかは不明です。 Amazon (AWS 向け)、Google (クラウドと Android 向け)、Apple はすべて、競合するチップとスタックに投資しており、そのうちの 1 つまたは複数が、ライナス (そしてインテル) の解放全体スタック.

オープンソースソフトウェアの構築方法と機械学習の構築方法のより重要な類似点は、それぞれが構築されるデータの複雑さと公開されている点です。

この中に詳しく書かれているようにプレプリント紙 “The Data Provenance Project,” 私が共著したこの本では、現代のオープンソースソフトウェアが数十万のライブラリに基づいて構築されているのと同様に、現代の機械学習は文字通り数千のデータソースに基づいて構築されています。そして、各オープンライブラリが法的、セキュリティ、メンテナンスの課題を伴うのと同様に、各公開データセットにもまったく同じ一連の困難が伴います。

私の組織では、この課題のオープンソースソフトウェア版について「偶発的なサプライチェーン」ソフトウェア業界が何かを構築し始めたのは、オープンソースライブラリの驚異的な構成要素によってそれが可能になったからです。これは、業界がオープンソースソフトウェアをサプライチェーンとして扱い始めたことを意味しますが、これは多くの「サプライヤー」にとって驚きでした。

これらの課題を軽減するために、オープンソースソフトウェアは、使用されているものを識別するためのスキャナーや、展開後に状況を追跡するためのメタデータなど、多くの洗練された (不完全ではあるが) 技術を開発してきました。また、産業上のニーズとボランティアの動機との間の不一致に対処するために、人間への投資も開始しています。

残念なことに、機械学習コミュニティは、まさに同じ「偶然の」サプライチェーンの間違いに陥る準備ができているようです。経済全体がこれらのデータセットに基づいた場合、長期的な影響についてあまり考えずに、できるからといって多くのことをやっているのです。。

最後の重要な類似点は、オープンソースソフトウェアと同じように、機械学習が非常に多くのニッチを埋めるように拡張されるのではないかと私が強く疑っていることです。現時点では、（当然の）誇大広告は大規模な生成モデルに関するものですが、世の中には小規模なモデルも多数存在し、より大きなモデルの微調整も行われています。実際、機械学習の主要なホスティングプラットフォームであるホスティングサイト HuggingFace は、サイト上のモデルの数が急激に増加していると報告しています。

これらのモデルは、オープンソースソフトウェアの小さな部分と同様に、豊富に存在し、改善が可能になる可能性があります。これにより、信じられないほど柔軟で強力になります。私は、小さな機械学習ベースのツールを使用して、安価でプライバシーに配慮した交通量測定を街頭で行っています。たとえば、この使用例は、数年前には高価なデバイスを使用しなければ不可能でした。

しかし、この急増は、モデルを追跡する必要があることを意味します。モデルはメインフレームではなく、低コストと導入の容易さからあちこちに現れるオープンソースソフトウェアまたは SaaS に近づく可能性があります。

それでは、これらの重要な類似点 (特に複雑なサプライチェーンと急増する流通) がある場合、機械学習はオープンソースソフトウェアから何を学ぶことができるのでしょうか?

これと並行して得られる最初の教訓は、単純に、その多くの課題を理解するには、機械学習にはメタデータとツールが必要であるということです。オープンソースソフトウェアは、著作権とライセンスのコンプライアンスを通じてメタデータの作業に行き当たりましたが、ソフトウェアの偶発的なサプライチェーンが成熟するにつれて、メタデータがさまざまな面で非常に役立つことが証明されました。

機械学習では、メタデータの追跡が進行中です。いくつかの例:

A 2019 年の主要論文業界で広く引用されているこの論文は、モデルの開発者に「モデルカード」を使用して作業を文書化するよう促しています。残念ながら、最近の研究では、実際の実装はまだ弱い.
SPDX と CycloneDX のソフトウェア部品表 (SBOM) 仕様は両方とも、モデルカードよりも構造化された方法 (これが予想される複雑さにふさわしい方法) で機械学習データとモデルを追跡できるように、AI 部品表 (AI BOM) に取り組んでいます。本当に並列オープンソースソフトウェアを実行します)。
ハグフェイスが作成したさまざまな仕様とツールモデルとデータセットの作成者がソースを文書化できるようにします。
上で引用した MIT Data Provenance の論文では、実際のデータを使用して仕様を具体化するために、データライセンスの「グラウンドトゥルース」を理解しようとしています。
逸話によると、機械学習のトレーニング業務を行っている多くの企業は、データ追跡とややカジュアルな関係を持っているようで、「多ければ多いほど良い」という言い訳を使って、データを必ずしも適切に追跡せずにホッパーに押し込んでいます。

オープンから何かを学んだとすれば、メタデータ (最初に仕様、次に実際のデータ) を正しく取得するのは数年かかるプロジェクトになり、場合によっては必要な作業が必要になるということです。政府介入。機械学習は、遅かれ早かれそのメタデータを活用する必要があります。

セキュリティは、オープンソースソフトウェアのメタデータ需要のもう 1 つの主要な推進要因です。何を実行しているのかを知らなければ、一見際限なく続く攻撃の影響を受けやすいかどうかもわかりません。

機械学習は、ほとんどの種類の従来のソフトウェア攻撃の影響を受けませんが、だからといって無敵であるというわけではありません。 (私のお気に入りの例は、次のことが可能だったということです。毒のイメージトレーニングセットこの分野の研究は非常に活発であり、すでに「概念実証」を超えて「十分な攻撃が存在する」段階に達しています。リストおよび分類するに設立された地域オフィスに加えて、さらにローカルカスタマーサポートを提供できるようになります。」

残念ながら、オープンソースソフトウェアは機械学習にセキュリティのための特効薬を提供することはできません。それがあれば、私たちはそれを使用するでしょう。しかし、オープンソースソフトウェアがこれほど多くのニッチ分野に広がった歴史を見ると、機械学習は、使用状況とデプロイメントのメタデータの追跡から始めて、この課題に真剣に取り組む必要があることがわかります。なぜなら、オープンソースソフトウェアは、現在の用途を超えて非常に多くの方法で適用される可能性が高いためです。展開されました。

オープンソースのメタデータを推進した動機 (ライセンス、次にセキュリティ) は、次の重要な類似点を示しています。つまり、セクターの重要性が高まるにつれて、規制と責任が拡大するため、測定および追跡する必要があるものの範囲が拡大します。

オープンソースソフトウェアでは、長年にわたり政府の主な「規制」は著作権法であったため、それをサポートするためにメタデータが開発されました。しかし、オープンソースソフトウェアは現在、さまざまなセキュリティと製造物責任の規則に直面しており、これらの新しい要件を満たすためにサプライチェーンを成熟させる必要があります。

AI も同様に、ますます重要になるにつれて、ますます多くの方法で規制されることになります。規制の原因は、コンテンツ (インプットとアウトプットの両方)、差別、製造物責任など、非常に多岐にわたります。これには、いわゆる「」が必要になります。トレーサビリティ」 - モデルがどのように構築されるか、そしてそれらの選択 (データソースを含む) がモデルの結果にどのような影響を与えるかを理解します。

この中心的な要件、私たちは何を持っているのでしょうか?どうやってここにたどり着いたのでしょうか? - 今や企業のオープンソースソフトウェア開発者にとってはよく知られたものになっています。ただし、これは機械学習開発者にとって根本的な変化となる可能性があり、受け入れる必要があります。

機械学習がオープンソースソフトウェア (そして実際、少なくともメインフレームまで遡る、それ以前の多くのソフトウェアの波から) から得られるもう 1 つの並行する教訓は、その耐用年数が非常に長いということです。テクノロジーが「十分に優れた」ものになると、導入されるため、非常に長期間維持する必要があります。これは、私たちがこのソフトウェアのメンテナンスをできるだけ早く考え、このソフトウェアが何十年も存続することが何を意味するかを考える必要があることを意味します。「数十年」というのは誇張ではありません。私が出会った多くの顧客は、投票できるほど古いソフトウェアを使用しています。多くのオープンソースソフトウェア会社と一部のプロジェクトは、現在、この種の使用例を対象とした、いわゆる「長期サポート」バージョンを用意しています。

対照的に、OpenAI が Codex ツールを利用できるようにしていた期間は 2 年未満です。特に学術界で多くの怒りを引き起こす。機械学習の変化のペースが速く、ほとんどの採用者がおそらく最先端の使用に興味があることを考慮すると、これはおそらく不合理ではありませんでしたが、業界が考えているよりも早く、これに向けた計画を立てる必要がある日が来るでしょう。それが責任と安全性とどのように相互作用するかを含む、一種の「長期的」です。

最後に、オープンソースソフトウェアと同様に、機械学習に多額の資金が流入することは明らかですが、その資金のほとんどは、ある著者が主張したものにプールされることになります。「プロセッサーが豊富な」企業。オープンソースソフトウェアとの類似点が展開される場合、それらの企業は、モデルの作成者 (またはユーザー) の中央値とはまったく異なる懸念や支出の優先順位を持つことになります。

私たちの会社である Tidelift は、オープンソースソフトウェアのインセンティブの問題についてしばらく考えてきました。世界最大のソフトウェア購入者である米国政府のような団体は、問題も調べています.

機械学習企業、特にクリエイターのコミュニティを構築しようとしている企業は、この課題についてよく考える必要があります。数千のデータセットに依存している場合、それらのデータセットのメンテナンス、法令順守、セキュリティのための資金を数十年にわたり確保するにはどうすればよいでしょうか?大企業が社内に数十、数百のモデルを導入することになった場合、最高の専門知識を持つ人、つまりモデルを作成した人が、新しい問題が発見されたときにすぐに対応できるようにするにはどうすればよいでしょうか?

セキュリティと同様、この課題にも簡単な答えはありません。しかし、機械学習がこの問題を、慈善活動としてではなく、長期的な成長の重要な要素として真剣に受け止めるのが早ければ早いほど、業界全体、そして世界全体がより良くなるでしょう。

機械学習は学界の実験文化とシリコンバレーの高速反復文化に深く根付いており、これがうまく機能し、驚くべきイノベーションの爆発をもたらしました。 10年も前には魔法のようだった。過去 10 年間のオープンソースソフトウェアの歩みは、おそらくそれほど魅力的なものではありませんでしたが、その間、オープンソースソフトウェアはすべてのエンタープライズソフトウェアの基盤となり、その過程で多くの教訓を学びました。機械学習がそれらの車輪を再発明しないことを願っています。

ルイヴィラ Tidelift の共同創設者兼法務顧問です。以前は、オープンソースのトップ弁護士として、フォーチュン 50 企業から大手新興企業まで、製品開発やオープンソースライセンスに関してクライアントにアドバイスを行っていました。