編集者による画像
私は昨年末から、オープンソース ソフトウェアと機械学習の交差点について読み、書き、話し、将来に何が起こるかを理解しようと努めてきました。
話を始めたとき、主に機械学習コミュニティでオープンソース ソフトウェアがどのように使用されているかについて話すことになると予想していました。しかし、調べれば調べるほど、この 2 つの実践分野には多くの類似点があることに気づきました。この記事では、それらの類似点のいくつかと、機械学習がオープンソース ソフトウェアから学べることと学べないことについて説明します。
簡単かつ明白な類似点は、最新の機械学習と最新のソフトウェアの両方が、ほぼ完全にオープン ソース ソフトウェアで構築されていることです。ソフトウェアの場合は、コンパイラとコードエディタです。機械学習の場合は、PyTorch や TensorFlow などのトレーニングおよび推論フレームワークです。これらの分野はオープンソース ソフトウェアによって支配されており、それを変える準備ができているものはないようです。
これには、明らかな例外が 1 つあります。これらのフレームワークはすべて、独自の Nvidia ハードウェアとソフトウェア スタックに依存しています。これは実際には、一見したよりも平行しています。長い間、オープンソース ソフトウェアは主に、独自のハードウェア ベンダーが販売する独自の Unix オペレーティング システム上で実行されていました。スタックのオープンな「底部」が可能であることさえ当然のことだと考えるようになったのは、Linux が登場してからであり、最近では多くのオープン開発が MacOS と Windows で行われています。これが機械学習にどのように影響するかは不明です。 Amazon (AWS 向け)、Google (クラウドと Android 向け)、Apple はすべて、競合するチップとスタックに投資しており、そのうちの 1 つまたは複数が、 ライナス (そしてインテル) の解放 全体 スタック.
オープンソース ソフトウェアの構築方法と機械学習の構築方法のより重要な類似点は、それぞれが構築されるデータの複雑さと公開されている点です。
この中に詳しく書かれているように プレプリント 紙 “The Data Provenance Project,” 私が共著したこの本では、現代のオープンソース ソフトウェアが数十万のライブラリに基づいて構築されているのと同様に、現代の機械学習は文字通り数千のデータ ソースに基づいて構築されています。そして、各オープン ライブラリが法的、セキュリティ、メンテナンスの課題を伴うのと同様に、各公開データ セットにもまったく同じ一連の困難が伴います。
私の組織では、この課題のオープンソース ソフトウェア版について「偶発的なサプライチェーン」ソフトウェア業界が何かを構築し始めたのは、オープン ソース ライブラリの驚異的な構成要素によってそれが可能になったからです。これは、業界がオープンソース ソフトウェアをサプライ チェーンとして扱い始めたことを意味しますが、これは多くの「サプライヤー」にとって驚きでした。
これらの課題を軽減するために、オープンソース ソフトウェアは、使用されているものを識別するためのスキャナーや、展開後に状況を追跡するためのメタデータなど、多くの洗練された (不完全ではあるが) 技術を開発してきました。また、産業上のニーズとボランティアの動機との間の不一致に対処するために、人間への投資も開始しています。
残念なことに、機械学習コミュニティは、まさに同じ「偶然の」サプライチェーンの間違いに陥る準備ができているようです。経済全体がこれらのデータセットに基づいた場合、長期的な影響についてあまり考えずに、できるからといって多くのことをやっているのです。 。
最後の重要な類似点は、オープンソース ソフトウェアと同じように、機械学習が非常に多くのニッチを埋めるように拡張されるのではないかと私が強く疑っていることです。現時点では、(当然の)誇大広告は大規模な生成モデルに関するものですが、世の中には小規模なモデルも多数存在し、より大きなモデルの微調整も行われています。実際、機械学習の主要なホスティング プラットフォームであるホスティング サイト HuggingFace は、サイト上のモデルの数が急激に増加していると報告しています。
これらのモデルは、オープンソース ソフトウェアの小さな部分と同様に、豊富に存在し、改善が可能になる可能性があります。これにより、信じられないほど柔軟で強力になります。私は、小さな機械学習ベースのツールを使用して、安価でプライバシーに配慮した交通量測定を街頭で行っています。たとえば、この使用例は、数年前には高価なデバイスを使用しなければ不可能でした。
しかし、この急増は、モデルを追跡する必要があることを意味します。モデルはメインフレームではなく、低コストと導入の容易さからあちこちに現れるオープンソース ソフトウェアまたは SaaS に近づく可能性があります。
それでは、これらの重要な類似点 (特に複雑なサプライ チェーンと急増する流通) がある場合、機械学習はオープンソース ソフトウェアから何を学ぶことができるのでしょうか?
これと並行して得られる最初の教訓は、単純に、その多くの課題を理解するには、機械学習にはメタデータとツールが必要であるということです。オープンソース ソフトウェアは、著作権とライセンスのコンプライアンスを通じてメタデータの作業に行き当たりましたが、ソフトウェアの偶発的なサプライ チェーンが成熟するにつれて、メタデータがさまざまな面で非常に役立つことが証明されました。
機械学習では、メタデータの追跡が進行中です。いくつかの例:
- A 2019 年の主要論文業界で広く引用されているこの論文は、モデルの開発者に「モデル カード」を使用して作業を文書化するよう促しています。残念ながら、最近の研究では、 実際の実装はまだ弱い.
- SPDX と CycloneDX のソフトウェア部品表 (SBOM) 仕様は両方とも、モデル カードよりも構造化された方法 (これが予想される複雑さにふさわしい方法) で機械学習データとモデルを追跡できるように、AI 部品表 (AI BOM) に取り組んでいます。本当に並列オープンソース ソフトウェアを実行します)。
- ハグフェイスが作成した さまざまな仕様とツール モデルとデータセットの作成者がソースを文書化できるようにします。
- 上で引用した MIT Data Provenance の論文では、実際のデータを使用して仕様を具体化するために、データ ライセンスの「グラウンド トゥルース」を理解しようとしています。
- 逸話によると、機械学習のトレーニング業務を行っている多くの企業は、データ追跡とややカジュアルな関係を持っているようで、「多ければ多いほど良い」という言い訳を使って、データを必ずしも適切に追跡せずにホッパーに押し込んでいます。
オープンから何かを学んだとすれば、メタデータ (最初に仕様、次に実際のデータ) を正しく取得するのは数年かかるプロジェクトになり、場合によっては必要な作業が必要になるということです。 政府介入。機械学習は、遅かれ早かれそのメタデータを活用する必要があります。
セキュリティは、オープンソース ソフトウェアのメタデータ需要のもう 1 つの主要な推進要因です。何を実行しているのかを知らなければ、一見際限なく続く攻撃の影響を受けやすいかどうかもわかりません。
機械学習は、ほとんどの種類の従来のソフトウェア攻撃の影響を受けませんが、だからといって無敵であるというわけではありません。 (私のお気に入りの例は、次のことが可能だったということです。 毒のイメージトレーニングセット この分野の研究は非常に活発であり、すでに「概念実証」を超えて「十分な攻撃が存在する」段階に達しています。 リスト および 分類するに設立された地域オフィスに加えて、さらにローカルカスタマーサポートを提供できるようになります。」
残念ながら、オープンソース ソフトウェアは機械学習にセキュリティのための特効薬を提供することはできません。それがあれば、私たちはそれを使用するでしょう。しかし、オープンソース ソフトウェアがこれほど多くのニッチ分野に広がった歴史を見ると、機械学習は、使用状況とデプロイメントのメタデータの追跡から始めて、この課題に真剣に取り組む必要があることがわかります。なぜなら、オープンソース ソフトウェアは、現在の用途を超えて非常に多くの方法で適用される可能性が高いためです。展開されました。
オープンソースのメタデータを推進した動機 (ライセンス、次にセキュリティ) は、次の重要な類似点を示しています。つまり、セクターの重要性が高まるにつれて、規制と責任が拡大するため、測定および追跡する必要があるものの範囲が拡大します。
オープンソース ソフトウェアでは、長年にわたり政府の主な「規制」は著作権法であったため、それをサポートするためにメタデータが開発されました。しかし、オープンソース ソフトウェアは現在、さまざまなセキュリティと製造物責任の規則に直面しており、これらの新しい要件を満たすためにサプライ チェーンを成熟させる必要があります。
AI も同様に、ますます重要になるにつれて、ますます多くの方法で規制されることになります。規制の原因は、コンテンツ (インプットとアウトプットの両方)、差別、製造物責任など、非常に多岐にわたります。これには、いわゆる「」が必要になります。トレーサビリティ」 - モデルがどのように構築されるか、そしてそれらの選択 (データ ソースを含む) がモデルの結果にどのような影響を与えるかを理解します。
この中心的な要件、私たちは何を持っているのでしょうか?どうやってここにたどり着いたのでしょうか? - 今や企業のオープンソース ソフトウェア開発者にとってはよく知られたものになっています。ただし、これは機械学習開発者にとって根本的な変化となる可能性があり、受け入れる必要があります。
機械学習がオープンソース ソフトウェア (そして実際、少なくともメインフレームまで遡る、それ以前の多くのソフトウェアの波から) から得られるもう 1 つの並行する教訓は、その耐用年数が非常に長いということです。テクノロジーが「十分に優れた」ものになると、導入されるため、非常に長期間維持する必要があります。これは、私たちがこのソフトウェアのメンテナンスをできるだけ早く考え、このソフトウェアが何十年も存続することが何を意味するかを考える必要があることを意味します。 「数十年」というのは誇張ではありません。私が出会った多くの顧客は、投票できるほど古いソフトウェアを使用しています。多くのオープンソース ソフトウェア会社と一部のプロジェクトは、現在、この種の使用例を対象とした、いわゆる「長期サポート」バージョンを用意しています。
対照的に、OpenAI が Codex ツールを利用できるようにしていた期間は 2 年未満です。特に学術界で多くの怒りを引き起こす。機械学習の変化のペースが速く、ほとんどの採用者がおそらく最先端の使用に興味があることを考慮すると、これはおそらく不合理ではありませんでしたが、業界が考えているよりも早く、これに向けた計画を立てる必要がある日が来るでしょう。それが責任と安全性とどのように相互作用するかを含む、一種の「長期的」です。
最後に、オープンソース ソフトウェアと同様に、機械学習に多額の資金が流入することは明らかですが、その資金のほとんどは、ある著者が主張したものにプールされることになります。 「プロセッサーが豊富な」企業。 オープンソース ソフトウェアとの類似点が展開される場合、それらの企業は、モデルの作成者 (またはユーザー) の中央値とはまったく異なる懸念や支出の優先順位を持つことになります。
私たちの会社である Tidelift は、オープンソース ソフトウェアのインセンティブの問題についてしばらく考えてきました。世界最大のソフトウェア購入者である米国政府のような団体は、 問題も調べています.
機械学習企業、特にクリエイターのコミュニティを構築しようとしている企業は、この課題についてよく考える必要があります。数千のデータセットに依存している場合、それらのデータセットのメンテナンス、法令順守、セキュリティのための資金を数十年にわたり確保するにはどうすればよいでしょうか?大企業が社内に数十、数百のモデルを導入することになった場合、最高の専門知識を持つ人、つまりモデルを作成した人が、新しい問題が発見されたときにすぐに対応できるようにするにはどうすればよいでしょうか?
セキュリティと同様、この課題にも簡単な答えはありません。しかし、機械学習がこの問題を、慈善活動としてではなく、長期的な成長の重要な要素として真剣に受け止めるのが早ければ早いほど、業界全体、そして世界全体がより良くなるでしょう。
機械学習は学界の実験文化とシリコンバレーの高速反復文化に深く根付いており、これがうまく機能し、驚くべきイノベーションの爆発をもたらしました。 10年も前には魔法のようだった。過去 10 年間のオープンソース ソフトウェアの歩みは、おそらくそれほど魅力的なものではありませんでしたが、その間、オープンソース ソフトウェアはすべてのエンタープライズ ソフトウェアの基盤となり、その過程で多くの教訓を学びました。機械学習がそれらの車輪を再発明しないことを願っています。
ルイヴィラ Tidelift の共同創設者兼法務顧問です。以前は、オープンソースのトップ弁護士として、フォーチュン 50 企業から大手新興企業まで、製品開発やオープンソース ライセンスに関してクライアントにアドバイスを行っていました。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://www.kdnuggets.com/ai-and-open-source-software-separated-at-birth?utm_source=rss&utm_medium=rss&utm_campaign=ai-and-open-source-software-separated-at-birth
- :持っている
- :は
- :not
- :どこ
- $UP
- 2019
- 50
- a
- 私たちについて
- 上記の.
- アカデミック
- 誤って
- 行為
- 実際の
- 実際に
- 住所
- 採用者
- アドバイス
- 後
- 前
- AI
- すべて
- 許す
- ほとんど
- 沿って
- 既に
- また
- 驚くべき
- Amazon
- an
- および
- アンドロイド
- 怒り
- 別の
- 回答
- どれか
- 何でも
- 見かけ上
- 現れる
- 登場する
- Apple
- 適用された
- です
- AREA
- エリア
- 周りに
- 記事
- AS
- At
- 攻撃
- 著者
- 著者
- 賃貸条件の詳細・契約費用のお見積り等について
- 利用できます
- AWS
- バック
- ベース
- BE
- なぜなら
- になる
- になる
- き
- 始まった
- さ
- BEST
- より良いです
- の間に
- 越えて
- 札
- 出産
- ブロック
- 両言語で
- 持って来る
- もたらす
- 建物
- 内蔵
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 呼ばれます
- came
- 缶
- カード
- 場合
- 例
- カジュアル
- チェーン
- チェーン
- 挑戦する
- 課題
- 変化する
- 社会奉仕活動
- 安い
- チップ
- 選択肢
- 引用された
- クリア
- クライアント
- クラウド
- 共同創設者
- コード
- 来ます
- コミュニティ
- コミュニティ
- 企業
- 会社
- 競合します
- 複雑な
- 複雑さ
- コンプライアンス
- コンポーネント
- 懸念事項
- コンテンツ
- コントラスト
- 著作権
- 基本
- 費用
- 可能性
- 弁護士
- ここから
- 作ります
- 作成した
- クリエイター
- クリエイター
- 重大な
- 文化
- 現在
- Customers
- 切断
- データ
- データセット
- データセット
- 年代測定
- 中
- 日
- 死んだ
- 十年
- 数十年
- 深いです
- 依存
- 展開
- 展開
- 詳細な
- 発展した
- 開発者
- 開発
- Devices
- DID
- 異なります
- 困難
- 発見
- 差別
- 話し合います
- ディストリビューション
- 異なる
- do
- ドキュメント
- ありません
- そうではありません
- すること
- ドメイン
- 行われ
- ドント
- 数十
- ドロー
- ドライバー
- 間に
- 各
- 早い
- 緩和する
- 簡単に
- 経済
- エッジ(Edge)
- 編集者
- 受け入れ
- 出会い
- end
- エンドレス
- 十分な
- 確保
- Enterprise
- 全体
- 完全に
- エンティティ
- 特に
- エーテル(ETH)
- さらに
- ますます増加する
- 正確に
- 例
- 例
- 除く
- 例外
- 詳細
- 期待する
- 予想される
- 高価な
- 調査済み
- 爆発
- 指数関数的に
- 非常に
- 顔
- おなじみの
- スピーディー
- お気に入り
- 少数の
- 埋める
- 名
- フレキシブル
- 流れる
- フォーチュン
- フレームワーク
- から
- 積立
- 未来
- 生々しい
- 取得する
- 受け
- GitHubの
- 与えられた
- 行く
- 行って
- でログイン
- 政府・公共機関
- 付与された
- 成長
- 育ちます
- 持っていました
- ハード
- Hardware
- 持ってる
- he
- 助けます
- こちら
- history
- うまくいけば
- ホスティング
- HOT
- 認定条件
- しかしながら
- HTTPS
- 抱き合う顔
- 人間
- 何百
- 誇大広告
- i
- 私は
- 識別
- IEEE
- if
- 画像
- とてつもなく
- 影響
- 意義
- 重要性
- 重要
- 改善
- in
- インセンティブ
- 含めて
- 信じられない
- 信じられないほど
- インダストリアル
- 産業を変えます
- 革新的手法
- 入力
- インテル
- 意図された
- 相互作用する
- 興味がある
- 交差点
- に
- 投資する
- 投資
- IT
- 繰り返し
- ITS
- ただ
- KDナゲット
- 保管
- キー
- 知っている
- 大
- より大きい
- 最大の
- 姓
- 昨年
- 遅く
- 後で
- 法律
- 弁護士
- 主要な
- LEARN
- 学んだ
- 学習
- 最低
- リーガルポリシー
- less
- レッスン
- レッスン
- 賠償責任
- ライブラリ
- 図書館
- ライセンシング
- 生活
- ような
- 可能性が高い
- linuxの
- 長い
- 長い時間
- 長期的
- 見て
- たくさん
- たくさん
- ロー
- 機械
- 機械学習
- MacOSの
- マジック
- メンテナンス
- 主要な
- make
- 方法
- 多くの
- 材料
- 成熟した
- 五月..
- 意味する
- 手段
- 意味した
- 測定された
- 測定
- 大会
- かもしれない
- マサチューセッツ工科大学(MIT)
- 軽減する
- モデル
- モダン
- 瞬間
- お金
- 他には?
- 最も
- 主に
- 動機
- ずっと
- 多数
- しなければなりません
- my
- 必ずしも
- 必要
- ニーズ
- 新作
- 次の
- いいえ
- 注目すべき
- 何も
- 今
- 数
- Nvidia
- 明白
- of
- オフ
- 提供
- 頻繁に
- 古い
- on
- かつて
- ONE
- の
- 開いた
- オープンソース
- OpenAI
- オペレーティング
- OS
- or
- 組織
- 私たちの
- でる
- 成果
- outputs
- が
- 平和
- 紙素材
- 並列シミュレーションの設定
- Parallels
- 特に
- 過去
- path
- おそらく
- ピース
- 場所
- 計画
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレイ
- 急落
- ポイント
- プール
- ポップ
- 可能
- 強力な
- 練習
- 前に
- 主要な
- 多分
- 問題
- 問題
- プロダクト
- 製品開発
- 進捗
- プロジェクト
- プロジェクト(実績作品)
- 所有権
- 実績のある
- 来歴
- 公共
- 購入者
- パイトーチ
- ラジカル
- 急速な
- むしろ
- リーディング
- 準備
- 現実の世界
- 実現
- 最近
- 規制
- 規制
- 再発明する
- の関係
- レポート
- 必要とする
- 要件
- 研究
- 研究は示唆している
- 右
- ルーツ
- ランニング
- s
- SaaSの
- 同じ
- SBOM
- スコープ
- セクター
- セキュリティ
- を求める
- と思われる
- 真剣に
- セッションに
- セット
- すべき
- シリコン
- 類似
- 同様に
- 単に
- から
- ウェブサイト
- 小さい
- So
- ソフトウェア
- ソフトウェア開発者
- 売ら
- 一部
- 時々
- 幾分
- 洗練された
- ソース
- ソース
- スペース
- 話す
- 専門家
- 仕様
- スペック
- 支出
- 広がる
- スタック
- スタック
- 開始
- 起動
- スタートアップ
- まだ
- 停止
- 流れ
- ストリート
- 強く
- 構造化された
- テーマ
- 提案する
- 供給
- サプライチェーン
- サプライチェーン
- サポート
- 驚き
- 生き残る
- がち
- システム
- 取る
- 取り
- 会話
- テクニック
- テクノロジー
- テンソルフロー
- 期間
- より
- それ
- 未来
- アプリ環境に合わせて
- それら
- その後
- そこ。
- したがって、
- ボーマン
- 彼ら
- 物事
- 考える
- 考え
- 考え
- この
- それらの
- しかし?
- 数千
- 介して
- 時間
- 〜へ
- ツール
- top
- 追跡する
- 追跡
- 伝統的な
- トラフィック
- トレーニング
- 治療
- 真に
- 試します
- しよう
- 微調整
- 2
- 不明
- 基盤
- わかる
- 残念ながら
- UNIX
- us
- 使用法
- つかいます
- 使用事例
- 中古
- ユーザー
- 多様
- ベンダー
- バージョン
- 非常に
- name
- 投票
- ました
- 波浪
- 仕方..
- 方法
- we
- WELL
- この試験は
- 何ですか
- which
- 誰
- 広く
- ワイルド
- 意志
- ウィンドウズ
- 無し
- 仕事
- ワーキング
- 世界
- 世界の
- でしょう
- 書き込み
- 年
- 年
- 貴社
- ゼファーネット