ビジネスリーダー向けの段階的な LLM 製品開発

プラトン再発行

フォロワー： 0

LLMOps テクノロジースタック

Midjourney で生成

世界中のあらゆる業界の企業が、OpenAI の ChatGPT、Anthropic の Claude、AI12Lab の Jurassic などの大規模言語モデル (LLM) の力を統合して、市場調査、顧客サービスなどの幅広いビジネスアプリケーションのパフォーマンスを向上させることを急いでいます。、コンテンツの生成。

ただし、エンタープライズ規模で LLM アプリケーションを構築するには、従来の機械学習 (ML) アプリケーションの構築とは異なるツールセットと理解が必要です。ブランドの声と信頼できるサービス品質を維持したいと考えているビジネスリーダーや経営幹部は、LLM がどのように機能するか、および LLM アプリケーションスタック内のさまざまなツールの長所と短所について理解を深める必要があります。

この記事では、ビジネス用の LLM アプリケーションを構築して実行するために必要な高レベルの戦略とツールについて重要な概要を説明します。

従来の ML 開発と LLM アプリケーションの比較

従来の機械学習モデルはタスク固有であり、異なるタスクごとに個別のモデルを構築する必要がありました。たとえば、顧客感情を分析したい場合は XNUMX つのモデルを構築する必要があり、カスタマーサポートチャットボットを構築したい場合は別のモデルを構築する必要があります。

タスク固有の ML モデルを構築およびトレーニングするこのプロセスには時間がかかり、大量のデータが必要です。これらのさまざまな ML モデルをトレーニングするために必要なデータセットの種類も、タスクによって異なります。顧客の感情を分析するモデルをトレーニングするには、対応する感情 (肯定的、否定的、中立的) でラベル付けされた顧客レビューのデータセットが必要です。モデルをトレーニングしてカスタマーサポートチャットボットを構築するには、顧客とテクニカルサポートの間の会話のデータセットが必要です。

大規模な言語モデルがこれを変えました。 LLM はテキストとコードの大規模なデータセットで事前トレーニングされているため、すぐに使用できる次のような幅広いタスクで適切に実行できます。

テキスト要約
コンテンツの作成
インタビュー
情報抽出
質問に答える
感情分析
顧客サポート
セールスサポート

LLM アプリケーションの開発プロセスは、次の XNUMX つの重要なステップに分類できます。

適切な基礎モデルを選択してください。 これは、LLM アプリケーションのパフォーマンスを定義する重要なコンポーネントです。
必要に応じてモデルをカスタマイズします。 特定のニーズを満たすために、モデルを微調整したり、追加のナレッジベースでモデルを強化したりする必要がある場合があります。
ML インフラストラクチャをセットアップします。 これには、アプリケーションの実行に必要なハードウェアとソフトウェア (つまり、半導体、チップ、クラウドホスティング、推論、展開) が含まれます。
追加のツールを使用してアプリケーションを拡張します。 これらのツールは、アプリケーションの効率、パフォーマンス、セキュリティの向上に役立ちます。

次に、対応するテクノロジースタックを見てみましょう。

この詳細な教育コンテンツがあなたに役立つ場合は、 AIメーリングリストに登録する新しい素材がリリースされたときに警告が表示されます。

高レベルの LLM アプリケーションスタック

LLM アプリケーションは、次のようないくつかの主要コンポーネント上に構築されています。

基礎モデル、特定の使用例ではカスタマイズが必要になる場合があります。
MLインフラストラクチャ クラウドプラットフォームまたは自社のハードウェアを介して十分なコンピューティングリソースを確保します。
追加ツール、データパイプライン、ベクトルデータベース、オーケストレーションツール、微調整 ML プラットフォーム、モデルパフォーマンス監視ツールなど。

LLM アプリケーションの構築とデプロイに必要なツールキットをよりよく理解できるように、これらのコンポーネントについて簡単に説明します。

基礎モデルとは何ですか?

単一の事前トレーニングされた LLM を使用すると、時間とリソースを大幅に節約できます。ただし、そのようなモデルをゼロからトレーニングすることは、タイムリーでコストのかかるプロセスであり、一部のエリートのテクノロジーリーダーを除いて、ほとんどの企業の能力を超えています。

いくつかの企業や研究チームがこれらのモデルをトレーニングし、他の企業が使用できるようにしています。主な例には、ChatGPT、Claude、Llama、Jurassic、T5 などがあります。これらの公開モデルは基礎モデルと呼ばれます。それらの一部は独自のものであり、API 呼び出しを介して有料でアクセスできます。その他はオープンソースであり、無料で使用できます。これらのモデルは、ラベルのないテキストデータの大規模なデータセットで事前トレーニングされており、クリエイティブな広告コピーの生成から、会社を代表して顧客の母国語でのコミュニケーションまで、幅広いタスクを実行できます。

基盤モデルには、プロプライエタリとオープンソースの XNUMX つの主なタイプがあります。

独自モデル これらは単一の会社または組織によって所有されており、通常は有料でのみ利用できます。独自モデルの最も一般的な例には、OpenAI の GPT モデル、Anthropic の Claude モデル、AI21 Labs の Jurassic モデルなどがあります。

オープンソースモデル 通常、使いたい人は誰でも無料で利用できます。ただし、一部のオープンソースモデルには、(1) 研究目的でのみ利用できる、(2) 一定規模の企業による商用利用のみが利用できるなど、使用に制限があります。オープンソースコミュニティは、そのような制限を設けることでモデルを「オープンソース」として認定することはできないと主張しています。それでも、無料で使用できる言語モデルの最も有名な例には、Meta の Llama モデル、アブダビの Technology Innovation Institute の Falcon モデル、Stability AI の StableLM モデルなどがあります。オープンソースモデルとそれに関連するリスクについて詳しく読むこちら.

次に、LLM アプリケーションの基礎モデルを選択する際に考慮すべきいくつかの要素について説明します。

基礎モデルの選択

LLM アプリケーションに最適な基盤モデルを選択するのは難しいプロセスになる可能性がありますが、基本的には次の XNUMX つのステップに分けることができます。

独自モデルとオープンソースモデルのどちらかを選択してください。 プロプライエタリモデルは通常、オープンソースモデルよりも大きく、機能も優れていますが、使用コストが高くつき、柔軟性に欠ける可能性があります。さらに、コードはそれほど透過的ではないため、独自モデルのパフォーマンスに関する問題のデバッグやトラブルシューティングが困難になります。一方、オープンソースモデルは通常、更新が少なく、開発者からのサポートも少なくなります。
モデルのサイズを選択してください。 通常、モデルが大きいほど、質問への回答やクリエイティブなテキストの生成など、多くの知識を必要とするタスクの実行に優れています。ただし、モデルが大きくなると、使用するための計算コストも高くなります。まず大きなモデルで実験し、モデルのパフォーマンスがユースケースにとって満足できる限り、小さなモデルに進むことができます。
特定のモデルを選択します。 まずは一般的なベンチマークを確認して、テスト対象のモデルを最終リストに挙げることができます。次に、アプリケーション固有の割り当てに対してさまざまなモデルのテストに進みます。カスタムベンチマークの場合は、次の計算を検討してください。ブルーとルージュのスコア、人間参加型アプリケーションの出力をリリースする前に、AI が生成したテキストに必要な修正の数を定量化するのに役立つ指標。

さまざまな言語モデルの違いをより深く理解するには、以下を確認してください。最も強力な言語 (LLM) とビジュアル言語モデル (VLM) の概要.

アプリケーションの基礎モデルを選択したら、パフォーマンスをさらに向上させるためにモデルをカスタマイズする必要があるかどうかを検討できます。

基礎モデルのカスタマイズ

場合によっては、特定の使用例でのパフォーマンスを向上させるために、基礎言語モデルをカスタマイズすることが必要になる場合があります。たとえば、次のような特定の項目について最適化したい場合があります。

ドメイン。法律、金融、ヘルスケアなどの特定のドメインで業務を行っている場合は、エンドユーザーのクエリをよりよく理解して応答できるように、このドメインでのモデルの語彙を強化することができます。
仕事。たとえば、モデルにマーケティングキャンペーンを生成させたい場合は、ブランド化されたマーケティングコンテンツの具体的な例をモデルに提供できます。これは、モデルが会社や対象者に適したパターンとスタイルを学習するのに役立ちます。
声のトーン。特定の声調を使用するモデルが必要な場合は、対象の言語サンプルの例を含むデータセットでモデルをカスタマイズできます。

基本言語モデルをカスタマイズするには XNUMX つの方法があります。

微調整: 約 100 ～ 500 レコードのドメイン固有のラベル付きデータセットをモデルに提供します。モデルの重みが更新されると、このデータセットで表されるタスクのパフォーマンスが向上します。
ドメイン適応: 対応するドメインからの大規模なデータコーパスを含むドメイン固有のラベルなしデータセットをモデルに提供します。この場合、モデルの重みも更新されます。
情報検索: 基礎モデルをクローズドドメインの知識で強化します。モデルは再トレーニングされず、モデルの重みは変わりません。ただし、モデルは、関連データを含むベクトルデータベースから情報を取得することができます。

最初の XNUMX つのアプローチでは、モデルを再トレーニングするために大量のコンピューティングリソースが必要ですが、これは通常、カスタマイズを管理する適切な技術的才能を持つ大企業でのみ実現可能です。小規模な企業は通常、ベクトルデータベースを通じてモデルにドメイン知識を追加するという、より一般的なアプローチを使用します。これについては、この記事の後半の LLM ツールに関するセクションで詳しく説明します。

ML インフラストラクチャをセットアップする

LLMOps ランドスケープの ML インフラストラクチャコンポーネントには、クラウドプラットフォーム、コンピューティングハードウェア、LLM のデプロイと実行に必要なその他のリソースが含まれます。このコンポーネントは、オープンソースモデルの使用を選択した場合、またはアプリケーションに合わせてモデルをカスタマイズした場合に特に関連します。この場合、必要に応じてモデルを微調整し、実行するために大量のコンピューティングリソースが必要になる場合があります。

Google Cloud Platform、Amazon Web Services、Microsoft Azure など、LLM を展開するためのサービスを提供するクラウドプラットフォームが多数あります。これらのプラットフォームは、LLM の展開と実行を容易にする次のような多くの機能を提供します。

特定のアプリケーションに合わせて微調整できる事前トレーニング済みモデル
基盤となるハードウェアとソフトウェアを管理する管理されたインフラストラクチャ
LLM の監視とデバッグのためのツールとサービス

必要なコンピューティングリソースの量は、モデルのサイズと複雑さ、モデルで実行するタスク、およびこのモデルを展開するビジネス活動の規模によって異なります。

ツールによる拡張

追加の LLM 隣接ツールを使用すると、LLM アプリケーションのパフォーマンスをさらに向上させることができます。

データパイプライン

LLM 製品でデータを使用する必要がある場合、従来のエンタープライズ AI スタックと同様に、データ前処理パイプラインが新しい技術スタックの重要な柱になります。これらのツールには、任意のソースからデータを取り込むためのコネクタ、データ変換レイヤー、ダウンストリームコネクタが含まれています。 Databricks や Snowflake などの主要なデータパイプラインプロバイダーと Unstructurald などの新しいプレーヤーにより、開発者は大規模で非常に異質な自然言語データのコーパス (例: 数千の PDF、PowerPoint プレゼンテーション、チャットログ、スクレイピングされた HTML、など) を単一のアクセスポイントに、または LLM アプリケーションでさらに使用できる単一のドキュメントに保存します。

ベクトルデータベース

大規模な言語モデルは一度に数千単語の処理に制限されているため、単独では大規模なドキュメントを効果的に処理できません。大規模なドキュメントの能力を活用するには、企業はベクトルデータベースを使用する必要があります。

ベクターデータベースは、データパイプラインを通じて受信した大規模なドキュメントを管理可能なベクター (埋め込み) に変換するストレージシステムです。 LLM アプリケーションは、これらのデータベースにクエリを実行して正しいベクトルを特定し、必要な情報のみを抽出できます。

現在利用可能な最も著名なベクターデータベースには、Pinecone、Chroma、Weaviate などがあります。

オーケストレーションツール

ユーザーがカスタマーサービスへの質問などのクエリを LLM アプリケーションに送信する場合、アプリケーションはこのクエリを言語モデルに送信する前に一連のプロンプトを作成する必要があります。言語モデルへの最終リクエストは通常、開発者によってハードコーディングされたプロンプトテンプレート、少数ショットサンプルと呼ばれる有効な出力の例、外部 API から取得された必要な情報、およびベクターデータベースから取得された関連ドキュメントのセットで構成されます。。 LangChain や LlamaIndex などの企業が提供するオーケストレーションツールは、プロンプトを管理および実行するためのすぐに使用できるフレームワークを提供することで、このプロセスを合理化するのに役立ちます。

微調整

大規模なデータセットでトレーニングされた大規模な言語モデルは、文法的に正しく、流暢なテキストを生成できます。ただし、医学や法律などの特定の分野では正確性に欠ける場合があります。ドメイン固有のデータセットでこれらのモデルを微調整することで、それらの領域の固有の特徴を内部に取り込むことができ、関連するテキストを生成する能力が強化されます。

LLM の微調整は、小規模企業にとってはコストがかかるプロセスになる可能性があります。ただし、Weights & Biases や OctoML などの企業が提供するソリューションは、合理的かつ効率的な微調整に役立ちます。これらのソリューションは、企業が独自のインフラストラクチャに投資することなく LLM を微調整するためのプラットフォームを提供します。

その他のツール

LLM アプリケーションの構築と実行に役立つツールは他にもたくさんあります。たとえば、特定のデータサンプルを使用してモデルを微調整する場合は、ラベル付けツールが必要になる場合があります。基盤モデルへのわずかな変更や顧客からのリクエストでも、プロンプトのパフォーマンスに大きな影響を与える可能性があるため、アプリケーションのパフォーマンスを監視するために特定のツールをデプロイすることもできます。最後に、モデルの安全性を監視して、嫌がらせ的なコンテンツ、危険な推奨、偏見の促進を回避するツールがあります。これらのさまざまなツールの必要性と重要性は、特定の使用例によって異なります。

LLM アプリケーション開発の次のステップは何ですか?

ここで説明した LLM 製品開発の XNUMX つのステップは、大規模な言語モデルを活用するあらゆる企業の生成 AI 戦略の重要な基盤です。これらは、詳細を実装する技術チームがいる場合でも、技術者以外のビジネスリーダーが理解することが重要です。今後、市場にある幅広い生成 AI ツールを活用する方法について、より詳細なチュートリアルを公開する予定です。今のところはできますニュースレターを購読します最新のアップデートを入手します。

このような要約記事がさらにリリースされたらお知らせします。