Scikit-LLM を使用して LLM を Scikit-learn ワークフローに簡単に統合 - KDnuggets

プラトン再発行

フォロワー： 0

Scikit-LLM を使用して LLM を Scikit-learn ワークフローに簡単に統合
DALL-E 2 によって生成された画像

テキスト分析タスクは、ニーズが常に存在するため、しばらく前から存在しています。研究は、単純な記述統計からテキスト分類、高度なテキスト生成まで、長い道のりを歩んできました。私たちの武器に大規模言語モデルが追加されたことで、私たちの作業タスクはさらにアクセスしやすくなりました。

Scikit-LLM は、LLM の機能を利用したテキスト分析アクティビティのために開発された Python パッケージです。このパッケージは、標準の Scikit-Learn パイプラインを Scikit-LLM と統合できるという点で際立っています。

では、このパッケージは何であり、どのように機能するのでしょうか?それでは始めてみましょう。

Scikit-LLM は、LLM を介してテキストデータ分析タスクを強化する Python パッケージです。開発したのは、ビーツバイト標準の Scikit-Learn ライブラリと言語モデルの力を橋渡しするのに役立ちます。 Scikit-LLM は、SKlearn ライブラリに似た API を作成したため、使用するのにそれほど問題はありません。

インストール

パッケージを使用するには、パッケージをインストールする必要があります。これを行うには、次のコードを使用できます。

pip install scikit-llm

この記事の執筆時点では、Scikit-LLM は一部の OpenAI および GPT4ALL モデルとのみ互換性があります。そのため、OpenAI モデルのみを使用することになります。ただし、コンポーネントを最初にインストールすることで GPT4ALL モデルを使用できます。

pip install scikit-llm[gpt4all]

インストール後、LLM モデルにアクセスするために OpenAI キーを設定する必要があります。

from skllm.config import SKLLMConfig

SKLLMConfig.set_openai_key("")
SKLLMConfig.set_openai_org("")

Scikit-LLM を試してみる

環境を設定して Scikit-LLM の機能をいくつか試してみましょう。 LLM が持つ能力の XNUMX つは、再トレーニングなしでテキスト分類を実行することであり、これをゼロショットと呼びます。ただし、最初はサンプルデータを使用して Few-Shot テキスト分類を試みます。

from skllm import ZeroShotGPTClassifier
from skllm.datasets import get_classification_dataset


#label: Positive, Neutral, Negative
X, y = get_classification_dataset()


#Initiate the model with GPT-3.5
clf = ZeroShotGPTClassifier(openai_model="gpt-3.5-turbo")
clf.fit(X, y)
labels = clf.predict(X)

X 変数内のテキストデータとデータセット内のラベル y のみを指定する必要があります。この場合、ラベルはポジティブ、ニュートラル、またはネガティブのセンチメントで構成されます。

ご覧のとおり、このプロセスは Scikit-Learn パッケージのフィッティングメソッドを使用する場合と似ています。ただし、Zero-Shot ではトレーニングに必ずしもデータセットが必要なわけではないことはすでにわかっています。そのため、トレーニングデータなしでラベルを提供できます。

X, _ = get_classification_dataset()

clf = ZeroShotGPTClassifier()
clf.fit(None, ["positive", "negative", "neutral"])
labels = clf.predict(X)

これは、次のコードに示すように、複数ラベル分類の場合にも拡張できます。

from skllm import MultiLabelZeroShotGPTClassifier
from skllm.datasets import get_multilabel_classification_dataset
X, _ = get_multilabel_classification_dataset()
candidate_labels = [
    "Quality",
    "Price",
    "Delivery",
    "Service",
    "Product Variety",
    "Customer Support",
    "Packaging",,
]
clf = MultiLabelZeroShotGPTClassifier(max_labels=4)
clf.fit(None, [candidate_labels])
labels = clf.predict(X)

Scikit-LLM の驚くべき点は、ユーザーが LLM の機能を一般的な Scikit-Learn パイプラインに拡張できることです。

ML パイプラインの Scikit-LLM

次の例では、Scikit-LLM をベクタライザーとして開始し、XGBoost をモデル分類子として使用する方法を示します。また、これらのステップをモデルパイプラインにラップします。

まず、データをロードし、ラベルエンコーダーを開始してラベルデータを数値に変換します。

from sklearn.preprocessing import LabelEncoder

X, y = get_classification_dataset()

le = LabelEncoder()
y_train_enc = le.fit_transform(y_train)
y_test_enc = le.transform(y_test)

次に、ベクトル化とモデルフィッティングを実行するパイプラインを定義します。次のコードでそれを行うことができます。

from sklearn.pipeline import Pipeline
from xgboost import XGBClassifier
from skllm.preprocessing import GPTVectorizer

steps = [("GPT", GPTVectorizer()), ("Clf", XGBClassifier())]
clf = Pipeline(steps)

#Fitting the dataset
clf.fit(X_train, y_train_enc)

最後に、次のコードを使用して予測を実行できます。

pred_enc = clf.predict(X_test)
preds = le.inverse_transform(pred_enc)

ご覧のとおり、Scikit-Learn パイプラインで Scikit-LLM と XGBoost を使用できます。必要なパッケージをすべて組み合わせると、予測がさらに強力になります。

モデルの微調整など、Scikit-LLM を使用して実行できるさまざまなタスクがまだあります。詳しくは、ドキュメントを確認することをお勧めします。次のオープンソースモデルを使用することもできます。 GPT4ALL 必要であれば。

Scikit-LLM は、LLM を使用した Scikit-Learn テキストデータ分析タスクを強化する Python パッケージです。この記事では、テキスト分類に Scikit-LLM を使用し、それらを機械学習パイプラインに組み合わせる方法について説明しました。

コーネリアス・ユダ・ウィジャヤ は、データサイエンスアシスタントマネージャー兼データライターです。 Allianz Indonesia でフルタイムで働いている間、彼はソーシャルメディアやライティングメディアを通じて Python とデータのヒントを共有するのが大好きです。

このトピックの詳細

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://www.kdnuggets.com/easily-integrate-llms-into-your-scikit-learn-workflow-with-scikit-llm?utm_source=rss&utm_medium=rss&utm_campaign=easily-integrate-llms-into-your-scikit-learn-workflow-with-scikit-llm

タイムスタンプ： 2023 年 12 月 21 日

より多くの KDナゲット

データサイエンスを学ぶための 5 つの無料大学コース – KDnuggets

ソースクラスター：

KDナゲット

ソースノード： 3074370

タイムスタンプ： 2024 年 1 月 18 日

基本に戻る第 4 週: 高度なトピックと展開 – KDnuggets

ソースクラスター：

KDナゲット

ソースノード： 2980746

タイムスタンプ： 2023 年 11 月 27 日

データサイエンスにおけるリサンプリング手法の役割

ソースクラスター：

KDナゲット

ソースノード： 1978908

タイムスタンプ： 2023 年 2 月 20 日

データサイエンスのパラドックス

ソースクラスター：

KDナゲット

ソースノード： 1081529

タイムスタンプ： 2021 年 9 月 17 日

分析が実際に使用されていることを確認する方法

ソースクラスター：

KDナゲット

ソースノード： 805384

タイムスタンプ： 2021 年 4 月 7 日

2021年に読むべきAI本

ソースクラスター：

KDナゲット

ソースノード： 875078

タイムスタンプ： 2021 年 5 月 27 日

データサイエンス、データエンジニアリング、機械学習、MLOps、生成 AI をマスターするための 25 の無料コース – KDnuggets

ソースクラスター：

KDナゲット

ソースノード： 3037383

タイムスタンプ： 2023 年 12 月 27 日

データ代入へのアプローチ

ソースクラスター：

KDナゲット

ソースノード： 1895750

タイムスタンプ： 2023 年 1 月 12 日

KDnuggets™ニュース21：n34、8月1000日：PythonでExcelファイルを読みますか？ XNUMX倍速い方法があります。仮説検定の説明

ソースクラスター：

KDナゲット

ソースノード： 1072201

タイムスタンプ： 2021 年 9 月 8 日

機械学習における分類のための scikit-learn の概要

ソースクラスター：

KDナゲット

ソースノード： 1780638

タイムスタンプ： 2022 年 12 月 21 日

GoogleColabでRedisを実行する

ソースクラスター：

KDナゲット

ソースノード： 1582444

タイムスタンプ： 2022 年 1 月 14 日

ニューラルネットワークとディープラーニング: 教科書 (第 2 版) – KDnuggets

ソースクラスター：

KDナゲット

ソースノード： 2769147

タイムスタンプ： 2023 年 7 月 17 日

プラトン再発行

データサイエンスにおけるリサンプリング手法の役割

分析が実際に使用されていることを確認する方法

2021年に読むべきAI本

データ代入へのアプローチ

KDnuggets™ニュース21：n34、8月1000日：PythonでExcelファイルを読みますか？ XNUMX倍速い方法があります。仮説検定の説明

GoogleColabでRedisを実行する

ニューラルネットワークとディープラーニング: 教科書 (第 2 版) – KDnuggets

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー