DALL-E 2 によって生成された画像
テキスト分析タスクは、ニーズが常に存在するため、しばらく前から存在しています。研究は、単純な記述統計からテキスト分類、高度なテキスト生成まで、長い道のりを歩んできました。私たちの武器に大規模言語モデルが追加されたことで、私たちの作業タスクはさらにアクセスしやすくなりました。
Scikit-LLM は、LLM の機能を利用したテキスト分析アクティビティのために開発された Python パッケージです。このパッケージは、標準の Scikit-Learn パイプラインを Scikit-LLM と統合できるという点で際立っています。
では、このパッケージは何であり、どのように機能するのでしょうか?それでは始めてみましょう。
Scikit-LLM は、LLM を介してテキスト データ分析タスクを強化する Python パッケージです。開発したのは、 ビーツバイト 標準の Scikit-Learn ライブラリと言語モデルの力を橋渡しするのに役立ちます。 Scikit-LLM は、SKlearn ライブラリに似た API を作成したため、使用するのにそれほど問題はありません。
インストール
パッケージを使用するには、パッケージをインストールする必要があります。これを行うには、次のコードを使用できます。
pip install scikit-llm
この記事の執筆時点では、Scikit-LLM は一部の OpenAI および GPT4ALL モデルとのみ互換性があります。そのため、OpenAI モデルのみを使用することになります。ただし、コンポーネントを最初にインストールすることで GPT4ALL モデルを使用できます。
pip install scikit-llm[gpt4all]
インストール後、LLM モデルにアクセスするために OpenAI キーを設定する必要があります。
from skllm.config import SKLLMConfig
SKLLMConfig.set_openai_key("")
SKLLMConfig.set_openai_org("")
Scikit-LLM を試してみる
環境を設定して Scikit-LLM の機能をいくつか試してみましょう。 LLM が持つ能力の XNUMX つは、再トレーニングなしでテキスト分類を実行することであり、これをゼロショットと呼びます。ただし、最初はサンプル データを使用して Few-Shot テキスト分類を試みます。
from skllm import ZeroShotGPTClassifier
from skllm.datasets import get_classification_dataset
#label: Positive, Neutral, Negative
X, y = get_classification_dataset()
#Initiate the model with GPT-3.5
clf = ZeroShotGPTClassifier(openai_model="gpt-3.5-turbo")
clf.fit(X, y)
labels = clf.predict(X)
X 変数内のテキスト データとデータセット内のラベル y のみを指定する必要があります。この場合、ラベルはポジティブ、ニュートラル、またはネガティブのセンチメントで構成されます。
ご覧のとおり、このプロセスは Scikit-Learn パッケージのフィッティング メソッドを使用する場合と似ています。ただし、Zero-Shot ではトレーニングに必ずしもデータセットが必要なわけではないことはすでにわかっています。そのため、トレーニング データなしでラベルを提供できます。
X, _ = get_classification_dataset()
clf = ZeroShotGPTClassifier()
clf.fit(None, ["positive", "negative", "neutral"])
labels = clf.predict(X)
これは、次のコードに示すように、複数ラベル分類の場合にも拡張できます。
from skllm import MultiLabelZeroShotGPTClassifier
from skllm.datasets import get_multilabel_classification_dataset
X, _ = get_multilabel_classification_dataset()
candidate_labels = [
"Quality",
"Price",
"Delivery",
"Service",
"Product Variety",
"Customer Support",
"Packaging",,
]
clf = MultiLabelZeroShotGPTClassifier(max_labels=4)
clf.fit(None, [candidate_labels])
labels = clf.predict(X)
Scikit-LLM の驚くべき点は、ユーザーが LLM の機能を一般的な Scikit-Learn パイプラインに拡張できることです。
ML パイプラインの Scikit-LLM
次の例では、Scikit-LLM をベクタライザーとして開始し、XGBoost をモデル分類子として使用する方法を示します。また、これらのステップをモデル パイプラインにラップします。
まず、データをロードし、ラベル エンコーダーを開始してラベル データを数値に変換します。
from sklearn.preprocessing import LabelEncoder
X, y = get_classification_dataset()
le = LabelEncoder()
y_train_enc = le.fit_transform(y_train)
y_test_enc = le.transform(y_test)
次に、ベクトル化とモデル フィッティングを実行するパイプラインを定義します。次のコードでそれを行うことができます。
from sklearn.pipeline import Pipeline
from xgboost import XGBClassifier
from skllm.preprocessing import GPTVectorizer
steps = [("GPT", GPTVectorizer()), ("Clf", XGBClassifier())]
clf = Pipeline(steps)
#Fitting the dataset
clf.fit(X_train, y_train_enc)
最後に、次のコードを使用して予測を実行できます。
pred_enc = clf.predict(X_test)
preds = le.inverse_transform(pred_enc)
ご覧のとおり、Scikit-Learn パイプラインで Scikit-LLM と XGBoost を使用できます。必要なパッケージをすべて組み合わせると、予測がさらに強力になります。
モデルの微調整など、Scikit-LLM を使用して実行できるさまざまなタスクがまだあります。詳しくは、ドキュメントを確認することをお勧めします。次のオープンソース モデルを使用することもできます。 GPT4ALL 必要であれば。
Scikit-LLM は、LLM を使用した Scikit-Learn テキスト データ分析タスクを強化する Python パッケージです。この記事では、テキスト分類に Scikit-LLM を使用し、それらを機械学習パイプラインに組み合わせる方法について説明しました。
コーネリアス・ユダ・ウィジャヤ は、データ サイエンス アシスタント マネージャー兼データ ライターです。 Allianz Indonesia でフルタイムで働いている間、彼はソーシャル メディアやライティング メディアを通じて Python とデータのヒントを共有するのが大好きです。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://www.kdnuggets.com/easily-integrate-llms-into-your-scikit-learn-workflow-with-scikit-llm?utm_source=rss&utm_medium=rss&utm_campaign=easily-integrate-llms-into-your-scikit-learn-workflow-with-scikit-llm
- :持っている
- :は
- $UP
- 12
- 13
- 20
- 7
- 9
- a
- 能力
- 私たちについて
- アクセス
- アクセス可能な
- アクティビティ
- 添加
- 高度な
- すべて
- アリアンツ
- ことができます
- 既に
- また
- 常に
- 驚くべき
- 分析
- 分析的
- および
- API
- です
- 周りに
- アーセナル
- 記事
- AS
- アシスタント
- At
- BE
- なぜなら
- になる
- き
- BRIDGE
- by
- コール
- 缶
- 機能
- 場合
- 例
- チェック
- 分類
- CLF
- コード
- 組み合わせる
- 結合
- 来ます
- 互換性のあります
- コンポーネント
- からなる
- 可能性
- 作成した
- 顧客
- カスタマーサービス
- ドール
- データ
- データ分析
- データサイエンス
- データセット
- 定義します
- 配達
- 説明
- 発展した
- 議論する
- do
- ドキュメント
- ありません
- ドント
- 簡単に
- 力を与える
- 高めます
- 環境
- さらに
- 例
- 伸ばす
- で
- フィッティング
- フォロー中
- から
- さらに
- 生成された
- 世代
- 取得する
- 行く
- 持ってる
- he
- 助けます
- 認定条件
- しかしながら
- HTML
- HTTPS
- i
- if
- import
- in
- 含めて
- インドネシア
- 当初
- 開始する
- install
- インストール
- インストールする
- 統合する
- に
- IT
- ITS
- KDナゲット
- キー
- 知っている
- ラベル
- ラベル
- 言語
- 大
- LEARN
- 学習
- 図書館
- 負荷
- 長い
- で
- 機械
- 機械学習
- make
- マネージャー
- メディア
- 方法
- ML
- モデル
- 他には?
- ずっと
- しなければなりません
- 必ずしも
- 必要
- 必要
- ニーズ
- 負
- 普通
- 次の
- なし
- of
- on
- ONE
- の
- オープンソース
- OpenAI
- or
- 私たちの
- でる
- パッケージ
- パッケージ
- 包装
- 実行する
- パイプライン
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 正の
- 電力
- 予測
- ブランド
- プロセス
- プロダクト
- 提供します
- Python
- 品質
- 必要とする
- 研究
- 再訓練
- 科学
- scikit-学ぶ
- 感情
- サービス
- セッションに
- シェアする
- 表示する
- 同様の
- 簡単な拡張で
- So
- 社会
- ソーシャルメディア
- 一部
- 標準
- 統計
- ステップ
- まだ
- 強い
- 示唆する
- サポート
- タスク
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- テキスト分類
- テキスト生成
- それ
- それら
- そこ。
- この
- 時間
- ヒント
- 〜へ
- あまりに
- トレーニング
- 最適化の適用
- トラブル
- 試します
- 典型的な
- 下
- つかいます
- ユーザー
- 値
- 変数
- 多様
- さまざまな
- 、
- ました
- 仕方..
- we
- この試験は
- 何ですか
- which
- while
- なぜ
- 意志
- 以内
- 無し
- 仕事
- ワークフロー
- ワーキング
- でしょう
- ラップ
- 作家
- 書き込み
- 書かれた
- X
- XGブースト
- 貴社
- あなたの
- ゼファーネット