الصورة التي تم إنشاؤها بواسطة DALL-E 2
لقد كانت مهام تحليل النص موجودة منذ بعض الوقت حيث أن الاحتياجات موجودة دائمًا. لقد قطعت الأبحاث شوطًا طويلًا، بدءًا من إحصائيات الوصف البسيطة ووصولاً إلى تصنيف النص وإنشاء النص المتقدم. ومع إضافة نموذج اللغة الكبير إلى ترسانتنا، أصبح الوصول إلى مهام العمل لدينا أكثر سهولة.
Scikit-LLM عبارة عن حزمة Python تم تطويرها لنشاط تحليل النص بقوة LLM. برزت هذه الحزمة لأننا تمكنا من دمج مسار Scikit-Learn القياسي مع Scikit-LLM.
إذًا، ما هو موضوع هذه الحزمة، وكيف تعمل؟ دعونا ندخل في ذلك.
سيكيت-LLM عبارة عن حزمة Python لتحسين مهام تحليل البيانات النصية عبر LLM. تم تطويره بواسطة بيتسبيت للمساعدة في سد الفجوة بين مكتبة Scikit-Learn القياسية وقوة نموذج اللغة. أنشأت Scikit-LLM واجهة برمجة التطبيقات الخاصة بها لتكون مشابهة لمكتبة SKlearn، لذلك لا نواجه الكثير من المتاعب في استخدامها.
التنزيل
لاستخدام الحزمة، نحن بحاجة إلى تثبيتها. للقيام بذلك، يمكنك استخدام الكود التالي.
pip install scikit-llm
اعتبارًا من وقت كتابة هذه المقالة، كان Scikit-LLM متوافقًا فقط مع بعض نماذج OpenAI وGPT4ALL. ولهذا السبب سنعمل فقط مع نموذج OpenAI. ومع ذلك، يمكنك استخدام نموذج GPT4ALL عن طريق تثبيت المكون في البداية.
pip install scikit-llm[gpt4all]
بعد التثبيت، يجب عليك إعداد مفتاح OpenAI للوصول إلى نماذج LLM.
from skllm.config import SKLLMConfig
SKLLMConfig.set_openai_key("")
SKLLMConfig.set_openai_org("")
تجربة Scikit-LLM
دعونا نجرب بعض إمكانيات Scikit-LLM مع مجموعة البيئة. إحدى القدرات التي يتمتع بها طلاب LLM هي إجراء تصنيف النص دون إعادة التدريب، وهو ما نسميه Zero-Shot. ومع ذلك، فإننا سنحاول في البداية تصنيف نص قليل اللقطات باستخدام بيانات العينة.
from skllm import ZeroShotGPTClassifier
from skllm.datasets import get_classification_dataset
#label: Positive, Neutral, Negative
X, y = get_classification_dataset()
#Initiate the model with GPT-3.5
clf = ZeroShotGPTClassifier(openai_model="gpt-3.5-turbo")
clf.fit(X, y)
labels = clf.predict(X)
ما عليك سوى توفير البيانات النصية ضمن المتغير X والتسمية y في مجموعة البيانات. في هذه الحالة، تتكون التسمية من المشاعر، والتي تكون إيجابية أو محايدة أو سلبية.
كما ترى، فإن العملية مشابهة لاستخدام طريقة الملاءمة في حزمة Scikit-Learn. ومع ذلك، فنحن نعلم بالفعل أن Zero-Shot لم يتطلب بالضرورة مجموعة بيانات للتدريب. ولهذا السبب يمكننا تقديم التسميات بدون بيانات التدريب.
X, _ = get_classification_dataset()
clf = ZeroShotGPTClassifier()
clf.fit(None, ["positive", "negative", "neutral"])
labels = clf.predict(X)
يمكن أيضًا توسيع هذا في حالات التصنيف متعدد التسمية، والتي يمكنك رؤيتها في الكود التالي.
from skllm import MultiLabelZeroShotGPTClassifier
from skllm.datasets import get_multilabel_classification_dataset
X, _ = get_multilabel_classification_dataset()
candidate_labels = [
"Quality",
"Price",
"Delivery",
"Service",
"Product Variety",
"Customer Support",
"Packaging",,
]
clf = MultiLabelZeroShotGPTClassifier(max_labels=4)
clf.fit(None, [candidate_labels])
labels = clf.predict(X)
الأمر المذهل في Scikit-LLM هو أنه يسمح للمستخدم بتوسيع قوة LLM إلى خط أنابيب Scikit-Learn النموذجي.
Scikit-LLM في خط أنابيب ML
في المثال التالي، سأوضح كيف يمكننا بدء Scikit-LLM كمتجه واستخدام XGBoost كمصنف للنموذج. سنقوم أيضًا بلف الخطوات في مسار النموذج.
أولاً، سنقوم بتحميل البيانات وبدء تشغيل برنامج تشفير الملصقات لتحويل بيانات الملصق إلى قيمة رقمية.
from sklearn.preprocessing import LabelEncoder
X, y = get_classification_dataset()
le = LabelEncoder()
y_train_enc = le.fit_transform(y_train)
y_test_enc = le.transform(y_test)
بعد ذلك، سوف نحدد خط أنابيب لإجراء عملية التوجيه وتركيب النموذج. يمكننا أن نفعل ذلك مع الكود التالي.
from sklearn.pipeline import Pipeline
from xgboost import XGBClassifier
from skllm.preprocessing import GPTVectorizer
steps = [("GPT", GPTVectorizer()), ("Clf", XGBClassifier())]
clf = Pipeline(steps)
#Fitting the dataset
clf.fit(X_train, y_train_enc)
وأخيرًا، يمكننا إجراء التنبؤ باستخدام الكود التالي.
pred_enc = clf.predict(X_test)
preds = le.inverse_transform(pred_enc)
كما نرى، يمكننا استخدام Scikit-LLM وXGBoost ضمن مسار Scikit-Learn. إن الجمع بين جميع الحزم الضرورية من شأنه أن يجعل توقعاتنا أقوى.
لا تزال هناك العديد من المهام التي يمكنك القيام بها باستخدام Scikit-LLM، بما في ذلك الضبط الدقيق للنموذج، والذي أقترح عليك التحقق من الوثائق لمعرفة المزيد. يمكنك أيضًا استخدام النموذج مفتوح المصدر من جي بي تي 4ال اذا كان ضروري.
Scikit-LLM عبارة عن حزمة Python تعمل على تمكين مهام تحليل البيانات النصية لـ Scikit-Learn باستخدام LLM. ناقشنا في هذه المقالة كيفية استخدام Scikit-LLM لتصنيف النصوص ودمجها في مسار التعلم الآلي.
كورنليوس يودا ويجايا هو مدير مساعد لعلوم البيانات وكاتب بيانات. أثناء عمله بدوام كامل في Allianz Indonesia ، يحب مشاركة نصائح حول Python و Data عبر وسائل التواصل الاجتماعي وكتابة الوسائط.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- المصدر https://www.kdnuggets.com/easily-integrate-llms-into-your-scikit-learn-workflow-with-scikit-llm?utm_source=rss&utm_medium=rss&utm_campaign=easily-integrate-llms-into-your-scikit-learn-workflow-with-scikit-llm
- :لديها
- :يكون
- $ UP
- 12
- 13
- 20
- 7
- 9
- a
- القدرة
- من نحن
- الوصول
- يمكن الوصول
- نشاط
- إضافة
- متقدم
- الكل
- أليانز
- يسمح
- سابقا
- أيضا
- دائما
- مدهش
- تحليل
- تحليلي
- و
- API
- هي
- حول
- ارسنال
- البند
- AS
- المساعد
- At
- BE
- لان
- أصبح
- كان
- BRIDGE
- by
- دعوة
- CAN
- قدرات
- حقيبة
- الحالات
- التحقق
- تصنيف
- مو
- الكود
- دمج
- الجمع بين
- تأتي
- متوافق
- عنصر
- يتكون
- استطاع
- خلق
- زبون
- دعم العملاء
- دال
- البيانات
- تحليل البيانات
- علم البيانات
- قواعد البيانات
- حدد
- التوصيل
- وصف
- المتقدمة
- ناقش
- do
- توثيق
- هل
- لا
- بسهولة
- إمباورز
- تعزيز
- البيئة
- حتى
- مثال
- مد
- مدد
- تركيبات
- متابعيك
- في حالة
- تبدأ من
- إضافي
- ولدت
- جيل
- دولار فقط واحصل على خصم XNUMX% على جميع
- الذهاب
- يملك
- he
- مساعدة
- كيفية
- لكن
- HTML
- HTTPS
- i
- if
- استيراد
- in
- بما فيه
- أندونيسيا
- في البداية
- بدء
- تثبيت
- التركيب
- تركيب
- دمج
- إلى
- IT
- انها
- KD nuggets
- القفل
- علم
- تُشير
- ملصقات
- لغة
- كبير
- تعلم
- تعلم
- المكتبة
- لينكدين:
- تحميل
- طويل
- يحب
- آلة
- آلة التعلم
- جعل
- مدير
- الوسائط
- طريقة
- ML
- نموذج
- عارضات ازياء
- الأكثر من ذلك
- كثيرا
- يجب
- بالضرورة
- ضروري
- حاجة
- إحتياجات
- سلبي
- متعدد
- التالي
- بدون اضاءة
- of
- on
- ONE
- فقط
- المصدر المفتوح
- OpenAI
- or
- لنا
- خارج
- صفقة
- حزم
- التعبئة والتغليف
- نفذ
- خط أنابيب
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- إيجابي
- قوة
- تنبؤ
- السعر
- عملية المعالجة
- المنتج
- تزود
- بايثون
- جودة
- تطلب
- بحث
- إعادة التدريب
- علوم
- تعلم الحروف
- انظر تعريف
- عاطفة
- الخدمة
- طقم
- مشاركة
- إظهار
- مماثل
- الاشارات
- So
- العدالة
- وسائل التواصل الاجتماعي
- بعض
- معيار
- إحصائيات
- خطوات
- لا يزال
- أقوى
- اقترح
- الدعم
- المهام
- نص
- تصنيف النص
- توليد النص
- أن
- •
- منهم
- هناك.
- الوقت
- نصائح
- إلى
- جدا
- قادة الإيمان
- تحول
- مشكلة
- محاولة
- نموذجي
- مع
- تستخدم
- مستخدم
- استخدام
- قيمنا
- متغير
- تشكيلة
- مختلف
- بواسطة
- وكان
- طريق..
- we
- ابحث عن
- ما هي تفاصيل
- التي
- في حين
- لماذا
- سوف
- مع
- في غضون
- بدون
- للعمل
- سير العمل
- عامل
- سوف
- التفاف
- كاتب
- جاري الكتابة
- مكتوب
- X
- XGBoost
- لصحتك!
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت