تصوير ميكيتشي إسباراغوزا
في كل يوم ، نتعامل في معظم الأوقات مع نص غير مسمى ولا يمكن استخدام خوارزميات التعلم الخاضعة للإشراف على الإطلاق لاستخراج المعلومات من البيانات. يمكن أن يكشف حقل فرعي للغة الطبيعية عن البنية الأساسية بكميات كبيرة من النص. يسمى هذا التخصص بنمذجة الموضوع ، وهو متخصص في استخراج الموضوعات من النص.
في هذا السياق ، أثبتت الأساليب التقليدية ، مثل تخصيص Latent Dirichlet وعامل المصفوفة غير السلبي ، أنها لا تلتقط العلاقات بين الكلمات بشكل جيد لأنها تستند إلى حقيبة من الكلمات.
لهذا السبب ، سنركز على طريقتين واعدتين ، Top2Vec و BERTopic ، التي تعالج هذه العيوب من خلال استغلال نماذج اللغة المدربة مسبقًا لإنشاء موضوعات. هيا بنا نبدأ!
Top2Vec هو نموذج قادر على اكتشاف المواضيع تلقائيًا من النص باستخدام متجهات الكلمات المدربة مسبقًا وإنشاء موضوعات ووثائق ومتجهات كلمات مضمنة ذات مغزى.
في هذا النهج ، يمكن تقسيم إجراء استخراج الموضوعات إلى خطوات مختلفة:
- إنشاء التضمين الدلالي: يتم إنشاء متجهات المستندات والكلمات المضمنة بشكل مشترك. الفكرة هي أن المستندات المماثلة يجب أن تكون أقرب في مساحة التضمين ، بينما يجب أن تكون المستندات غير المتشابهة بعيدة بينهما.
- قم بتقليل أبعاد دمج المستند: يعد تطبيق نهج تقليل الأبعاد مهمًا للحفاظ على معظم التباين في تضمين المستندات مع تقليل المساحة عالية الأبعاد. علاوة على ذلك ، فإنه يسمح بتحديد المناطق الكثيفة ، حيث تمثل كل نقطة متجهًا للمستند. UMAP هو النهج النموذجي لتقليل الأبعاد المختار في هذه الخطوة لأنه قادر على الحفاظ على البنية المحلية والعالمية للبيانات عالية الأبعاد.
- تحديد مجموعات المستندات: يتم تطبيق HDBScan ، وهو نهج تجميع قائم على الكثافة ، للعثور على مناطق كثيفة من المستندات المماثلة. يتم تعيين كل مستند كضوضاء إذا لم يكن في مجموعة كثيفة ، أو تسمية إذا كانت تنتمي إلى منطقة كثيفة.
- احسب النقطه الوسطى في مساحة التضمين الاصليه: يتم حساب النقطه الوسطى من خلال النظر في الفضاء عالي الابعاد ، بدلا من تقليل مساحة التضمين. تتمثل الإستراتيجية الكلاسيكية في حساب المتوسط الحسابي لجميع متجهات المستندات التي تنتمي إلى منطقة كثيفة ، والتي تم الحصول عليها في الخطوة السابقة باستخدام HDBSCAN. بهذه الطريقة ، يتم إنشاء متجه موضوع لكل مجموعة.
- ابحث عن كلمات لكل متجه موضوع: متجهات الكلمات الأقرب إلى متجه المستند هي الأكثر تمثيلا من الناحية المعنوية.
مثال على Top2Vec
في هذا البرنامج التعليمي ، سنقوم بتحليل المراجعات السلبية لماكدونالدز من مجموعة بيانات متوفرة على عالم البيانات. يمكن أن يكون تحديد الموضوعات من هذه المراجعات مفيدًا للشركات متعددة الجنسيات لتحسين المنتجات وتنظيم سلسلة الوجبات السريعة هذه في مواقع الولايات المتحدة الأمريكية التي توفرها البيانات.
import pandas as pd
from top2vec import Top2Vec file_path = "McDonalds-Yelp-Sentiment-DFE.csv"
df = pd.read_csv( file_path, usecols=["_unit_id", "city", "review"], encoding="unicode_escape",
)
df.head()
docs_bad = df["review"].values.tolist()
في سطر واحد من التعليمات البرمجية ، سنقوم بتنفيذ جميع خطوات top2vec الموضحة مسبقًا.
topic_model = Top2Vec( docs_bad, embedding_model="universal-sentence-encoder", speed="deep-learn", tokenizer=tok, ngram_vocab=True, ngram_vocab_args={"connector_words": "phrases.ENGLISH_CONNECTOR_WORDS"},
)
الحجج الرئيسية لـ Top2Vec هي:
- docs_bad: قائمة السلاسل.
- مُشفِّر الجملة الشامل: هو نموذج التضمين المختار مسبقًا.
- التعلم العميق: معلمة تحدد جودة ناقل المستند المنتج.
topic_model.get_num_topics() #3
topic_words, word_scores, topic_nums = topic_model.get_topics(3) for topic in topic_nums: topic_model.generate_topic_wordcloud(topic)
أكثر
من كلمة السحب ، يمكننا أن نستنتج أن الموضوع 0 يتعلق بالشكاوى العامة حول الخدمة في ماكدونالد ، مثل "الخدمة البطيئة" و "الخدمة الرهيبة" و "الطلب الخاطئ" ، بينما يشير الموضوعان 1 و 2 على التوالي إلى طعام الإفطار ( ماك مافن ، بسكويت ، بيض) وقهوة (قهوة مثلجة وكوب قهوة).
الآن ، نحاول البحث في المستندات باستخدام كلمتين رئيسيتين ، خاطئة وبطيئة:
( documents, document_scores, document_ids,
) = topic_model.search_documents_by_keywords( keywords=["wrong", "slow"], num_docs=5
)
for doc, score, doc_id in zip(documents, document_scores, document_ids): print(f"Document: {doc_id}, Score: {score}") print("-----------") print(doc) print("-----------") print()
الإخراج:
Document: 707, Score: 0.5517634093633295
-----------
horrible.... that is all. do not go there.
----------- Document: 930, Score: 0.4242547340973836
-----------
no drive through :-/
----------- Document: 185, Score: 0.39162203345993046
-----------
the drive through line is terrible. they are painfully slow.
----------- Document: 181, Score: 0.3775083338082392
-----------
awful service and extremely slow. go elsewhere.
----------- Document: 846, Score: 0.35400602635951994
-----------
they have bad service and very rude
-----------
"BERTopic هي تقنية نمذجة موضوعية تستفيد من المحولات و c-TF-IDF لإنشاء مجموعات كثيفة تسمح بمواضيع يمكن تفسيرها بسهولة مع الاحتفاظ بالكلمات المهمة في أوصاف الموضوع."
كما يوحي الاسم ، يستخدم BERTopic نماذج محولات قوية لتحديد الموضوعات الموجودة في النص. سمة أخرى لخوارزمية نمذجة هذا الموضوع هي استخدام متغير من TF-IDF ، يسمى التباين القائم على الفئة لـ TF-IDF.
مثل Top2Vec ، لا يحتاج إلى معرفة عدد الموضوعات ، لكنه يستخرج المواضيع تلقائيًا.
علاوة على ذلك ، على غرار Top2Vec ، فهي عبارة عن خوارزمية تتضمن مراحل مختلفة. الخطوات الثلاث الأولى هي نفسها: إنشاء مستندات التضمين وتقليل الأبعاد باستخدام UMAP والتجميع باستخدام HDBScan.
تبدأ المراحل المتتالية في التباعد عن Top2Vec. بعد العثور على المناطق الكثيفة باستخدام HDBSCAN ، يتم ترميز كل موضوع في تمثيل كيس من الكلمات ، والذي يأخذ في الاعتبار ما إذا كانت الكلمة تظهر في المستند أم لا. بعد اعتبار الوثائق التي تنتمي إلى مجموعة وثيقة فريدة ويتم تطبيق TF-IDF. لذلك ، لكل موضوع ، نحدد الكلمات الأكثر صلة ، والتي يجب أن تحتوي على أعلى c-TF-IDF.
مثال على BERTopic
نكرر التحليل على نفس مجموعة البيانات.
سنقوم باستخراج الموضوعات من المراجعات باستخدام BERTopic:
model_path_bad = 'model/bert_bad'
topic_model_bad = train_bert(docs_bad,model_path_bad)
freq_df = topic_model_bad.get_topic_info()
print("Number of topics: {}".format( len(freq_df)))
freq_df['Percentage'] = round(freq_df['Count']/freq_df['Count'].sum() * 100,2)
freq_df = freq_df.iloc[:,[0,1,3,2]]
freq_df.head()
الجدول الذي يعرضه النموذج يوفر معلومات حول 14 موضوعًا تم استخراجه. يتوافق الموضوع مع معرف الموضوع ، باستثناء كل القيم المتطرفة التي يتم تجاهلها والتي تم تصنيفها كـ -1.
الآن ، سننتقل إلى الجزء الأكثر إثارة للاهتمام فيما يتعلق بتصور موضوعاتنا في رسوم بيانية تفاعلية ، مثل تصور المصطلحات الأكثر صلة بكل موضوع ، وخريطة المسافة البينية ، والتمثيل ثنائي الأبعاد لمساحة التضمين و التسلسل الهرمي للموضوع.
لنبدأ في عرض المخططات الشريطية للمواضيع العشرة الأولى. لكل موضوع ، يمكننا ملاحظة الكلمات الأكثر أهمية ، مرتبة بترتيب تنازلي بناءً على درجة c-TF-IDF. كلما زادت أهمية الكلمة ، زادت النتيجة.
يحتوي الموضوع الأول على كلمات عامة ، مثل الموقع والطعام ، والموضوع 1 الطلب والانتظار ، والموضوع 2 أسوأ وخدمة ، والموضوع 3 مكان وقذرة ، والإعلان وما إلى ذلك.
بعد تصور المخططات الشريطية ، حان الوقت لإلقاء نظرة على خريطة المسافة بين الأجزاء. نقوم بتقليل أبعاد درجة c-TF-IDF إلى مساحة ثنائية الأبعاد لتصور الموضوعات في المؤامرة. يوجد في الجزء السفلي شريط تمرير يسمح بتحديد الموضوع الذي سيتم تلوينه باللون الأحمر. يمكننا أن نلاحظ أن الموضوعات مجمعة في مجموعتين مختلفتين ، إحداهما ذات موضوعات عامة مثل الطعام والدجاج والموقع ، والأخرى لها جوانب سلبية مختلفة ، مثل أسوأ خدمة ، وقذرة ، ومكان وبارد.
يسمح الرسم البياني التالي برؤية العلاقة بين المراجعات والموضوعات. على وجه الخصوص ، قد يكون من المفيد فهم سبب تخصيص مراجعة لموضوع معين ومواءمتها مع الكلمات الأكثر صلة الموجودة. على سبيل المثال ، يمكننا التركيز على المجموعة الحمراء ، المقابلة للموضوع 2 ببعض الكلمات حول أسوأ خدمة. المستندات داخل هذه المنطقة الكثيفة تبدو سلبية تمامًا ، مثل "خدمة عملاء فظيعة وطعام أسوأ".
للوهلة الأولى ، تشترك هذه الأساليب في العديد من الجوانب ، مثل العثور تلقائيًا على عدد الموضوعات ، وعدم الحاجة إلى المعالجة المسبقة في معظم الحالات ، وتطبيق UMAP لتقليل أبعاد عمليات دمج المستندات ، ثم يتم استخدام HDBSCAN في نمذجة هذه الزخارف المخفّضة للمستندات ، لكنها تختلف اختلافًا جوهريًا عند النظر إلى طريقة تخصيص الموضوعات للوثائق.
ينشئ Top2Vec تمثيلات للموضوع من خلال البحث عن الكلمات الموجودة بالقرب من النقطه الوسطى للعنقود.
بشكل مختلف عن Top2Vec ، لا يأخذ BERTopic في الحسبان النقطه الوسطى للعنقود ، ولكنه يعتبر جميع المستندات الموجودة في المجموعة كمستند فريد ويستخرج تمثيلات الموضوع باستخدام تباين قائم على الفئة لـ TF-IDF.
Top2Vec | بيرتوب |
استراتيجية استخراج الموضوعات بناءً على النقط الوسطى للعنقود. | استراتيجية استخراج الموضوعات على أساس c-TF-IDF. |
لا يدعم نمذجة الموضوع الديناميكي. | وهو يدعم نمذجة الموضوع الديناميكي. |
يقوم بإنشاء سحابات كلمات لكل موضوع ويوفر أدوات بحث عن الموضوعات والمستندات والكلمات. | يسمح ببناء مؤامرات التصور التفاعلي ، مما يسمح بتفسير الموضوعات المستخرجة. |
يعد Topic Modeling مجالًا متناميًا لمعالجة اللغة الطبيعية وهناك العديد من التطبيقات الممكنة ، مثل المراجعات والصوت ومنشورات الوسائط الاجتماعية. كما تم توضيحه ، تقدم هذه المقالة لمحات عامة عن Topi2Vec و BERTopic ، وهما نهجان واعدان ، يمكن أن تساعدك على تحديد الموضوعات ذات الأسطر القليلة من التعليمات البرمجية وتفسير النتائج من خلال تصورات البيانات. إذا كانت لديك أسئلة حول هذه الأساليب أو لديك اقتراحات أخرى حول الأساليب الأخرى لاكتشاف الموضوعات ، فاكتبها في التعليقات.
يوجينيا أنيلو يعمل حاليًا زميلًا باحثًا في قسم هندسة المعلومات بجامعة بادوفا بإيطاليا. يركز مشروعها البحثي على التعلم المستمر جنبًا إلى جنب مع اكتشاف الشذوذ.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. الوصول هنا.
- المصدر https://www.kdnuggets.com/2023/01/topic-modeling-approaches-top2vec-bertopic.html?utm_source=rss&utm_medium=rss&utm_campaign=topic-modeling-approaches-top2vec-vs-bertopic
- 1
- 10
- 100
- 7
- a
- ماهرون
- من نحن
- حسابي
- Ad
- العنوان
- بعد
- خوارزمية
- خوارزميات
- الانحياز
- الكل
- توزيع
- السماح
- يسمح
- المبالغ
- تحليل
- تحليل
- و
- إكتشاف عيب خلقي
- آخر
- تطبيق
- التطبيقات
- تطبيقي
- نهج
- اقتراب
- المنطقة
- المناطق
- الحجج
- البند
- الجوانب
- تعيين
- سمعي
- تلقائيا
- متاح
- سيئة
- شريط
- على أساس
- لان
- ما بين
- الملابس السفلية
- الإفطار
- ابني
- يبني
- حساب
- تسمى
- لا تستطيع
- قادر على
- أسر
- الحالات
- سلسلة
- مميز
- الرسوم البيانية
- اختيار
- المدينة
- كلاسيكي
- اغلاق
- أقرب
- كتلة
- المجموعات
- الكود
- قهوة
- الجمع بين
- تعليقات
- مشترك
- شكاوي
- نظرت
- النظر
- يحتوي
- سياق الكلام
- تقليدي
- المقابلة
- يتوافق
- خلق
- خلق
- يخلق
- خلق
- خلق
- كوب
- حاليا
- زبون
- خدمة العملاء
- البيانات
- يوم
- تعامل
- تظاهر
- القسم
- كشف
- يحدد
- مختلف
- مسافة
- بعيد
- تباعد
- وثيقة
- وثائق
- لا
- عيوب
- قيادة
- من خلال القيادة
- ديناميكي
- كل
- بسهولة
- في مكان آخر
- جزءا لا يتجزأ من
- الهندسة
- حتى
- مثال
- إلا
- شرح
- استخراج
- مقتطفات
- جدا
- FAST
- زميل
- قليل
- حقل
- العثور على
- الاسم الأول
- تركز
- ركز
- طعام
- وجدت
- تبدأ من
- في الأساس
- العلاجات العامة
- توليد
- ولدت
- دولار فقط واحصل على خصم XNUMX% على جميع
- العالمية
- Go
- الذهاب
- رسم بياني
- الرسوم البيانية
- متزايد
- مساعدة
- تسلسل
- مرتفع
- أعلى
- أعلى
- HTTPS
- فكرة
- هوية
- معرف
- تحديد
- تحديد
- استيراد
- أهمية
- تحسن
- in
- معلومات
- بدلًا من ذلك
- التفاعلية
- وكتابة مواضيع مثيرة للاهتمام
- ترجمة
- IT
- إيطاليا
- KD nuggets
- حفظ
- علم
- تُشير
- لغة
- كبير
- تعلم
- روافع
- خط
- خطوط
- لينكدين:
- قائمة
- محلي
- تقع
- موقع
- المواقع
- بحث
- أبحث
- الرئيسية
- كثير
- رسم خريطة
- مصفوفة
- ماكدونالد
- ذات مغزى
- الوسائط
- نموذج
- تصميم
- تصميم
- عارضات ازياء
- الأكثر من ذلك
- أكثر
- متعدد الجنسيات
- الاسم
- طبيعي
- اللغة الطبيعية
- معالجة اللغات الطبيعية
- حاجة
- سلبي
- التالي
- ضجيج
- عدد
- كثير
- رصد
- تم الحصول عليها
- ONE
- طلب
- منظمة
- أصلي
- أخرى
- الباندا
- المعلمة
- جزء
- خاص
- نسبة مئوية
- نفذ
- عبارات
- المكان
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- البوينت
- ممكن
- المنشورات
- قوي
- يقدم
- سابق
- سابقا
- معالجة
- أنتج
- المنتجات
- تنفيذ المشاريع
- واعد
- المقدمة
- ويوفر
- جودة
- الأسئلة المتكررة
- سبب
- أحمر
- تخفيض
- عقار مخفض
- تقليص
- بخصوص
- صلة
- العلاقات
- ذات الصلة
- كرر
- التمثيل
- ممثل
- يمثل
- بحث
- النتائج
- كشف
- مراجعة
- التقييمات
- نفسه
- بحث
- البحث
- اختيار
- الخدمة
- ينبغي
- إظهار
- أظهرت
- مشهد
- مماثل
- وبالمثل
- منذ
- عزباء
- المنزلق
- بطيء
- So
- العدالة
- وسائل التواصل الاجتماعي
- منشورات مواقع التواصل الاجتماعي
- بعض
- الفضاء
- متخصص
- محدد
- انقسم
- خطوة
- خطوات
- الإستراتيجيات
- بناء
- هذه
- وتقترح
- التعلم تحت إشراف
- الدعم
- الدعم
- جدول
- أخذ
- يأخذ
- تقنيات
- عشرة
- سياسة الحجب وتقييد الوصول
- •
- هناك.
- ثلاثة
- عبر
- الوقت
- إلى
- المرمز
- أدوات
- تيشرت
- العشرة الأوائل
- موضوع
- المواضيع
- محولات
- البرنامج التعليمي
- نموذجي
- التي تقوم عليها
- فهم
- فريد من نوعه
- جامعة
- الولايات المتحدة الأميركية
- تستخدم
- القيمة
- القيم
- متنوع
- التصور
- انتظر
- التي
- في حين
- في حين
- سوف
- في غضون
- كلمة
- كلمات
- أسوأ
- اكتب
- خاطئ
- زفيرنت