مناهج نمذجة الموضوع: Top2Vec Vs BERTopic

أعاد نشره أفلاطون

المتابعون: 0

مناهج نمذجة الموضوع: Top2Vec مقابل BERTopic
تصوير ميكيتشي إسباراغوزا

في كل يوم ، نتعامل في معظم الأوقات مع نص غير مسمى ولا يمكن استخدام خوارزميات التعلم الخاضعة للإشراف على الإطلاق لاستخراج المعلومات من البيانات. يمكن أن يكشف حقل فرعي للغة الطبيعية عن البنية الأساسية بكميات كبيرة من النص. يسمى هذا التخصص بنمذجة الموضوع ، وهو متخصص في استخراج الموضوعات من النص.

في هذا السياق ، أثبتت الأساليب التقليدية ، مثل تخصيص Latent Dirichlet وعامل المصفوفة غير السلبي ، أنها لا تلتقط العلاقات بين الكلمات بشكل جيد لأنها تستند إلى حقيبة من الكلمات.

لهذا السبب ، سنركز على طريقتين واعدتين ، Top2Vec و BERTopic ، التي تعالج هذه العيوب من خلال استغلال نماذج اللغة المدربة مسبقًا لإنشاء موضوعات. هيا بنا نبدأ!

Top2Vec هو نموذج قادر على اكتشاف المواضيع تلقائيًا من النص باستخدام متجهات الكلمات المدربة مسبقًا وإنشاء موضوعات ووثائق ومتجهات كلمات مضمنة ذات مغزى.

في هذا النهج ، يمكن تقسيم إجراء استخراج الموضوعات إلى خطوات مختلفة:

إنشاء التضمين الدلالي: يتم إنشاء متجهات المستندات والكلمات المضمنة بشكل مشترك. الفكرة هي أن المستندات المماثلة يجب أن تكون أقرب في مساحة التضمين ، بينما يجب أن تكون المستندات غير المتشابهة بعيدة بينهما.
قم بتقليل أبعاد دمج المستند: يعد تطبيق نهج تقليل الأبعاد مهمًا للحفاظ على معظم التباين في تضمين المستندات مع تقليل المساحة عالية الأبعاد. علاوة على ذلك ، فإنه يسمح بتحديد المناطق الكثيفة ، حيث تمثل كل نقطة متجهًا للمستند. UMAP هو النهج النموذجي لتقليل الأبعاد المختار في هذه الخطوة لأنه قادر على الحفاظ على البنية المحلية والعالمية للبيانات عالية الأبعاد.
تحديد مجموعات المستندات: يتم تطبيق HDBScan ، وهو نهج تجميع قائم على الكثافة ، للعثور على مناطق كثيفة من المستندات المماثلة. يتم تعيين كل مستند كضوضاء إذا لم يكن في مجموعة كثيفة ، أو تسمية إذا كانت تنتمي إلى منطقة كثيفة.
احسب النقطه الوسطى في مساحة التضمين الاصليه: يتم حساب النقطه الوسطى من خلال النظر في الفضاء عالي الابعاد ، بدلا من تقليل مساحة التضمين. تتمثل الإستراتيجية الكلاسيكية في حساب المتوسط الحسابي لجميع متجهات المستندات التي تنتمي إلى منطقة كثيفة ، والتي تم الحصول عليها في الخطوة السابقة باستخدام HDBSCAN. بهذه الطريقة ، يتم إنشاء متجه موضوع لكل مجموعة.
ابحث عن كلمات لكل متجه موضوع: متجهات الكلمات الأقرب إلى متجه المستند هي الأكثر تمثيلا من الناحية المعنوية.

مثال على Top2Vec

في هذا البرنامج التعليمي ، سنقوم بتحليل المراجعات السلبية لماكدونالدز من مجموعة بيانات متوفرة على عالم البيانات. يمكن أن يكون تحديد الموضوعات من هذه المراجعات مفيدًا للشركات متعددة الجنسيات لتحسين المنتجات وتنظيم سلسلة الوجبات السريعة هذه في مواقع الولايات المتحدة الأمريكية التي توفرها البيانات.

import pandas as pd
from top2vec import Top2Vec file_path = "McDonalds-Yelp-Sentiment-DFE.csv"
df = pd.read_csv( file_path, usecols=["_unit_id", "city", "review"], encoding="unicode_escape",
)
df.head()
docs_bad = df["review"].values.tolist()

مناهج نمذجة الموضوع: Top2Vec مقابل BERTopic

في سطر واحد من التعليمات البرمجية ، سنقوم بتنفيذ جميع خطوات top2vec الموضحة مسبقًا.

topic_model = Top2Vec( docs_bad, embedding_model="universal-sentence-encoder", speed="deep-learn", tokenizer=tok, ngram_vocab=True, ngram_vocab_args={"connector_words": "phrases.ENGLISH_CONNECTOR_WORDS"},
)

الحجج الرئيسية لـ Top2Vec هي:

docs_bad: قائمة السلاسل.
مُشفِّر الجملة الشامل: هو نموذج التضمين المختار مسبقًا.
التعلم العميق: معلمة تحدد جودة ناقل المستند المنتج.

topic_model.get_num_topics() #3
topic_words, word_scores, topic_nums = topic_model.get_topics(3) for topic in topic_nums: topic_model.generate_topic_wordcloud(topic)

أكثر

مناهج نمذجة الموضوع: Top2Vec مقابل BERTopic

من كلمة السحب ، يمكننا أن نستنتج أن الموضوع 0 يتعلق بالشكاوى العامة حول الخدمة في ماكدونالد ، مثل "الخدمة البطيئة" و "الخدمة الرهيبة" و "الطلب الخاطئ" ، بينما يشير الموضوعان 1 و 2 على التوالي إلى طعام الإفطار ( ماك مافن ، بسكويت ، بيض) وقهوة (قهوة مثلجة وكوب قهوة).

الآن ، نحاول البحث في المستندات باستخدام كلمتين رئيسيتين ، خاطئة وبطيئة:

( documents, document_scores, document_ids,
) = topic_model.search_documents_by_keywords( keywords=["wrong", "slow"], num_docs=5
)
for doc, score, doc_id in zip(documents, document_scores, document_ids): print(f"Document: {doc_id}, Score: {score}") print("-----------") print(doc) print("-----------") print()

الإخراج:

Document: 707, Score: 0.5517634093633295
-----------
horrible.... that is all. do not go there.
----------- Document: 930, Score: 0.4242547340973836
-----------
no drive through :-/
----------- Document: 185, Score: 0.39162203345993046
-----------
the drive through line is terrible. they are painfully slow.
----------- Document: 181, Score: 0.3775083338082392
-----------
awful service and extremely slow. go elsewhere.
----------- Document: 846, Score: 0.35400602635951994
-----------
they have bad service and very rude
-----------

"BERTopic هي تقنية نمذجة موضوعية تستفيد من المحولات و c-TF-IDF لإنشاء مجموعات كثيفة تسمح بمواضيع يمكن تفسيرها بسهولة مع الاحتفاظ بالكلمات المهمة في أوصاف الموضوع."

كما يوحي الاسم ، يستخدم BERTopic نماذج محولات قوية لتحديد الموضوعات الموجودة في النص. سمة أخرى لخوارزمية نمذجة هذا الموضوع هي استخدام متغير من TF-IDF ، يسمى التباين القائم على الفئة لـ TF-IDF.

مثل Top2Vec ، لا يحتاج إلى معرفة عدد الموضوعات ، لكنه يستخرج المواضيع تلقائيًا.

علاوة على ذلك ، على غرار Top2Vec ، فهي عبارة عن خوارزمية تتضمن مراحل مختلفة. الخطوات الثلاث الأولى هي نفسها: إنشاء مستندات التضمين وتقليل الأبعاد باستخدام UMAP والتجميع باستخدام HDBScan.

تبدأ المراحل المتتالية في التباعد عن Top2Vec. بعد العثور على المناطق الكثيفة باستخدام HDBSCAN ، يتم ترميز كل موضوع في تمثيل كيس من الكلمات ، والذي يأخذ في الاعتبار ما إذا كانت الكلمة تظهر في المستند أم لا. بعد اعتبار الوثائق التي تنتمي إلى مجموعة وثيقة فريدة ويتم تطبيق TF-IDF. لذلك ، لكل موضوع ، نحدد الكلمات الأكثر صلة ، والتي يجب أن تحتوي على أعلى c-TF-IDF.

مثال على BERTopic

نكرر التحليل على نفس مجموعة البيانات.

سنقوم باستخراج الموضوعات من المراجعات باستخدام BERTopic:

model_path_bad = 'model/bert_bad'
topic_model_bad = train_bert(docs_bad,model_path_bad)
freq_df = topic_model_bad.get_topic_info()
print("Number of topics: {}".format( len(freq_df)))
freq_df['Percentage'] = round(freq_df['Count']/freq_df['Count'].sum() * 100,2)
freq_df = freq_df.iloc[:,[0,1,3,2]]
freq_df.head()

مناهج نمذجة الموضوع: Top2Vec مقابل BERTopic

الجدول الذي يعرضه النموذج يوفر معلومات حول 14 موضوعًا تم استخراجه. يتوافق الموضوع مع معرف الموضوع ، باستثناء كل القيم المتطرفة التي يتم تجاهلها والتي تم تصنيفها كـ -1.

الآن ، سننتقل إلى الجزء الأكثر إثارة للاهتمام فيما يتعلق بتصور موضوعاتنا في رسوم بيانية تفاعلية ، مثل تصور المصطلحات الأكثر صلة بكل موضوع ، وخريطة المسافة البينية ، والتمثيل ثنائي الأبعاد لمساحة التضمين و التسلسل الهرمي للموضوع.

لنبدأ في عرض المخططات الشريطية للمواضيع العشرة الأولى. لكل موضوع ، يمكننا ملاحظة الكلمات الأكثر أهمية ، مرتبة بترتيب تنازلي بناءً على درجة c-TF-IDF. كلما زادت أهمية الكلمة ، زادت النتيجة.

يحتوي الموضوع الأول على كلمات عامة ، مثل الموقع والطعام ، والموضوع 1 الطلب والانتظار ، والموضوع 2 أسوأ وخدمة ، والموضوع 3 مكان وقذرة ، والإعلان وما إلى ذلك.

بعد تصور المخططات الشريطية ، حان الوقت لإلقاء نظرة على خريطة المسافة بين الأجزاء. نقوم بتقليل أبعاد درجة c-TF-IDF إلى مساحة ثنائية الأبعاد لتصور الموضوعات في المؤامرة. يوجد في الجزء السفلي شريط تمرير يسمح بتحديد الموضوع الذي سيتم تلوينه باللون الأحمر. يمكننا أن نلاحظ أن الموضوعات مجمعة في مجموعتين مختلفتين ، إحداهما ذات موضوعات عامة مثل الطعام والدجاج والموقع ، والأخرى لها جوانب سلبية مختلفة ، مثل أسوأ خدمة ، وقذرة ، ومكان وبارد.

يسمح الرسم البياني التالي برؤية العلاقة بين المراجعات والموضوعات. على وجه الخصوص ، قد يكون من المفيد فهم سبب تخصيص مراجعة لموضوع معين ومواءمتها مع الكلمات الأكثر صلة الموجودة. على سبيل المثال ، يمكننا التركيز على المجموعة الحمراء ، المقابلة للموضوع 2 ببعض الكلمات حول أسوأ خدمة. المستندات داخل هذه المنطقة الكثيفة تبدو سلبية تمامًا ، مثل "خدمة عملاء فظيعة وطعام أسوأ".

للوهلة الأولى ، تشترك هذه الأساليب في العديد من الجوانب ، مثل العثور تلقائيًا على عدد الموضوعات ، وعدم الحاجة إلى المعالجة المسبقة في معظم الحالات ، وتطبيق UMAP لتقليل أبعاد عمليات دمج المستندات ، ثم يتم استخدام HDBSCAN في نمذجة هذه الزخارف المخفّضة للمستندات ، لكنها تختلف اختلافًا جوهريًا عند النظر إلى طريقة تخصيص الموضوعات للوثائق.

ينشئ Top2Vec تمثيلات للموضوع من خلال البحث عن الكلمات الموجودة بالقرب من النقطه الوسطى للعنقود.

بشكل مختلف عن Top2Vec ، لا يأخذ BERTopic في الحسبان النقطه الوسطى للعنقود ، ولكنه يعتبر جميع المستندات الموجودة في المجموعة كمستند فريد ويستخرج تمثيلات الموضوع باستخدام تباين قائم على الفئة لـ TF-IDF.

Top2Vec	بيرتوب
استراتيجية استخراج الموضوعات بناءً على النقط الوسطى للعنقود.	استراتيجية استخراج الموضوعات على أساس c-TF-IDF.
لا يدعم نمذجة الموضوع الديناميكي.	وهو يدعم نمذجة الموضوع الديناميكي.
يقوم بإنشاء سحابات كلمات لكل موضوع ويوفر أدوات بحث عن الموضوعات والمستندات والكلمات.	يسمح ببناء مؤامرات التصور التفاعلي ، مما يسمح بتفسير الموضوعات المستخرجة.

يعد Topic Modeling مجالًا متناميًا لمعالجة اللغة الطبيعية وهناك العديد من التطبيقات الممكنة ، مثل المراجعات والصوت ومنشورات الوسائط الاجتماعية. كما تم توضيحه ، تقدم هذه المقالة لمحات عامة عن Topi2Vec و BERTopic ، وهما نهجان واعدان ، يمكن أن تساعدك على تحديد الموضوعات ذات الأسطر القليلة من التعليمات البرمجية وتفسير النتائج من خلال تصورات البيانات. إذا كانت لديك أسئلة حول هذه الأساليب أو لديك اقتراحات أخرى حول الأساليب الأخرى لاكتشاف الموضوعات ، فاكتبها في التعليقات.

يوجينيا أنيلو يعمل حاليًا زميلًا باحثًا في قسم هندسة المعلومات بجامعة بادوفا بإيطاليا. يركز مشروعها البحثي على التعلم المستمر جنبًا إلى جنب مع اكتشاف الشذوذ.