विषय मॉडलिंग दृष्टिकोण: Top2Vec बनाम BERTopic

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

विषय मॉडलिंग दृष्टिकोण: Top2Vec बनाम BERTopic
द्वारा फोटो मिकेची एस्परागोज़ा

हर दिन, हम अधिकांश समय बिना लेबल वाले पाठ के साथ काम कर रहे हैं और डेटा से जानकारी निकालने के लिए पर्यवेक्षित शिक्षण एल्गोरिदम का उपयोग बिल्कुल भी नहीं किया जा सकता है। प्राकृतिक भाषा का एक उपक्षेत्र बड़ी मात्रा में पाठ में अंतर्निहित संरचना को प्रकट कर सकता है। इस अनुशासन को टॉपिक मॉडलिंग कहा जाता है, जो पाठ से विषयों को निकालने में माहिर है।

इस संदर्भ में, पारंपरिक दृष्टिकोण, जैसे अव्यक्त डिरिचलेट आवंटन और गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन, ने शब्दों के बीच संबंधों को अच्छी तरह से पकड़ने में विफल साबित किया क्योंकि वे बैग-ऑफ-वर्ड पर आधारित हैं।

इस कारण से, हम दो आशाजनक दृष्टिकोणों, Top2Vec और BERTopic पर ध्यान केंद्रित करने जा रहे हैं, जो विषयों को उत्पन्न करने के लिए पूर्व-प्रशिक्षित भाषा मॉडल का फायदा उठाकर इन कमियों को संबोधित करते हैं। आएँ शुरू करें!

Top2Vec एक मॉडल है जो पूर्व-प्रशिक्षित शब्द वैक्टर का उपयोग करके और सार्थक एम्बेडेड विषय, दस्तावेज़ और शब्द वैक्टर बनाकर पाठ से स्वचालित रूप से विषयों का पता लगाने में सक्षम है।

इस दृष्टिकोण में, विषयों को निकालने की प्रक्रिया को विभिन्न चरणों में विभाजित किया जा सकता है:

सिमेंटिक एंबेडिंग बनाएं: संयुक्त रूप से एम्बेडेड दस्तावेज़ और शब्द वैक्टर बनाए जाते हैं। विचार यह है कि समान दस्तावेज़ एम्बेडिंग स्थान में करीब होने चाहिए, जबकि असमान दस्तावेज़ उनके बीच दूर होने चाहिए।
दस्तावेज़ एम्बेडिंग की आयामीता कम करें: उच्च आयामी स्थान को कम करते हुए दस्तावेज़ों के एम्बेडिंग की अधिकांश परिवर्तनशीलता को संरक्षित करने के लिए आयामी कमी दृष्टिकोण का अनुप्रयोग महत्वपूर्ण है। इसके अलावा, यह घने क्षेत्रों की पहचान करने की अनुमति देता है, जिसमें प्रत्येक बिंदु एक दस्तावेज़ वेक्टर का प्रतिनिधित्व करता है। यूएमएपी इस चरण में चुना गया विशिष्ट आयामी कमी दृष्टिकोण है क्योंकि यह उच्च-आयामी डेटा की स्थानीय और वैश्विक संरचना को संरक्षित करने में सक्षम है।
दस्तावेज़ों के समूहों की पहचान करें: HDBScan, एक घनत्व-आधारित क्लस्टरिंग दृष्टिकोण, समान दस्तावेज़ों के घने क्षेत्रों को खोजने के लिए लागू किया जाता है। यदि प्रत्येक दस्तावेज़ सघन क्लस्टर में नहीं है तो उसे शोर के रूप में निर्दिष्ट किया गया है, या यदि वह सघन क्षेत्र से संबंधित है तो उसे एक लेबल के रूप में निर्दिष्ट किया गया है।
मूल एम्बेडिंग स्थान में सेंट्रोइड्स की गणना करें: सेंट्रोइड की गणना कम एम्बेडिंग स्थान के बजाय उच्च आयामी स्थान पर विचार करके की जाती है। क्लासिक रणनीति में एचडीबीएससीएएन के साथ पिछले चरण में प्राप्त घने क्षेत्र से संबंधित सभी दस्तावेज़ वैक्टर के अंकगणितीय माध्य की गणना करना शामिल है। इस प्रकार, प्रत्येक क्लस्टर के लिए एक विषय वेक्टर उत्पन्न होता है।
प्रत्येक विषय वेक्टर के लिए शब्द खोजें: दस्तावेज़ वेक्टर के निकटतम शब्द वेक्टर शब्दार्थ की दृष्टि से सबसे अधिक प्रतिनिधि हैं।

Top2Vec का उदाहरण

इस ट्यूटोरियल में, हम उपलब्ध डेटासेट से मैकडॉनल्ड्स की नकारात्मक समीक्षाओं का विश्लेषण करने जा रहे हैं डेटा.दुनिया. इन समीक्षाओं से विषयों की पहचान करना बहुराष्ट्रीय कंपनियों के लिए यूएसए स्थानों में इस फास्ट फूड श्रृंखला के उत्पादों और संगठन को बेहतर बनाने के लिए मूल्यवान हो सकता है, जो डेटा द्वारा प्रदान किया गया है।

import pandas as pd
from top2vec import Top2Vec file_path = "McDonalds-Yelp-Sentiment-DFE.csv"
df = pd.read_csv( file_path, usecols=["_unit_id", "city", "review"], encoding="unicode_escape",
)
df.head()
docs_bad = df["review"].values.tolist()

विषय मॉडलिंग दृष्टिकोण: Top2Vec बनाम BERTopic

कोड की एक पंक्ति में, हम पहले बताए गए टॉप2वेक के सभी चरणों को निष्पादित करने जा रहे हैं।

topic_model = Top2Vec( docs_bad, embedding_model="universal-sentence-encoder", speed="deep-learn", tokenizer=tok, ngram_vocab=True, ngram_vocab_args={"connector_words": "phrases.ENGLISH_CONNECTOR_WORDS"},
)

Top2Vec के मुख्य तर्क हैं:

डॉक्स_बैड: स्ट्रिंग्स की एक सूची है।
यूनिवर्सल-सेंटेंस-एनकोडर: चुना हुआ पूर्व-प्रशिक्षित एम्बेडिंग मॉडल है।
डीप-लर्न: एक पैरामीटर है जो उत्पादित दस्तावेज़ वेक्टर की गुणवत्ता निर्धारित करता है।

topic_model.get_num_topics() #3
topic_words, word_scores, topic_nums = topic_model.get_topics(3) for topic in topic_nums: topic_model.generate_topic_wordcloud(topic)

सबसे अधिक

विषय मॉडलिंग दृष्टिकोण: Top2Vec बनाम BERTopic

क्लाउड शब्द से, हम यह निष्कर्ष निकाल सकते हैं कि विषय 0 मैकडॉनल्ड्स में सेवा के बारे में सामान्य शिकायतों के बारे में है, जैसे "धीमी सेवा", "भयानक सेवा" और "गलत ऑर्डर", जबकि विषय 1 और 2 क्रमशः नाश्ते के भोजन को संदर्भित करते हैं ( मैकमफिन, बिस्किट, अंडा) और कॉफ़ी (आइस्ड कॉफ़ी और कप कॉफ़ी)।

अब, हम दो कीवर्ड, ग़लत और धीमा, का उपयोग करके दस्तावेज़ खोजने का प्रयास करते हैं:

( documents, document_scores, document_ids,
) = topic_model.search_documents_by_keywords( keywords=["wrong", "slow"], num_docs=5
)
for doc, score, doc_id in zip(documents, document_scores, document_ids): print(f"Document: {doc_id}, Score: {score}") print("-----------") print(doc) print("-----------") print()

आउटपुट:

Document: 707, Score: 0.5517634093633295
-----------
horrible.... that is all. do not go there.
----------- Document: 930, Score: 0.4242547340973836
-----------
no drive through :-/
----------- Document: 185, Score: 0.39162203345993046
-----------
the drive through line is terrible. they are painfully slow.
----------- Document: 181, Score: 0.3775083338082392
-----------
awful service and extremely slow. go elsewhere.
----------- Document: 846, Score: 0.35400602635951994
-----------
they have bad service and very rude
-----------

"BERTopic एक विषय मॉडलिंग तकनीक है जो विषय विवरण में महत्वपूर्ण शब्दों को रखते हुए आसानी से व्याख्या करने योग्य विषयों की अनुमति देने वाले घने क्लस्टर बनाने के लिए ट्रांसफार्मर और सी-टीएफ-आईडीएफ का लाभ उठाती है।"

जैसा कि नाम से पता चलता है, BERTopic पाठ में मौजूद विषयों की पहचान करने के लिए शक्तिशाली ट्रांसफार्मर मॉडल का उपयोग करता है। इस विषय मॉडलिंग एल्गोरिदम की एक अन्य विशेषता टीएफ-आईडीएफ के एक प्रकार का उपयोग है, जिसे टीएफ-आईडीएफ का वर्ग-आधारित भिन्नता कहा जाता है।

Top2Vec की तरह, इसमें विषयों की संख्या जानने की आवश्यकता नहीं है, लेकिन यह स्वचालित रूप से विषयों को निकालता है।

इसके अलावा, Top2Vec के समान, यह एक एल्गोरिदम है जिसमें विभिन्न चरण शामिल हैं। पहले तीन चरण समान हैं: एम्बेडिंग दस्तावेज़ों का निर्माण, यूएमएपी के साथ आयामीता में कमी और एचडीबीएसकैन के साथ क्लस्टरिंग।

क्रमिक चरण Top2Vec से अलग होने लगते हैं। एचडीबीएससीएएन के साथ घने क्षेत्रों को खोजने के बाद, प्रत्येक विषय को शब्दों के एक बैग में दर्शाया जाता है, जो इस बात पर ध्यान देता है कि शब्द दस्तावेज़ में दिखाई देता है या नहीं। क्लस्टर से संबंधित दस्तावेज़ों को एक अद्वितीय दस्तावेज़ माना जाता है और TF-IDF लागू किया जाता है। इसलिए, प्रत्येक विषय के लिए, हम सबसे अधिक प्रासंगिक शब्दों की पहचान करते हैं, जिनमें उच्चतम सी-टीएफ-आईडीएफ होना चाहिए।

BERTopic का उदाहरण

हम उसी डेटासेट पर विश्लेषण दोहराते हैं।

हम BERTopic का उपयोग करके समीक्षाओं से विषय निकालने जा रहे हैं:

model_path_bad = 'model/bert_bad'
topic_model_bad = train_bert(docs_bad,model_path_bad)
freq_df = topic_model_bad.get_topic_info()
print("Number of topics: {}".format( len(freq_df)))
freq_df['Percentage'] = round(freq_df['Count']/freq_df['Count'].sum() * 100,2)
freq_df = freq_df.iloc[:,[0,1,3,2]]
freq_df.head()

विषय मॉडलिंग दृष्टिकोण: Top2Vec बनाम BERTopic

मॉडल द्वारा लौटाई गई तालिका निकाले गए 14 विषयों के बारे में जानकारी प्रदान करती है। विषय विषय पहचानकर्ता से मेल खाता है, उन सभी आउटलेर्स को छोड़कर जिन्हें अनदेखा किया गया है जिन्हें -1 के रूप में लेबल किया गया है।

अब, हम इंटरैक्टिव ग्राफ़ में अपने विषयों के विज़ुअलाइज़ेशन के संबंध में सबसे दिलचस्प भाग को पास करने जा रहे हैं, जैसे कि प्रत्येक विषय के लिए सबसे प्रासंगिक शब्दों का विज़ुअलाइज़ेशन, इंटरटॉपिक दूरी मानचित्र, एम्बेडिंग स्पेस का द्वि-आयामी प्रतिनिधित्व और विषय पदानुक्रम.

आइए शीर्ष दस विषयों के लिए बार चार्ट दिखाना शुरू करें। प्रत्येक विषय के लिए, हम सी-टीएफ-आईडीएफ स्कोर के आधार पर घटते क्रम में क्रमबद्ध सबसे महत्वपूर्ण शब्दों को देख सकते हैं। कोई शब्द जितना अधिक प्रासंगिक होगा, स्कोर उतना ही अधिक होगा।

पहले विषय में सामान्य शब्द हैं, जैसे स्थान और भोजन, विषय 1 ऑर्डर और प्रतीक्षा, विषय 2 सबसे खराब और सेवा, विषय 3 स्थान और गंदा, विज्ञापन इत्यादि।

बार चार्ट को देखने के बाद, इंटरटॉपिक दूरी मानचित्र पर एक नज़र डालने का समय आ गया है। हम एक कथानक में विषयों की कल्पना करने के लिए सी-टीएफ-आईडीएफ स्कोर की आयामीता को दो-आयामी स्थान में कम करते हैं। सबसे नीचे, एक स्लाइडर है जो उस विषय का चयन करने की अनुमति देता है जो लाल रंग में होगा। हम देख सकते हैं कि विषयों को दो अलग-अलग समूहों में बांटा गया है, एक भोजन, चिकन और स्थान जैसे सामान्य विषय-वस्तु के साथ, और दूसरा विभिन्न नकारात्मक पहलुओं के साथ, जैसे कि सबसे खराब सेवा, गंदा, स्थान और ठंडा।

अगला ग्राफ़ समीक्षाओं और विषयों के बीच संबंध देखने की अनुमति देता है। विशेष रूप से, यह समझना उपयोगी हो सकता है कि समीक्षा किसी विशिष्ट विषय को क्यों सौंपी जाती है और पाए गए सबसे प्रासंगिक शब्दों के साथ संरेखित की जाती है। उदाहरण के लिए, हम सबसे खराब सेवा के बारे में कुछ शब्दों के साथ विषय 2 के अनुरूप लाल क्लस्टर पर ध्यान केंद्रित कर सकते हैं। इस सघन क्षेत्र के दस्तावेज़ काफी नकारात्मक प्रतीत होते हैं, जैसे "भयानक ग्राहक सेवा और उससे भी बदतर भोजन"।

पहली नज़र में, इन दृष्टिकोणों में कई पहलू समान हैं, जैसे स्वचालित रूप से विषयों की संख्या का पता लगाना, अधिकांश मामलों में पूर्व-प्रसंस्करण की कोई आवश्यकता नहीं, दस्तावेज़ एम्बेडिंग की आयामीता को कम करने के लिए यूएमएपी का अनुप्रयोग और फिर, एचडीबीएससीएएन का उपयोग किया जाता है। इन कम किए गए दस्तावेज़ एम्बेडिंग को मॉडलिंग करना, लेकिन दस्तावेज़ों में विषयों को निर्दिष्ट करने के तरीके को देखते हुए वे मौलिक रूप से भिन्न हैं।

Top2Vec क्लस्टर के केन्द्रक के करीब स्थित शब्दों को ढूंढकर विषय प्रतिनिधित्व बनाता है।

Top2Vec से अलग, BERTopic क्लस्टर के सेंट्रोइड को ध्यान में नहीं रखता है, लेकिन यह क्लस्टर के सभी दस्तावेज़ों को एक अद्वितीय दस्तावेज़ के रूप में मानता है और TF-IDF के वर्ग-आधारित भिन्नता का उपयोग करके विषय प्रतिनिधित्व निकालता है।

Top2Vec	बर्टविषय
क्लस्टर के केन्द्रक के आधार पर विषयों को निकालने की रणनीति।	सी-टीएफ-आईडीएफ के आधार पर विषयों को निकालने की रणनीति।
यह डायनामिक विषय मॉडलिंग का समर्थन नहीं करता है.	यह डायनामिक टॉपिक मॉडलिंग को सपोर्ट करता है।
यह प्रत्येक विषय के लिए शब्द क्लाउड बनाता है और विषयों, दस्तावेज़ों और शब्दों के लिए खोज उपकरण प्रदान करता है।	यह इंटरएक्टिव विज़ुअलाइज़ेशन प्लॉट बनाने की अनुमति देता है, जिससे निकाले गए विषयों की व्याख्या की जा सकती है।

विषय मॉडलिंग प्राकृतिक भाषा प्रसंस्करण का एक बढ़ता हुआ क्षेत्र है और इसमें समीक्षा, ऑडियो और सोशल मीडिया पोस्ट जैसे कई संभावित अनुप्रयोग हैं। जैसा कि दिखाया गया है, यह आलेख Topi2Vec और BERTopic का अवलोकन प्रदान करता है, जो दो आशाजनक दृष्टिकोण हैं, जो आपको कोड की कुछ पंक्तियों के साथ विषयों की पहचान करने और डेटा विज़ुअलाइज़ेशन के माध्यम से परिणामों की व्याख्या करने में मदद कर सकते हैं। यदि आपके पास इन तकनीकों के बारे में प्रश्न हैं या विषयों का पता लगाने के अन्य तरीकों के बारे में आपके पास अन्य सुझाव हैं, तो इसे टिप्पणियों में लिखें।

यूजेनिया अनेलो वर्तमान में पडोवा, इटली विश्वविद्यालय के सूचना इंजीनियरिंग विभाग में एक शोध साथी हैं। उनकी शोध परियोजना अनोमली डिटेक्शन के साथ कंटीन्यूअल लर्निंग पर केंद्रित है।