द्वारा फोटो मिकेची एस्परागोज़ा
हर दिन, हम अधिकांश समय बिना लेबल वाले पाठ के साथ काम कर रहे हैं और डेटा से जानकारी निकालने के लिए पर्यवेक्षित शिक्षण एल्गोरिदम का उपयोग बिल्कुल भी नहीं किया जा सकता है। प्राकृतिक भाषा का एक उपक्षेत्र बड़ी मात्रा में पाठ में अंतर्निहित संरचना को प्रकट कर सकता है। इस अनुशासन को टॉपिक मॉडलिंग कहा जाता है, जो पाठ से विषयों को निकालने में माहिर है।
इस संदर्भ में, पारंपरिक दृष्टिकोण, जैसे अव्यक्त डिरिचलेट आवंटन और गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन, ने शब्दों के बीच संबंधों को अच्छी तरह से पकड़ने में विफल साबित किया क्योंकि वे बैग-ऑफ-वर्ड पर आधारित हैं।
इस कारण से, हम दो आशाजनक दृष्टिकोणों, Top2Vec और BERTopic पर ध्यान केंद्रित करने जा रहे हैं, जो विषयों को उत्पन्न करने के लिए पूर्व-प्रशिक्षित भाषा मॉडल का फायदा उठाकर इन कमियों को संबोधित करते हैं। आएँ शुरू करें!
Top2Vec एक मॉडल है जो पूर्व-प्रशिक्षित शब्द वैक्टर का उपयोग करके और सार्थक एम्बेडेड विषय, दस्तावेज़ और शब्द वैक्टर बनाकर पाठ से स्वचालित रूप से विषयों का पता लगाने में सक्षम है।
इस दृष्टिकोण में, विषयों को निकालने की प्रक्रिया को विभिन्न चरणों में विभाजित किया जा सकता है:
- सिमेंटिक एंबेडिंग बनाएं: संयुक्त रूप से एम्बेडेड दस्तावेज़ और शब्द वैक्टर बनाए जाते हैं। विचार यह है कि समान दस्तावेज़ एम्बेडिंग स्थान में करीब होने चाहिए, जबकि असमान दस्तावेज़ उनके बीच दूर होने चाहिए।
- दस्तावेज़ एम्बेडिंग की आयामीता कम करें: उच्च आयामी स्थान को कम करते हुए दस्तावेज़ों के एम्बेडिंग की अधिकांश परिवर्तनशीलता को संरक्षित करने के लिए आयामी कमी दृष्टिकोण का अनुप्रयोग महत्वपूर्ण है। इसके अलावा, यह घने क्षेत्रों की पहचान करने की अनुमति देता है, जिसमें प्रत्येक बिंदु एक दस्तावेज़ वेक्टर का प्रतिनिधित्व करता है। यूएमएपी इस चरण में चुना गया विशिष्ट आयामी कमी दृष्टिकोण है क्योंकि यह उच्च-आयामी डेटा की स्थानीय और वैश्विक संरचना को संरक्षित करने में सक्षम है।
- दस्तावेज़ों के समूहों की पहचान करें: HDBScan, एक घनत्व-आधारित क्लस्टरिंग दृष्टिकोण, समान दस्तावेज़ों के घने क्षेत्रों को खोजने के लिए लागू किया जाता है। यदि प्रत्येक दस्तावेज़ सघन क्लस्टर में नहीं है तो उसे शोर के रूप में निर्दिष्ट किया गया है, या यदि वह सघन क्षेत्र से संबंधित है तो उसे एक लेबल के रूप में निर्दिष्ट किया गया है।
- मूल एम्बेडिंग स्थान में सेंट्रोइड्स की गणना करें: सेंट्रोइड की गणना कम एम्बेडिंग स्थान के बजाय उच्च आयामी स्थान पर विचार करके की जाती है। क्लासिक रणनीति में एचडीबीएससीएएन के साथ पिछले चरण में प्राप्त घने क्षेत्र से संबंधित सभी दस्तावेज़ वैक्टर के अंकगणितीय माध्य की गणना करना शामिल है। इस प्रकार, प्रत्येक क्लस्टर के लिए एक विषय वेक्टर उत्पन्न होता है।
- प्रत्येक विषय वेक्टर के लिए शब्द खोजें: दस्तावेज़ वेक्टर के निकटतम शब्द वेक्टर शब्दार्थ की दृष्टि से सबसे अधिक प्रतिनिधि हैं।
Top2Vec का उदाहरण
इस ट्यूटोरियल में, हम उपलब्ध डेटासेट से मैकडॉनल्ड्स की नकारात्मक समीक्षाओं का विश्लेषण करने जा रहे हैं डेटा.दुनिया. इन समीक्षाओं से विषयों की पहचान करना बहुराष्ट्रीय कंपनियों के लिए यूएसए स्थानों में इस फास्ट फूड श्रृंखला के उत्पादों और संगठन को बेहतर बनाने के लिए मूल्यवान हो सकता है, जो डेटा द्वारा प्रदान किया गया है।
import pandas as pd
from top2vec import Top2Vec file_path = "McDonalds-Yelp-Sentiment-DFE.csv"
df = pd.read_csv( file_path, usecols=["_unit_id", "city", "review"], encoding="unicode_escape",
)
df.head()
docs_bad = df["review"].values.tolist()
कोड की एक पंक्ति में, हम पहले बताए गए टॉप2वेक के सभी चरणों को निष्पादित करने जा रहे हैं।
topic_model = Top2Vec( docs_bad, embedding_model="universal-sentence-encoder", speed="deep-learn", tokenizer=tok, ngram_vocab=True, ngram_vocab_args={"connector_words": "phrases.ENGLISH_CONNECTOR_WORDS"},
)
Top2Vec के मुख्य तर्क हैं:
- डॉक्स_बैड: स्ट्रिंग्स की एक सूची है।
- यूनिवर्सल-सेंटेंस-एनकोडर: चुना हुआ पूर्व-प्रशिक्षित एम्बेडिंग मॉडल है।
- डीप-लर्न: एक पैरामीटर है जो उत्पादित दस्तावेज़ वेक्टर की गुणवत्ता निर्धारित करता है।
topic_model.get_num_topics() #3
topic_words, word_scores, topic_nums = topic_model.get_topics(3) for topic in topic_nums: topic_model.generate_topic_wordcloud(topic)
सबसे अधिक
क्लाउड शब्द से, हम यह निष्कर्ष निकाल सकते हैं कि विषय 0 मैकडॉनल्ड्स में सेवा के बारे में सामान्य शिकायतों के बारे में है, जैसे "धीमी सेवा", "भयानक सेवा" और "गलत ऑर्डर", जबकि विषय 1 और 2 क्रमशः नाश्ते के भोजन को संदर्भित करते हैं ( मैकमफिन, बिस्किट, अंडा) और कॉफ़ी (आइस्ड कॉफ़ी और कप कॉफ़ी)।
अब, हम दो कीवर्ड, ग़लत और धीमा, का उपयोग करके दस्तावेज़ खोजने का प्रयास करते हैं:
( documents, document_scores, document_ids,
) = topic_model.search_documents_by_keywords( keywords=["wrong", "slow"], num_docs=5
)
for doc, score, doc_id in zip(documents, document_scores, document_ids): print(f"Document: {doc_id}, Score: {score}") print("-----------") print(doc) print("-----------") print()
आउटपुट:
Document: 707, Score: 0.5517634093633295
-----------
horrible.... that is all. do not go there.
----------- Document: 930, Score: 0.4242547340973836
-----------
no drive through :-/
----------- Document: 185, Score: 0.39162203345993046
-----------
the drive through line is terrible. they are painfully slow.
----------- Document: 181, Score: 0.3775083338082392
-----------
awful service and extremely slow. go elsewhere.
----------- Document: 846, Score: 0.35400602635951994
-----------
they have bad service and very rude
-----------
"BERTopic एक विषय मॉडलिंग तकनीक है जो विषय विवरण में महत्वपूर्ण शब्दों को रखते हुए आसानी से व्याख्या करने योग्य विषयों की अनुमति देने वाले घने क्लस्टर बनाने के लिए ट्रांसफार्मर और सी-टीएफ-आईडीएफ का लाभ उठाती है।"
जैसा कि नाम से पता चलता है, BERTopic पाठ में मौजूद विषयों की पहचान करने के लिए शक्तिशाली ट्रांसफार्मर मॉडल का उपयोग करता है। इस विषय मॉडलिंग एल्गोरिदम की एक अन्य विशेषता टीएफ-आईडीएफ के एक प्रकार का उपयोग है, जिसे टीएफ-आईडीएफ का वर्ग-आधारित भिन्नता कहा जाता है।
Top2Vec की तरह, इसमें विषयों की संख्या जानने की आवश्यकता नहीं है, लेकिन यह स्वचालित रूप से विषयों को निकालता है।
इसके अलावा, Top2Vec के समान, यह एक एल्गोरिदम है जिसमें विभिन्न चरण शामिल हैं। पहले तीन चरण समान हैं: एम्बेडिंग दस्तावेज़ों का निर्माण, यूएमएपी के साथ आयामीता में कमी और एचडीबीएसकैन के साथ क्लस्टरिंग।
क्रमिक चरण Top2Vec से अलग होने लगते हैं। एचडीबीएससीएएन के साथ घने क्षेत्रों को खोजने के बाद, प्रत्येक विषय को शब्दों के एक बैग में दर्शाया जाता है, जो इस बात पर ध्यान देता है कि शब्द दस्तावेज़ में दिखाई देता है या नहीं। क्लस्टर से संबंधित दस्तावेज़ों को एक अद्वितीय दस्तावेज़ माना जाता है और TF-IDF लागू किया जाता है। इसलिए, प्रत्येक विषय के लिए, हम सबसे अधिक प्रासंगिक शब्दों की पहचान करते हैं, जिनमें उच्चतम सी-टीएफ-आईडीएफ होना चाहिए।
BERTopic का उदाहरण
हम उसी डेटासेट पर विश्लेषण दोहराते हैं।
हम BERTopic का उपयोग करके समीक्षाओं से विषय निकालने जा रहे हैं:
model_path_bad = 'model/bert_bad'
topic_model_bad = train_bert(docs_bad,model_path_bad)
freq_df = topic_model_bad.get_topic_info()
print("Number of topics: {}".format( len(freq_df)))
freq_df['Percentage'] = round(freq_df['Count']/freq_df['Count'].sum() * 100,2)
freq_df = freq_df.iloc[:,[0,1,3,2]]
freq_df.head()
मॉडल द्वारा लौटाई गई तालिका निकाले गए 14 विषयों के बारे में जानकारी प्रदान करती है। विषय विषय पहचानकर्ता से मेल खाता है, उन सभी आउटलेर्स को छोड़कर जिन्हें अनदेखा किया गया है जिन्हें -1 के रूप में लेबल किया गया है।
अब, हम इंटरैक्टिव ग्राफ़ में अपने विषयों के विज़ुअलाइज़ेशन के संबंध में सबसे दिलचस्प भाग को पास करने जा रहे हैं, जैसे कि प्रत्येक विषय के लिए सबसे प्रासंगिक शब्दों का विज़ुअलाइज़ेशन, इंटरटॉपिक दूरी मानचित्र, एम्बेडिंग स्पेस का द्वि-आयामी प्रतिनिधित्व और विषय पदानुक्रम.
आइए शीर्ष दस विषयों के लिए बार चार्ट दिखाना शुरू करें। प्रत्येक विषय के लिए, हम सी-टीएफ-आईडीएफ स्कोर के आधार पर घटते क्रम में क्रमबद्ध सबसे महत्वपूर्ण शब्दों को देख सकते हैं। कोई शब्द जितना अधिक प्रासंगिक होगा, स्कोर उतना ही अधिक होगा।
पहले विषय में सामान्य शब्द हैं, जैसे स्थान और भोजन, विषय 1 ऑर्डर और प्रतीक्षा, विषय 2 सबसे खराब और सेवा, विषय 3 स्थान और गंदा, विज्ञापन इत्यादि।
बार चार्ट को देखने के बाद, इंटरटॉपिक दूरी मानचित्र पर एक नज़र डालने का समय आ गया है। हम एक कथानक में विषयों की कल्पना करने के लिए सी-टीएफ-आईडीएफ स्कोर की आयामीता को दो-आयामी स्थान में कम करते हैं। सबसे नीचे, एक स्लाइडर है जो उस विषय का चयन करने की अनुमति देता है जो लाल रंग में होगा। हम देख सकते हैं कि विषयों को दो अलग-अलग समूहों में बांटा गया है, एक भोजन, चिकन और स्थान जैसे सामान्य विषय-वस्तु के साथ, और दूसरा विभिन्न नकारात्मक पहलुओं के साथ, जैसे कि सबसे खराब सेवा, गंदा, स्थान और ठंडा।
अगला ग्राफ़ समीक्षाओं और विषयों के बीच संबंध देखने की अनुमति देता है। विशेष रूप से, यह समझना उपयोगी हो सकता है कि समीक्षा किसी विशिष्ट विषय को क्यों सौंपी जाती है और पाए गए सबसे प्रासंगिक शब्दों के साथ संरेखित की जाती है। उदाहरण के लिए, हम सबसे खराब सेवा के बारे में कुछ शब्दों के साथ विषय 2 के अनुरूप लाल क्लस्टर पर ध्यान केंद्रित कर सकते हैं। इस सघन क्षेत्र के दस्तावेज़ काफी नकारात्मक प्रतीत होते हैं, जैसे "भयानक ग्राहक सेवा और उससे भी बदतर भोजन"।
पहली नज़र में, इन दृष्टिकोणों में कई पहलू समान हैं, जैसे स्वचालित रूप से विषयों की संख्या का पता लगाना, अधिकांश मामलों में पूर्व-प्रसंस्करण की कोई आवश्यकता नहीं, दस्तावेज़ एम्बेडिंग की आयामीता को कम करने के लिए यूएमएपी का अनुप्रयोग और फिर, एचडीबीएससीएएन का उपयोग किया जाता है। इन कम किए गए दस्तावेज़ एम्बेडिंग को मॉडलिंग करना, लेकिन दस्तावेज़ों में विषयों को निर्दिष्ट करने के तरीके को देखते हुए वे मौलिक रूप से भिन्न हैं।
Top2Vec क्लस्टर के केन्द्रक के करीब स्थित शब्दों को ढूंढकर विषय प्रतिनिधित्व बनाता है।
Top2Vec से अलग, BERTopic क्लस्टर के सेंट्रोइड को ध्यान में नहीं रखता है, लेकिन यह क्लस्टर के सभी दस्तावेज़ों को एक अद्वितीय दस्तावेज़ के रूप में मानता है और TF-IDF के वर्ग-आधारित भिन्नता का उपयोग करके विषय प्रतिनिधित्व निकालता है।
Top2Vec | बर्टविषय |
क्लस्टर के केन्द्रक के आधार पर विषयों को निकालने की रणनीति। | सी-टीएफ-आईडीएफ के आधार पर विषयों को निकालने की रणनीति। |
यह डायनामिक विषय मॉडलिंग का समर्थन नहीं करता है. | यह डायनामिक टॉपिक मॉडलिंग को सपोर्ट करता है। |
यह प्रत्येक विषय के लिए शब्द क्लाउड बनाता है और विषयों, दस्तावेज़ों और शब्दों के लिए खोज उपकरण प्रदान करता है। | यह इंटरएक्टिव विज़ुअलाइज़ेशन प्लॉट बनाने की अनुमति देता है, जिससे निकाले गए विषयों की व्याख्या की जा सकती है। |
विषय मॉडलिंग प्राकृतिक भाषा प्रसंस्करण का एक बढ़ता हुआ क्षेत्र है और इसमें समीक्षा, ऑडियो और सोशल मीडिया पोस्ट जैसे कई संभावित अनुप्रयोग हैं। जैसा कि दिखाया गया है, यह आलेख Topi2Vec और BERTopic का अवलोकन प्रदान करता है, जो दो आशाजनक दृष्टिकोण हैं, जो आपको कोड की कुछ पंक्तियों के साथ विषयों की पहचान करने और डेटा विज़ुअलाइज़ेशन के माध्यम से परिणामों की व्याख्या करने में मदद कर सकते हैं। यदि आपके पास इन तकनीकों के बारे में प्रश्न हैं या विषयों का पता लगाने के अन्य तरीकों के बारे में आपके पास अन्य सुझाव हैं, तो इसे टिप्पणियों में लिखें।
यूजेनिया अनेलो वर्तमान में पडोवा, इटली विश्वविद्यालय के सूचना इंजीनियरिंग विभाग में एक शोध साथी हैं। उनकी शोध परियोजना अनोमली डिटेक्शन के साथ कंटीन्यूअल लर्निंग पर केंद्रित है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- स्रोत: https://www.kdnuggets.com/2023/01/topic-modeling-approaches-top2vec-bertopic.html?utm_source=rss&utm_medium=rss&utm_campaign=topic-modeling-approaches-top2vec-vs-bertopic
- 1
- 10
- 100
- 7
- a
- योग्य
- About
- लेखा
- Ad
- पता
- बाद
- कलन विधि
- एल्गोरिदम
- गठबंधन
- सब
- आवंटन
- की अनुमति दे
- की अनुमति देता है
- राशियाँ
- विश्लेषण
- विश्लेषण करें
- और
- असंगति का पता लगाये
- अन्य
- आवेदन
- अनुप्रयोगों
- लागू
- दृष्टिकोण
- दृष्टिकोण
- क्षेत्र
- क्षेत्रों के बारे में जानकारी का उपयोग करके ट्रेडिंग कर सकते हैं।
- तर्क
- लेख
- पहलुओं
- सौंपा
- ऑडियो
- स्वतः
- उपलब्ध
- बुरा
- बार
- आधारित
- क्योंकि
- के बीच
- तल
- सुबह का नाश्ता
- इमारत
- बनाता है
- परिकलन
- बुलाया
- नही सकता
- सक्षम
- कब्जा
- मामलों
- श्रृंखला
- विशेषता
- चार्ट
- करने के लिए चुना
- City
- क्लासिक
- समापन
- करीब
- समूह
- गुच्छन
- कोड
- कॉफी
- संयुक्त
- टिप्पणियाँ
- सामान्य
- शिकायतों
- माना
- पर विचार
- शामिल हैं
- प्रसंग
- परम्परागत
- इसी
- मेल खाती है
- बनाना
- बनाया
- बनाता है
- बनाना
- निर्माण
- कप
- वर्तमान में
- ग्राहक
- ग्राहक सेवा
- तिथि
- दिन
- व्यवहार
- साबित
- विभाग
- खोज
- निर्धारित
- विभिन्न
- दूरी
- दूर
- हट जाना
- दस्तावेज़
- दस्तावेजों
- नहीं करता है
- कमियां
- ड्राइव
- के माध्यम से ड्राइव
- गतिशील
- से प्रत्येक
- आसानी
- अन्यत्र
- एम्बेडेड
- अभियांत्रिकी
- और भी
- उदाहरण
- सिवाय
- समझाया
- उद्धरण
- अर्क
- अत्यंत
- फास्ट
- साथी
- कुछ
- खेत
- खोज
- खोज
- प्रथम
- फोकस
- ध्यान केंद्रित
- भोजन
- पाया
- से
- मूलरूप में
- सामान्य जानकारी
- उत्पन्न
- उत्पन्न
- मिल
- वैश्विक
- Go
- जा
- ग्राफ
- रेखांकन
- बढ़ रहा है
- मदद
- पदक्रम
- हाई
- उच्चतर
- उच्चतम
- HTTPS
- विचार
- पहचान
- पहचानकर्ता
- पहचान करना
- पहचान
- आयात
- महत्वपूर्ण
- में सुधार
- in
- करें-
- बजाय
- इंटरैक्टिव
- दिलचस्प
- व्याख्या
- IT
- इटली
- केडनगेट्स
- रखना
- जानना
- लेबल
- भाषा
- बड़ा
- सीख रहा हूँ
- leverages
- लाइन
- पंक्तियां
- लिंक्डइन
- सूची
- स्थानीय
- स्थित
- स्थान
- स्थानों
- देखिए
- देख
- मुख्य
- बहुत
- नक्शा
- मैट्रिक्स
- मैकडोनाल्ड
- सार्थक
- मीडिया
- आदर्श
- मोडलिंग
- मोडलिंग
- मॉडल
- अधिक
- अधिकांश
- बहुराष्ट्रीय
- नाम
- प्राकृतिक
- प्राकृतिक भाषा
- प्राकृतिक भाषा संसाधन
- आवश्यकता
- नकारात्मक
- अगला
- शोर
- संख्या
- अनेक
- निरीक्षण
- प्राप्त
- ONE
- आदेश
- संगठन
- मूल
- अन्य
- पांडा
- प्राचल
- भाग
- विशेष
- प्रतिशतता
- निष्पादन
- मुहावरों
- जगह
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- बिन्दु
- संभव
- पोस्ट
- शक्तिशाली
- वर्तमान
- पिछला
- पहले से
- प्रसंस्करण
- प्रस्तुत
- उत्पाद
- परियोजना
- होनहार
- बशर्ते
- प्रदान करता है
- गुणवत्ता
- प्रशन
- कारण
- लाल
- को कम करने
- घटी
- को कम करने
- के बारे में
- संबंध
- रिश्ते
- प्रासंगिक
- दोहराना
- प्रतिनिधित्व
- प्रतिनिधि
- का प्रतिनिधित्व करता है
- अनुसंधान
- परिणाम
- प्रकट
- की समीक्षा
- समीक्षा
- वही
- Search
- खोज
- का चयन
- सेवा
- चाहिए
- दिखाना
- दिखाया
- दृष्टि
- समान
- उसी प्रकार
- के बाद से
- एक
- स्लाइडर
- धीमा
- So
- सोशल मीडिया
- सोशल मीडिया
- सोशल मीडिया पोस्ट
- कुछ
- अंतरिक्ष
- विशेषीकृत
- विशिष्ट
- विभाजित
- कदम
- कदम
- स्ट्रेटेजी
- संरचना
- ऐसा
- पता चलता है
- पर्यवेक्षित अध्ययन
- समर्थन
- समर्थन करता है
- तालिका
- लेना
- लेता है
- तकनीक
- दस
- शर्तों
- RSI
- वहाँ।
- तीन
- यहाँ
- पहर
- सेवा मेरे
- tokenized
- उपकरण
- ऊपर का
- टॉप टेन
- विषय
- विषय
- ट्रान्सफ़ॉर्मर
- ट्यूटोरियल
- ठेठ
- आधारभूत
- समझना
- अद्वितीय
- विश्वविद्यालय
- अमेरिका
- उपयोग
- मूल्यवान
- मान
- प्रकार
- दृश्य
- प्रतीक्षा
- कौन कौन से
- जब
- Whilst
- मर्जी
- अंदर
- शब्द
- शब्द
- वर्स्ट
- लिखना
- गलत
- जेफिरनेट