موضوع ماڈلنگ کے نقطہ نظر: Top2Vec بمقابلہ BERTopic

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

موضوع ماڈلنگ کے نقطہ نظر: Top2Vec بمقابلہ BERTopic
کی طرف سے تصویر Mikechie Esparagoza

ہر روز، ہم زیادہ تر وقت بغیر لیبل والے ٹیکسٹ کے ساتھ نمٹ رہے ہیں اور ڈیٹا سے معلومات نکالنے کے لیے زیر نگرانی سیکھنے کے الگورتھم کو بالکل بھی استعمال نہیں کیا جا سکتا۔ قدرتی زبان کا ایک ذیلی فیلڈ متن کی بڑی مقدار میں بنیادی ساخت کو ظاہر کر سکتا ہے۔ اس نظم کو ٹاپک ماڈلنگ کہا جاتا ہے، جو کہ متن سے موضوعات نکالنے میں مہارت رکھتا ہے۔

اس تناظر میں، روایتی نقطہ نظر، جیسے کہ لیٹنٹ ڈیریچلیٹ ایلوکیشن اور نان نیگیٹو میٹرکس فیکٹرائزیشن، نے یہ ظاہر کیا کہ الفاظ کے درمیان تعلقات کو اچھی طرح سے گرفت میں نہیں لاتے کیونکہ وہ الفاظ کے تھیلے پر مبنی ہیں۔

اس وجہ سے، ہم دو امید افزا طریقوں، Top2Vec اور BERTopic پر توجہ مرکوز کرنے جا رہے ہیں، جو موضوعات کو تخلیق کرنے کے لیے پہلے سے تربیت یافتہ زبان کے ماڈلز کا فائدہ اٹھا کر ان خرابیوں کو دور کرتے ہیں۔ آو شروع کریں!

Top2Vec ایک ایسا ماڈل ہے جو پہلے سے تربیت یافتہ ورڈ ویکٹر استعمال کرکے اور بامعنی ایمبیڈڈ عنوانات، دستاویزات اور لفظ ویکٹر بنا کر متن سے خودکار عنوانات کا پتہ لگانے کے قابل ہے۔

اس نقطہ نظر میں، موضوعات کو نکالنے کے طریقہ کار کو مختلف مراحل میں تقسیم کیا جا سکتا ہے:

سیمنٹک ایمبیڈنگ بنائیں: مشترکہ طور پر سرایت شدہ دستاویز اور لفظ ویکٹر بنائے جاتے ہیں۔ خیال یہ ہے کہ ملتے جلتے دستاویزات کو سرایت کرنے کی جگہ میں قریب ہونا چاہئے، جبکہ مختلف دستاویزات ان کے درمیان دور ہونے چاہئیں۔
دستاویز ایمبیڈنگ کی جہت کو کم کریں۔: اعلی جہتی جگہ کو کم کرتے ہوئے دستاویزات کے سرایت کی زیادہ تر تغیرات کو محفوظ رکھنے کے لیے جہتی کمی کے نقطہ نظر کا اطلاق اہم ہے۔ اس کے علاوہ، یہ گھنے علاقوں کی شناخت کرنے کی اجازت دیتا ہے، جس میں ہر نقطہ ایک دستاویز ویکٹر کی نمائندگی کرتا ہے. UMAP اس مرحلے میں منتخب کردہ جہتی کمی کا ایک عام طریقہ ہے کیونکہ یہ اعلی جہتی ڈیٹا کے مقامی اور عالمی ڈھانچے کو محفوظ رکھنے کے قابل ہے۔
دستاویزات کے کلسٹرز کی شناخت کریں۔: HDBScan، ایک کثافت پر مبنی کلسٹرنگ اپروچ، اسی طرح کے دستاویزات کے گھنے علاقوں کو تلاش کرنے کے لیے لاگو کیا جاتا ہے۔ ہر دستاویز کو شور کے طور پر تفویض کیا جاتا ہے اگر یہ گھنے جھرمٹ میں نہیں ہے، یا ایک لیبل اگر اس کا تعلق گھنے علاقے سے ہے۔
اصل ایمبیڈنگ اسپیس میں سینٹروائڈز کا حساب لگائیں۔: سنٹرائڈ کی گنتی کم ایمبیڈنگ اسپیس کی بجائے ہائی ڈائمینشنل اسپیس پر غور کرکے کی جاتی ہے۔ کلاسک حکمت عملی ایک گھنے علاقے سے تعلق رکھنے والے تمام دستاویز ویکٹرز کے ریاضی کے اوسط کا حساب لگانے پر مشتمل ہے، جو HDBSCAN کے ساتھ پچھلے مرحلے میں حاصل کیا گیا تھا۔ اس طرح، ہر کلسٹر کے لیے ایک ٹاپک ویکٹر تیار ہوتا ہے۔
ہر موضوع ویکٹر کے لیے الفاظ تلاش کریں۔: دستاویز کے ویکٹر کے قریب ترین لفظ ویکٹر لفظی طور پر سب سے زیادہ نمائندہ ہوتے ہیں۔

Top2Vec کی مثال

اس ٹیوٹوریل میں، ہم میکڈونلڈز کے منفی جائزوں کا تجزیہ کرنے جا رہے ہیں جو ڈیٹا سیٹ پر دستیاب ہے۔ data.world. اعداد و شمار کے ذریعہ فراہم کردہ USA مقامات میں اس فاسٹ فوڈ چین کی مصنوعات اور تنظیم کو بہتر بنانے کے لیے ان جائزوں سے عنوانات کی نشاندہی کرنا ملٹی نیشنل کے لیے قیمتی ہو سکتا ہے۔

import pandas as pd
from top2vec import Top2Vec file_path = "McDonalds-Yelp-Sentiment-DFE.csv"
df = pd.read_csv( file_path, usecols=["_unit_id", "city", "review"], encoding="unicode_escape",
)
df.head()
docs_bad = df["review"].values.tolist()

موضوع ماڈلنگ کے نقطہ نظر: Top2Vec بمقابلہ BERTopic

کوڈ کی ایک لائن میں، ہم top2vec کے تمام مراحل انجام دینے جا رہے ہیں جن کی پہلے وضاحت کی گئی ہے۔

topic_model = Top2Vec( docs_bad, embedding_model="universal-sentence-encoder", speed="deep-learn", tokenizer=tok, ngram_vocab=True, ngram_vocab_args={"connector_words": "phrases.ENGLISH_CONNECTOR_WORDS"},
)

Top2Vec کے اہم دلائل یہ ہیں:

docs_bad: تاروں کی ایک فہرست ہے۔
universal-sentence-encoder: منتخب کردہ پہلے سے تربیت یافتہ ایمبیڈنگ ماڈل ہے۔
deep-learn: ایک پیرامیٹر ہے جو تیار کردہ دستاویز ویکٹر کے معیار کا تعین کرتا ہے۔

topic_model.get_num_topics() #3
topic_words, word_scores, topic_nums = topic_model.get_topics(3) for topic in topic_nums: topic_model.generate_topic_wordcloud(topic)

بہت زیادہ

موضوع ماڈلنگ کے نقطہ نظر: Top2Vec بمقابلہ BERTopic

کلاؤڈز کے لفظ سے، ہم یہ اندازہ لگا سکتے ہیں کہ موضوع 0 میکڈونلڈ میں سروس کے بارے میں عام شکایات کے بارے میں ہے، جیسے "سست سروس"، "خوفناک سروس" اور "آرڈر غلط"، جبکہ موضوع 1 اور 2 بالترتیب ناشتے کے کھانے کا حوالہ دیتے ہیں ( میک مفن، بسکٹ، انڈا) اور کافی (آئسڈ کافی اور کپ کافی)۔

اب، ہم دو مطلوبہ الفاظ کا استعمال کرتے ہوئے دستاویزات کو تلاش کرنے کی کوشش کرتے ہیں، غلط اور سست:

( documents, document_scores, document_ids,
) = topic_model.search_documents_by_keywords( keywords=["wrong", "slow"], num_docs=5
)
for doc, score, doc_id in zip(documents, document_scores, document_ids): print(f"Document: {doc_id}, Score: {score}") print("-----------") print(doc) print("-----------") print()

: پیداوار

Document: 707, Score: 0.5517634093633295
-----------
horrible.... that is all. do not go there.
----------- Document: 930, Score: 0.4242547340973836
-----------
no drive through :-/
----------- Document: 185, Score: 0.39162203345993046
-----------
the drive through line is terrible. they are painfully slow.
----------- Document: 181, Score: 0.3775083338082392
-----------
awful service and extremely slow. go elsewhere.
----------- Document: 846, Score: 0.35400602635951994
-----------
they have bad service and very rude
-----------

"BERTopic ایک موضوع کی ماڈلنگ کی تکنیک ہے جو ٹرانسفارمرز اور c-TF-IDF کا فائدہ اٹھاتی ہے تاکہ گھنے کلسٹرز کو تخلیق کیا جا سکے جس سے موضوع کی تفصیل میں اہم الفاظ رکھنے کے ساتھ آسانی سے قابل تشریح موضوعات کی اجازت دی جا سکے۔"

جیسا کہ نام سے پتہ چلتا ہے، BERTopic متن میں موجود موضوعات کی شناخت کے لیے طاقتور ٹرانسفارمر ماڈلز کا استعمال کرتا ہے۔ اس ٹاپک ماڈلنگ الگورتھم کی ایک اور خصوصیت TF-IDF کے مختلف قسم کا استعمال ہے، جسے TF-IDF کی کلاس پر مبنی تغیر کہا جاتا ہے۔

Top2Vec کی طرح، اسے عنوانات کی تعداد جاننے کی ضرورت نہیں ہے، لیکن یہ خود بخود عنوانات کو نکالتا ہے۔

مزید برآں، Top2Vec کی طرح، یہ ایک الگورتھم ہے جس میں مختلف مراحل شامل ہیں۔ پہلے تین مراحل ایک جیسے ہیں: ایمبیڈنگ دستاویزات کی تخلیق، UMAP کے ساتھ جہت میں کمی اور HDBScan کے ساتھ کلسٹرنگ۔

لگاتار مراحل Top2Vec سے ہٹنا شروع ہو جاتے ہیں۔ ایچ ڈی بی ایس سی اے این کے ساتھ گھنے علاقوں کو تلاش کرنے کے بعد، ہر موضوع کو الفاظ کے تھیلے کی نمائندگی میں تبدیل کیا جاتا ہے، جو اس بات کو مدنظر رکھتا ہے کہ آیا یہ لفظ دستاویز میں ظاہر ہوتا ہے یا نہیں۔ ایک کلسٹر سے تعلق رکھنے والے دستاویزات کے بعد ایک منفرد دستاویز سمجھا جاتا ہے اور TF-IDF لاگو کیا جاتا ہے۔ لہذا، ہر موضوع کے لیے، ہم سب سے زیادہ متعلقہ الفاظ کی نشاندہی کرتے ہیں، جن میں سب سے زیادہ c-TF-IDF ہونا چاہیے۔

BERTopic کی مثال

ہم اسی ڈیٹاسیٹ پر تجزیہ دہراتے ہیں۔

ہم BERTopic کا استعمال کرتے ہوئے جائزوں سے عنوانات نکالنے جا رہے ہیں:

model_path_bad = 'model/bert_bad'
topic_model_bad = train_bert(docs_bad,model_path_bad)
freq_df = topic_model_bad.get_topic_info()
print("Number of topics: {}".format( len(freq_df)))
freq_df['Percentage'] = round(freq_df['Count']/freq_df['Count'].sum() * 100,2)
freq_df = freq_df.iloc[:,[0,1,3,2]]
freq_df.head()

موضوع ماڈلنگ کے نقطہ نظر: Top2Vec بمقابلہ BERTopic

ماڈل کے ذریعہ واپس کردہ جدول نکالے گئے 14 عنوانات کے بارے میں معلومات فراہم کرتا ہے۔ موضوع موضوع کے شناخت کنندہ سے مطابقت رکھتا ہے، سوائے ان تمام آؤٹ لیرز کے جنہیں نظر انداز کیا جاتا ہے جن پر -1 کا لیبل لگا ہوا ہے۔

اب، ہم اپنے موضوعات کو انٹرایکٹو گرافس میں تصور کرنے کے حوالے سے سب سے دلچسپ حصے پر جانے جا رہے ہیں، جیسے کہ ہر موضوع کے لیے انتہائی متعلقہ اصطلاحات کا تصور، انٹر ٹاپک فاصلے کا نقشہ، سرایت کرنے کی جگہ کی دو جہتی نمائندگی اور موضوع کا درجہ بندی

آئیے ٹاپ ٹین ٹاپکس کے بار چارٹ دکھانا شروع کرتے ہیں۔ ہر موضوع کے لیے، ہم انتہائی اہم الفاظ کا مشاہدہ کر سکتے ہیں، جنہیں c-TF-IDF سکور کی بنیاد پر گھٹتے ہوئے ترتیب میں ترتیب دیا گیا ہے۔ ایک لفظ جتنا زیادہ متعلقہ ہوگا، اسکور اتنا ہی زیادہ ہوگا۔

پہلا عنوان عام الفاظ پر مشتمل ہے، جیسے مقام اور خوراک، عنوان 1 آرڈر اور انتظار، موضوع 2 بدترین اور خدمت، موضوع 3 جگہ اور گندا، اشتہار وغیرہ۔

بار چارٹس کو دیکھنے کے بعد، اب وقت آگیا ہے کہ انٹر ٹاپک فاصلے کے نقشے پر ایک نظر ڈالیں۔ ہم پلاٹ میں موضوعات کو دیکھنے کے لیے c-TF-IDF سکور کی جہتی کو دو جہتی جگہ میں کم کرتے ہیں۔ نچلے حصے میں، ایک سلائیڈر ہے جو اس موضوع کو منتخب کرنے کی اجازت دیتا ہے جو سرخ رنگ میں رنگا جائے گا۔ ہم دیکھ سکتے ہیں کہ موضوعات کو دو مختلف کلسٹرز میں گروپ کیا گیا ہے، ایک عام تھیمیٹکس جیسے کھانا، چکن اور مقام، اور دوسرا مختلف منفی پہلوؤں کے ساتھ، جیسے بدترین سروس، گندی، جگہ اور سردی۔

اگلا گراف جائزوں اور عنوانات کے درمیان تعلق کو دیکھنے کی اجازت دیتا ہے۔ خاص طور پر، یہ سمجھنا مفید ہو سکتا ہے کہ جائزہ کیوں کسی مخصوص موضوع کے لیے تفویض کیا جاتا ہے اور پائے جانے والے انتہائی متعلقہ الفاظ کے ساتھ منسلک کیا جاتا ہے۔ مثال کے طور پر، ہم سرخ کلسٹر پر توجہ مرکوز کر سکتے ہیں، موضوع 2 کے مطابق بدترین سروس کے بارے میں کچھ الفاظ کے ساتھ۔ اس گھنے علاقے میں موجود دستاویزات کافی منفی لگتی ہیں، جیسے "خوفناک کسٹمر سروس اور اس سے بھی بدتر کھانا"۔

پہلی نظر میں، ان طریقوں میں بہت سے پہلو مشترک ہیں، جیسے خود بخود عنوانات کی تعداد تلاش کرنا، زیادہ تر معاملات میں پری پروسیسنگ کی کوئی ضرورت نہیں، UMAP کا اطلاق دستاویز کے سرایت کی جہت کو کم کرنے کے لیے اور پھر، HDBSCAN کا استعمال ان کم شدہ دستاویز ایمبیڈنگز کی ماڈلنگ، لیکن جب وہ دستاویزات کو عنوانات تفویض کرتے ہیں تو وہ بنیادی طور پر مختلف ہوتے ہیں۔

Top2Vec کلسٹر کے سنٹرائڈ کے قریب واقع الفاظ تلاش کرکے موضوع کی نمائندگی کرتا ہے۔

Top2Vec سے مختلف طور پر، BERTopic کلسٹر کے سینٹروڈ کو مدنظر نہیں رکھتا، لیکن اس نے کلسٹر میں موجود تمام دستاویزات کو ایک منفرد دستاویز کے طور پر سمجھا اور TF-IDF کی کلاس پر مبنی تغیرات کا استعمال کرتے ہوئے موضوع کی نمائندگی کو نکالا۔

Top2Vec	BERTopic
کلسٹر کے سینٹرائڈز پر مبنی موضوعات کو نکالنے کی حکمت عملی۔	c-TF-IDF پر مبنی موضوعات کو نکالنے کی حکمت عملی۔
یہ ڈائنامک ٹاپک ماڈلنگ کی حمایت نہیں کرتا ہے۔	یہ ڈائنامک ٹاپک ماڈلنگ کو سپورٹ کرتا ہے۔
یہ ہر موضوع کے لیے لفظوں کے بادل بناتا ہے اور عنوانات، دستاویزات اور الفاظ کے لیے سرچنگ ٹولز فراہم کرتا ہے۔	یہ انٹرایکٹو ویژولائزیشن پلاٹ بنانے کی اجازت دیتا ہے، نکالے گئے عنوانات کی تشریح کرنے کی اجازت دیتا ہے۔

ٹاپک ماڈلنگ نیچرل لینگویج پروسیسنگ کا ایک بڑھتا ہوا شعبہ ہے اور اس میں متعدد ممکنہ ایپلی کیشنز ہیں، جیسے کہ جائزے، آڈیو اور سوشل میڈیا پوسٹس۔ جیسا کہ یہ دکھایا گیا ہے، یہ مضمون Topi2Vec اور BERTopic کا جائزہ فراہم کرتا ہے، جو کہ دو امید افزا نقطہ نظر ہیں، جو آپ کو کوڈ کی چند سطروں کے ساتھ موضوعات کی شناخت کرنے اور اعداد و شمار کے تصورات کے ذریعے نتائج کی تشریح کرنے میں مدد کر سکتے ہیں۔ اگر آپ کے پاس ان تکنیکوں کے بارے میں سوالات ہیں یا آپ کے پاس عنوانات کا پتہ لگانے کے دوسرے طریقوں کے بارے میں دیگر تجاویز ہیں، تو اسے تبصروں میں لکھیں۔

یوجینیا اینیلو اس وقت اٹلی کی پاڈووا یونیورسٹی کے شعبہ انفارمیشن انجینئرنگ میں ریسرچ فیلو ہیں۔ اس کا تحقیقی منصوبہ بے ضابطگی کا پتہ لگانے کے ساتھ مل کر مسلسل سیکھنے پر مرکوز ہے۔