کی طرف سے تصویر Mikechie Esparagoza
ہر روز، ہم زیادہ تر وقت بغیر لیبل والے ٹیکسٹ کے ساتھ نمٹ رہے ہیں اور ڈیٹا سے معلومات نکالنے کے لیے زیر نگرانی سیکھنے کے الگورتھم کو بالکل بھی استعمال نہیں کیا جا سکتا۔ قدرتی زبان کا ایک ذیلی فیلڈ متن کی بڑی مقدار میں بنیادی ساخت کو ظاہر کر سکتا ہے۔ اس نظم کو ٹاپک ماڈلنگ کہا جاتا ہے، جو کہ متن سے موضوعات نکالنے میں مہارت رکھتا ہے۔
اس تناظر میں، روایتی نقطہ نظر، جیسے کہ لیٹنٹ ڈیریچلیٹ ایلوکیشن اور نان نیگیٹو میٹرکس فیکٹرائزیشن، نے یہ ظاہر کیا کہ الفاظ کے درمیان تعلقات کو اچھی طرح سے گرفت میں نہیں لاتے کیونکہ وہ الفاظ کے تھیلے پر مبنی ہیں۔
اس وجہ سے، ہم دو امید افزا طریقوں، Top2Vec اور BERTopic پر توجہ مرکوز کرنے جا رہے ہیں، جو موضوعات کو تخلیق کرنے کے لیے پہلے سے تربیت یافتہ زبان کے ماڈلز کا فائدہ اٹھا کر ان خرابیوں کو دور کرتے ہیں۔ آو شروع کریں!
Top2Vec ایک ایسا ماڈل ہے جو پہلے سے تربیت یافتہ ورڈ ویکٹر استعمال کرکے اور بامعنی ایمبیڈڈ عنوانات، دستاویزات اور لفظ ویکٹر بنا کر متن سے خودکار عنوانات کا پتہ لگانے کے قابل ہے۔
اس نقطہ نظر میں، موضوعات کو نکالنے کے طریقہ کار کو مختلف مراحل میں تقسیم کیا جا سکتا ہے:
- سیمنٹک ایمبیڈنگ بنائیں: مشترکہ طور پر سرایت شدہ دستاویز اور لفظ ویکٹر بنائے جاتے ہیں۔ خیال یہ ہے کہ ملتے جلتے دستاویزات کو سرایت کرنے کی جگہ میں قریب ہونا چاہئے، جبکہ مختلف دستاویزات ان کے درمیان دور ہونے چاہئیں۔
- دستاویز ایمبیڈنگ کی جہت کو کم کریں۔: اعلی جہتی جگہ کو کم کرتے ہوئے دستاویزات کے سرایت کی زیادہ تر تغیرات کو محفوظ رکھنے کے لیے جہتی کمی کے نقطہ نظر کا اطلاق اہم ہے۔ اس کے علاوہ، یہ گھنے علاقوں کی شناخت کرنے کی اجازت دیتا ہے، جس میں ہر نقطہ ایک دستاویز ویکٹر کی نمائندگی کرتا ہے. UMAP اس مرحلے میں منتخب کردہ جہتی کمی کا ایک عام طریقہ ہے کیونکہ یہ اعلی جہتی ڈیٹا کے مقامی اور عالمی ڈھانچے کو محفوظ رکھنے کے قابل ہے۔
- دستاویزات کے کلسٹرز کی شناخت کریں۔: HDBScan، ایک کثافت پر مبنی کلسٹرنگ اپروچ، اسی طرح کے دستاویزات کے گھنے علاقوں کو تلاش کرنے کے لیے لاگو کیا جاتا ہے۔ ہر دستاویز کو شور کے طور پر تفویض کیا جاتا ہے اگر یہ گھنے جھرمٹ میں نہیں ہے، یا ایک لیبل اگر اس کا تعلق گھنے علاقے سے ہے۔
- اصل ایمبیڈنگ اسپیس میں سینٹروائڈز کا حساب لگائیں۔: سنٹرائڈ کی گنتی کم ایمبیڈنگ اسپیس کی بجائے ہائی ڈائمینشنل اسپیس پر غور کرکے کی جاتی ہے۔ کلاسک حکمت عملی ایک گھنے علاقے سے تعلق رکھنے والے تمام دستاویز ویکٹرز کے ریاضی کے اوسط کا حساب لگانے پر مشتمل ہے، جو HDBSCAN کے ساتھ پچھلے مرحلے میں حاصل کیا گیا تھا۔ اس طرح، ہر کلسٹر کے لیے ایک ٹاپک ویکٹر تیار ہوتا ہے۔
- ہر موضوع ویکٹر کے لیے الفاظ تلاش کریں۔: دستاویز کے ویکٹر کے قریب ترین لفظ ویکٹر لفظی طور پر سب سے زیادہ نمائندہ ہوتے ہیں۔
Top2Vec کی مثال
اس ٹیوٹوریل میں، ہم میکڈونلڈز کے منفی جائزوں کا تجزیہ کرنے جا رہے ہیں جو ڈیٹا سیٹ پر دستیاب ہے۔ data.world. اعداد و شمار کے ذریعہ فراہم کردہ USA مقامات میں اس فاسٹ فوڈ چین کی مصنوعات اور تنظیم کو بہتر بنانے کے لیے ان جائزوں سے عنوانات کی نشاندہی کرنا ملٹی نیشنل کے لیے قیمتی ہو سکتا ہے۔
import pandas as pd
from top2vec import Top2Vec file_path = "McDonalds-Yelp-Sentiment-DFE.csv"
df = pd.read_csv( file_path, usecols=["_unit_id", "city", "review"], encoding="unicode_escape",
)
df.head()
docs_bad = df["review"].values.tolist()
کوڈ کی ایک لائن میں، ہم top2vec کے تمام مراحل انجام دینے جا رہے ہیں جن کی پہلے وضاحت کی گئی ہے۔
topic_model = Top2Vec( docs_bad, embedding_model="universal-sentence-encoder", speed="deep-learn", tokenizer=tok, ngram_vocab=True, ngram_vocab_args={"connector_words": "phrases.ENGLISH_CONNECTOR_WORDS"},
)
Top2Vec کے اہم دلائل یہ ہیں:
- docs_bad: تاروں کی ایک فہرست ہے۔
- universal-sentence-encoder: منتخب کردہ پہلے سے تربیت یافتہ ایمبیڈنگ ماڈل ہے۔
- deep-learn: ایک پیرامیٹر ہے جو تیار کردہ دستاویز ویکٹر کے معیار کا تعین کرتا ہے۔
topic_model.get_num_topics() #3
topic_words, word_scores, topic_nums = topic_model.get_topics(3) for topic in topic_nums: topic_model.generate_topic_wordcloud(topic)
بہت زیادہ
کلاؤڈز کے لفظ سے، ہم یہ اندازہ لگا سکتے ہیں کہ موضوع 0 میکڈونلڈ میں سروس کے بارے میں عام شکایات کے بارے میں ہے، جیسے "سست سروس"، "خوفناک سروس" اور "آرڈر غلط"، جبکہ موضوع 1 اور 2 بالترتیب ناشتے کے کھانے کا حوالہ دیتے ہیں ( میک مفن، بسکٹ، انڈا) اور کافی (آئسڈ کافی اور کپ کافی)۔
اب، ہم دو مطلوبہ الفاظ کا استعمال کرتے ہوئے دستاویزات کو تلاش کرنے کی کوشش کرتے ہیں، غلط اور سست:
( documents, document_scores, document_ids,
) = topic_model.search_documents_by_keywords( keywords=["wrong", "slow"], num_docs=5
)
for doc, score, doc_id in zip(documents, document_scores, document_ids): print(f"Document: {doc_id}, Score: {score}") print("-----------") print(doc) print("-----------") print()
: پیداوار
Document: 707, Score: 0.5517634093633295
-----------
horrible.... that is all. do not go there.
----------- Document: 930, Score: 0.4242547340973836
-----------
no drive through :-/
----------- Document: 185, Score: 0.39162203345993046
-----------
the drive through line is terrible. they are painfully slow.
----------- Document: 181, Score: 0.3775083338082392
-----------
awful service and extremely slow. go elsewhere.
----------- Document: 846, Score: 0.35400602635951994
-----------
they have bad service and very rude
-----------
"BERTopic ایک موضوع کی ماڈلنگ کی تکنیک ہے جو ٹرانسفارمرز اور c-TF-IDF کا فائدہ اٹھاتی ہے تاکہ گھنے کلسٹرز کو تخلیق کیا جا سکے جس سے موضوع کی تفصیل میں اہم الفاظ رکھنے کے ساتھ آسانی سے قابل تشریح موضوعات کی اجازت دی جا سکے۔"
جیسا کہ نام سے پتہ چلتا ہے، BERTopic متن میں موجود موضوعات کی شناخت کے لیے طاقتور ٹرانسفارمر ماڈلز کا استعمال کرتا ہے۔ اس ٹاپک ماڈلنگ الگورتھم کی ایک اور خصوصیت TF-IDF کے مختلف قسم کا استعمال ہے، جسے TF-IDF کی کلاس پر مبنی تغیر کہا جاتا ہے۔
Top2Vec کی طرح، اسے عنوانات کی تعداد جاننے کی ضرورت نہیں ہے، لیکن یہ خود بخود عنوانات کو نکالتا ہے۔
مزید برآں، Top2Vec کی طرح، یہ ایک الگورتھم ہے جس میں مختلف مراحل شامل ہیں۔ پہلے تین مراحل ایک جیسے ہیں: ایمبیڈنگ دستاویزات کی تخلیق، UMAP کے ساتھ جہت میں کمی اور HDBScan کے ساتھ کلسٹرنگ۔
لگاتار مراحل Top2Vec سے ہٹنا شروع ہو جاتے ہیں۔ ایچ ڈی بی ایس سی اے این کے ساتھ گھنے علاقوں کو تلاش کرنے کے بعد، ہر موضوع کو الفاظ کے تھیلے کی نمائندگی میں تبدیل کیا جاتا ہے، جو اس بات کو مدنظر رکھتا ہے کہ آیا یہ لفظ دستاویز میں ظاہر ہوتا ہے یا نہیں۔ ایک کلسٹر سے تعلق رکھنے والے دستاویزات کے بعد ایک منفرد دستاویز سمجھا جاتا ہے اور TF-IDF لاگو کیا جاتا ہے۔ لہذا، ہر موضوع کے لیے، ہم سب سے زیادہ متعلقہ الفاظ کی نشاندہی کرتے ہیں، جن میں سب سے زیادہ c-TF-IDF ہونا چاہیے۔
BERTopic کی مثال
ہم اسی ڈیٹاسیٹ پر تجزیہ دہراتے ہیں۔
ہم BERTopic کا استعمال کرتے ہوئے جائزوں سے عنوانات نکالنے جا رہے ہیں:
model_path_bad = 'model/bert_bad'
topic_model_bad = train_bert(docs_bad,model_path_bad)
freq_df = topic_model_bad.get_topic_info()
print("Number of topics: {}".format( len(freq_df)))
freq_df['Percentage'] = round(freq_df['Count']/freq_df['Count'].sum() * 100,2)
freq_df = freq_df.iloc[:,[0,1,3,2]]
freq_df.head()
ماڈل کے ذریعہ واپس کردہ جدول نکالے گئے 14 عنوانات کے بارے میں معلومات فراہم کرتا ہے۔ موضوع موضوع کے شناخت کنندہ سے مطابقت رکھتا ہے، سوائے ان تمام آؤٹ لیرز کے جنہیں نظر انداز کیا جاتا ہے جن پر -1 کا لیبل لگا ہوا ہے۔
اب، ہم اپنے موضوعات کو انٹرایکٹو گرافس میں تصور کرنے کے حوالے سے سب سے دلچسپ حصے پر جانے جا رہے ہیں، جیسے کہ ہر موضوع کے لیے انتہائی متعلقہ اصطلاحات کا تصور، انٹر ٹاپک فاصلے کا نقشہ، سرایت کرنے کی جگہ کی دو جہتی نمائندگی اور موضوع کا درجہ بندی
آئیے ٹاپ ٹین ٹاپکس کے بار چارٹ دکھانا شروع کرتے ہیں۔ ہر موضوع کے لیے، ہم انتہائی اہم الفاظ کا مشاہدہ کر سکتے ہیں، جنہیں c-TF-IDF سکور کی بنیاد پر گھٹتے ہوئے ترتیب میں ترتیب دیا گیا ہے۔ ایک لفظ جتنا زیادہ متعلقہ ہوگا، اسکور اتنا ہی زیادہ ہوگا۔
پہلا عنوان عام الفاظ پر مشتمل ہے، جیسے مقام اور خوراک، عنوان 1 آرڈر اور انتظار، موضوع 2 بدترین اور خدمت، موضوع 3 جگہ اور گندا، اشتہار وغیرہ۔
بار چارٹس کو دیکھنے کے بعد، اب وقت آگیا ہے کہ انٹر ٹاپک فاصلے کے نقشے پر ایک نظر ڈالیں۔ ہم پلاٹ میں موضوعات کو دیکھنے کے لیے c-TF-IDF سکور کی جہتی کو دو جہتی جگہ میں کم کرتے ہیں۔ نچلے حصے میں، ایک سلائیڈر ہے جو اس موضوع کو منتخب کرنے کی اجازت دیتا ہے جو سرخ رنگ میں رنگا جائے گا۔ ہم دیکھ سکتے ہیں کہ موضوعات کو دو مختلف کلسٹرز میں گروپ کیا گیا ہے، ایک عام تھیمیٹکس جیسے کھانا، چکن اور مقام، اور دوسرا مختلف منفی پہلوؤں کے ساتھ، جیسے بدترین سروس، گندی، جگہ اور سردی۔
اگلا گراف جائزوں اور عنوانات کے درمیان تعلق کو دیکھنے کی اجازت دیتا ہے۔ خاص طور پر، یہ سمجھنا مفید ہو سکتا ہے کہ جائزہ کیوں کسی مخصوص موضوع کے لیے تفویض کیا جاتا ہے اور پائے جانے والے انتہائی متعلقہ الفاظ کے ساتھ منسلک کیا جاتا ہے۔ مثال کے طور پر، ہم سرخ کلسٹر پر توجہ مرکوز کر سکتے ہیں، موضوع 2 کے مطابق بدترین سروس کے بارے میں کچھ الفاظ کے ساتھ۔ اس گھنے علاقے میں موجود دستاویزات کافی منفی لگتی ہیں، جیسے "خوفناک کسٹمر سروس اور اس سے بھی بدتر کھانا"۔
پہلی نظر میں، ان طریقوں میں بہت سے پہلو مشترک ہیں، جیسے خود بخود عنوانات کی تعداد تلاش کرنا، زیادہ تر معاملات میں پری پروسیسنگ کی کوئی ضرورت نہیں، UMAP کا اطلاق دستاویز کے سرایت کی جہت کو کم کرنے کے لیے اور پھر، HDBSCAN کا استعمال ان کم شدہ دستاویز ایمبیڈنگز کی ماڈلنگ، لیکن جب وہ دستاویزات کو عنوانات تفویض کرتے ہیں تو وہ بنیادی طور پر مختلف ہوتے ہیں۔
Top2Vec کلسٹر کے سنٹرائڈ کے قریب واقع الفاظ تلاش کرکے موضوع کی نمائندگی کرتا ہے۔
Top2Vec سے مختلف طور پر، BERTopic کلسٹر کے سینٹروڈ کو مدنظر نہیں رکھتا، لیکن اس نے کلسٹر میں موجود تمام دستاویزات کو ایک منفرد دستاویز کے طور پر سمجھا اور TF-IDF کی کلاس پر مبنی تغیرات کا استعمال کرتے ہوئے موضوع کی نمائندگی کو نکالا۔
Top2Vec | BERTopic |
کلسٹر کے سینٹرائڈز پر مبنی موضوعات کو نکالنے کی حکمت عملی۔ | c-TF-IDF پر مبنی موضوعات کو نکالنے کی حکمت عملی۔ |
یہ ڈائنامک ٹاپک ماڈلنگ کی حمایت نہیں کرتا ہے۔ | یہ ڈائنامک ٹاپک ماڈلنگ کو سپورٹ کرتا ہے۔ |
یہ ہر موضوع کے لیے لفظوں کے بادل بناتا ہے اور عنوانات، دستاویزات اور الفاظ کے لیے سرچنگ ٹولز فراہم کرتا ہے۔ | یہ انٹرایکٹو ویژولائزیشن پلاٹ بنانے کی اجازت دیتا ہے، نکالے گئے عنوانات کی تشریح کرنے کی اجازت دیتا ہے۔ |
ٹاپک ماڈلنگ نیچرل لینگویج پروسیسنگ کا ایک بڑھتا ہوا شعبہ ہے اور اس میں متعدد ممکنہ ایپلی کیشنز ہیں، جیسے کہ جائزے، آڈیو اور سوشل میڈیا پوسٹس۔ جیسا کہ یہ دکھایا گیا ہے، یہ مضمون Topi2Vec اور BERTopic کا جائزہ فراہم کرتا ہے، جو کہ دو امید افزا نقطہ نظر ہیں، جو آپ کو کوڈ کی چند سطروں کے ساتھ موضوعات کی شناخت کرنے اور اعداد و شمار کے تصورات کے ذریعے نتائج کی تشریح کرنے میں مدد کر سکتے ہیں۔ اگر آپ کے پاس ان تکنیکوں کے بارے میں سوالات ہیں یا آپ کے پاس عنوانات کا پتہ لگانے کے دوسرے طریقوں کے بارے میں دیگر تجاویز ہیں، تو اسے تبصروں میں لکھیں۔
یوجینیا اینیلو اس وقت اٹلی کی پاڈووا یونیورسٹی کے شعبہ انفارمیشن انجینئرنگ میں ریسرچ فیلو ہیں۔ اس کا تحقیقی منصوبہ بے ضابطگی کا پتہ لگانے کے ساتھ مل کر مسلسل سیکھنے پر مرکوز ہے۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو بلاک چین۔ Web3 Metaverse Intelligence. علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://www.kdnuggets.com/2023/01/topic-modeling-approaches-top2vec-bertopic.html?utm_source=rss&utm_medium=rss&utm_campaign=topic-modeling-approaches-top2vec-vs-bertopic
- 1
- 10
- 100
- 7
- a
- قابلیت
- ہمارے بارے میں
- اکاؤنٹ
- Ad
- پتہ
- کے بعد
- یلگورتم
- یلگوردمز
- منسلک
- تمام
- تین ہلاک
- اجازت دے رہا ہے
- کی اجازت دیتا ہے
- مقدار
- تجزیہ
- تجزیے
- اور
- بے ضابطگی کا پتہ لگانا
- ایک اور
- درخواست
- ایپلی کیشنز
- اطلاقی
- نقطہ نظر
- نقطہ نظر
- رقبہ
- علاقوں
- دلائل
- مضمون
- پہلوؤں
- تفویض
- آڈیو
- خود کار طریقے سے
- دستیاب
- برا
- بار
- کی بنیاد پر
- کیونکہ
- کے درمیان
- پایان
- ناشتا
- عمارت
- بناتا ہے
- حساب
- کہا جاتا ہے
- نہیں کر سکتے ہیں
- صلاحیت رکھتا
- قبضہ
- مقدمات
- چین
- خصوصیت
- چارٹس
- منتخب کیا
- شہر
- کلاسک
- کلوز
- قریب
- کلسٹر
- clustering کے
- کوڈ
- کافی
- مل کر
- تبصروں
- کامن
- شکایات
- سمجھا
- پر غور
- پر مشتمل ہے
- سیاق و سباق
- روایتی
- اسی کے مطابق
- مساوی ہے
- تخلیق
- بنائی
- پیدا
- تخلیق
- مخلوق
- کپ
- اس وقت
- گاہک
- کسٹمر سروس
- اعداد و شمار
- دن
- معاملہ
- demonstrated,en
- شعبہ
- کھوج
- یہ تعین
- مختلف
- فاصلے
- دور
- موڑ
- دستاویز
- دستاویزات
- نہیں کرتا
- خرابیاں
- ڈرائیو
- کے ذریعے ڈرائیو
- متحرک
- ہر ایک
- آسانی سے
- دوسری جگہوں پر
- ایمبیڈڈ
- انجنیئرنگ
- بھی
- مثال کے طور پر
- اس کے علاوہ
- وضاحت کی
- نکالنے
- نچوڑ۔
- انتہائی
- فاسٹ
- ساتھی
- چند
- میدان
- مل
- تلاش
- پہلا
- توجہ مرکوز
- توجہ مرکوز
- کھانا
- ملا
- سے
- بنیادی طور پر
- جنرل
- پیدا
- پیدا
- حاصل
- گلوبل
- Go
- جا
- گراف
- گرافکس
- بڑھتے ہوئے
- مدد
- درجہ بندی
- ہائی
- اعلی
- سب سے زیادہ
- HTTPS
- خیال
- شناخت
- شناخت
- شناخت
- کی نشاندہی
- درآمد
- اہم
- کو بہتر بنانے کے
- in
- معلومات
- کے بجائے
- انٹرایکٹو
- دلچسپ
- تشریح
- IT
- اٹلی
- KDnuggets
- رکھتے ہوئے
- جان
- لیبل
- زبان
- بڑے
- سیکھنے
- لیتا ہے
- لائن
- لائنوں
- لنکڈ
- لسٹ
- مقامی
- واقع ہے
- محل وقوع
- مقامات
- دیکھو
- تلاش
- مین
- بہت سے
- نقشہ
- میٹرکس
- ایم سی ڈونلڈ
- بامعنی
- میڈیا
- ماڈل
- ماڈلنگ
- ماڈلنگ
- ماڈل
- زیادہ
- سب سے زیادہ
- ملٹیشنل
- نام
- قدرتی
- قدرتی زبان
- قدرتی زبان عملیات
- ضرورت ہے
- منفی
- اگلے
- شور
- تعداد
- متعدد
- مشاہدہ
- حاصل کی
- ایک
- حکم
- تنظیم
- اصل
- دیگر
- pandas
- پیرامیٹر
- حصہ
- خاص طور پر
- فیصد
- انجام دینے کے
- جملے
- مقام
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- پوائنٹ
- ممکن
- مراسلات
- طاقتور
- حال (-)
- پچھلا
- پہلے
- پروسیسنگ
- تیار
- حاصل
- منصوبے
- وعدہ
- فراہم
- فراہم کرتا ہے
- معیار
- سوالات
- وجہ
- ریڈ
- کو کم
- کم
- کو کم کرنے
- کے بارے میں
- تعلقات
- تعلقات
- متعلقہ
- دوبارہ
- نمائندگی
- نمائندے
- کی نمائندگی کرتا ہے
- تحقیق
- نتائج کی نمائش
- ظاہر
- کا جائزہ لینے کے
- جائزہ
- اسی
- تلاش کریں
- تلاش
- منتخب
- سروس
- ہونا چاہئے
- دکھائیں
- دکھایا گیا
- نگاہ
- اسی طرح
- اسی طرح
- بعد
- ایک
- سلائیڈر
- سست
- So
- سماجی
- سوشل میڈیا
- سوشل میڈیا پوسٹس
- کچھ
- خلا
- خصوصی
- مخصوص
- تقسیم
- مرحلہ
- مراحل
- حکمت عملی
- ساخت
- اس طرح
- پتہ چلتا ہے
- زیر نگرانی سیکھنے
- حمایت
- کی حمایت کرتا ہے
- ٹیبل
- لے لو
- لیتا ہے
- تکنیک
- دس
- شرائط
- ۔
- وہاں.
- تین
- کے ذریعے
- وقت
- کرنے کے لئے
- ٹوکن
- اوزار
- سب سے اوپر
- اوپر دس
- موضوع
- موضوعات
- ٹرانسفارمرز
- سبق
- ٹھیٹھ
- بنیادی
- سمجھ
- منفرد
- یونیورسٹی
- امریکا
- استعمال کی شرائط
- قیمتی
- اقدار
- مختلف
- تصور
- انتظار
- جس
- جبکہ
- حالت
- گے
- کے اندر
- لفظ
- الفاظ
- بدترین
- لکھنا
- غلط
- زیفیرنیٹ