ڈیٹا تک بات چیت کی رسائی کے ساتھ معلوماتی ایج بنانا

ڈیٹا تک بات چیت کی رسائی کے ساتھ معلوماتی ایج بنانا

ماخذ نوڈ: 2737787

ڈیٹا کے تجزیہ کے لیے بات چیت کی AI

شکل 1: Text2SQL بہاؤ کی نمائندگی

جیسا کہ ہماری دنیا زیادہ عالمی اور متحرک ہو رہی ہے، کاروبار باخبر، معروضی اور بروقت فیصلے کرنے کے لیے ڈیٹا پر زیادہ سے زیادہ انحصار کر رہے ہیں۔ تاہم، ابھی تک، تنظیمی اعداد و شمار کی مکمل صلاحیت کو سامنے لانا اکثر مٹھی بھر ڈیٹا سائنسدانوں اور تجزیہ کاروں کا استحقاق ہوتا ہے۔ زیادہ تر ملازمین روایتی ڈیٹا سائنس ٹول کٹ (SQL، Python، R وغیرہ) میں مہارت نہیں رکھتے۔ مطلوبہ ڈیٹا تک رسائی کے لیے، وہ ایک اضافی پرت سے گزرتے ہیں جہاں تجزیہ کار یا BI ٹیمیں کاروباری سوالات کے نثر کو ڈیٹا کی زبان میں "ترجمہ" کرتی ہیں۔ اس سفر میں رگڑ اور ناکارہ ہونے کا امکان بہت زیادہ ہے — مثال کے طور پر، ڈیٹا تاخیر کے ساتھ یا اس وقت بھی جب سوال پہلے ہی متروک ہو چکا ہو۔ جب ضروریات کو تجزیاتی سوالات میں درست طریقے سے ترجمہ نہیں کیا جاتا ہے تو معلومات راستے میں ضائع ہو سکتی ہیں۔ اس کے علاوہ، اعلیٰ معیار کی بصیرتیں پیدا کرنے کے لیے ایک تکراری نقطہ نظر کی ضرورت ہوتی ہے جو لوپ میں ہر اضافی قدم کے ساتھ حوصلہ شکنی کی جاتی ہے۔ دوسری طرف، یہ ایڈہاک تعاملات مہنگے ڈیٹا ٹیلنٹ کے لیے خلل پیدا کرتے ہیں اور انھیں زیادہ اسٹریٹجک ڈیٹا ورک سے ہٹاتے ہیں، جیسا کہ ڈیٹا سائنسدان کے ان "اعترافات" میں بیان کیا گیا ہے:

جب میں اسکوائر پر تھا اور ٹیم چھوٹی تھی تو ہمارے پاس ایک خوفناک "تجزیہ آن کال" گردش تھی۔ اسے ہفتہ وار بنیادوں پر سختی سے گھمایا جاتا تھا، اور اگر یہ آپ کی باری تھی تو آپ کو معلوم تھا کہ آپ اس ہفتے بہت کم "حقیقی" کام کریں گے اور اپنا زیادہ تر وقت مختلف پروڈکٹ اور آپریشنز ٹیموں سے ایڈہاک سوالات کی فیلڈنگ میں صرف کریں گے۔ کمپنی (SQL monkeying، ہم اسے کہتے ہیں)۔ تجزیاتی ٹیم میں مینیجر کے کرداروں کے لیے کٹ تھروٹ مقابلہ تھا اور میں سمجھتا ہوں کہ یہ مکمل طور پر منیجرز کو اس روٹیشن سے مستثنیٰ ہونے کا نتیجہ تھا — کوئی بھی اسٹیٹس پرائز آن کال کام نہ کرنے کی گاجر کا مقابلہ نہیں کر سکتا۔[1]

درحقیقت، کیا اپنے ڈیٹا کے عملے کے ساتھ بات چیت کے متعدد دوروں سے گزرنے کے بجائے اپنے ڈیٹا سے براہ راست بات کرنا اچھا نہیں ہوگا؟ اس نقطہ نظر کو بات چیت کے انٹرفیس کے ذریعہ قبول کیا گیا ہے جو انسانوں کو زبان کا استعمال کرتے ہوئے ڈیٹا کے ساتھ بات چیت کرنے کی اجازت دیتا ہے، مواصلات کا ہمارا سب سے زیادہ بدیہی اور عالمگیر چینل۔ ایک سوال کو پارس کرنے کے بعد، ایک الگورتھم اس کو اپنی پسند کی استفسار کی زبان، جیسے کہ SQL میں ایک منظم منطقی شکل میں انکوڈ کرتا ہے۔ اس طرح، غیر تکنیکی صارفین اپنے ڈیٹا کے ساتھ چیٹ کر سکتے ہیں اور BI ٹیم کے ذریعے چکر لگائے بغیر، مخصوص، متعلقہ اور بروقت معلومات حاصل کر سکتے ہیں۔ اس مضمون میں، ہم Text2SQL کے نفاذ کے مختلف پہلوؤں پر غور کریں گے اور Large Language Models (LLMs) کے استعمال کے ساتھ جدید طریقوں پر توجہ مرکوز کریں گے، جو ابھی تک بہترین کارکردگی حاصل کرتے ہیں (cf. [2]؛ متبادل طریقوں پر ایک سروے کے لیے۔ LLMs سے آگے، قارئین کو بھیجا جاتا ہے [3])۔ آرٹیکل کو AI فیچر کی منصوبہ بندی اور تعمیر کرتے وقت غور کرنے والے اہم عناصر کے درج ذیل "ذہنی ماڈل" کے مطابق بنایا گیا ہے۔

ڈیٹا کے تجزیہ کے لیے بات چیت کی AI
شکل 2: AI خصوصیت کا ذہنی ماڈل

آئیے آخر کو ذہن میں رکھتے ہوئے شروع کریں اور قدر کو دوبارہ دیکھیں — آپ اپنے ڈیٹا یا اینالیٹکس پروڈکٹ میں Text2SQL کی خصوصیت کیوں بنائیں گے۔ تین اہم فوائد ہیں:

  • کاروباری صارفین براہ راست اور بروقت طریقے سے تنظیمی ڈیٹا تک رسائی حاصل کر سکتے ہیں۔
  • اس سے سکون ملتا ہے۔ ڈیٹا سائنسدان اور تجزیہ کار کاروباری صارفین کی ایڈہاک درخواستوں کے بوجھ سے اور انہیں ڈیٹا کے جدید چیلنجز پر توجہ مرکوز کرنے کی اجازت دیتا ہے۔
  • اس کی اجازت دیتا ہے کاروبار اس کے اعداد و شمار کو زیادہ سیال اور اسٹریٹجک طریقے سے فائدہ اٹھانا، آخر کار اسے فیصلہ سازی کے لیے ایک ٹھوس بنیاد میں تبدیل کرنا۔

اب، پروڈکٹ کے وہ کون سے منظرنامے ہیں جن میں آپ Text2SQL پر غور کر سکتے ہیں؟ تین اہم ترتیبات ہیں:

  • آپ پیشکش کر رہے ہیں a توسیع پذیر ڈیٹا/BI پروڈکٹ اور مزید صارفین کو غیر تکنیکی طریقے سے اپنے ڈیٹا تک رسائی کے قابل بنانا چاہتے ہیں، اس طرح استعمال اور صارف کی بنیاد دونوں میں اضافہ ہوتا ہے۔ مثال کے طور پر، ServiceNow کے پاس ہے۔ ایک بڑی بات چیت کی پیشکش میں ڈیٹا کے سوالات کو ضم کر دیا۔، اور اتلان حال ہی میں ہے قدرتی زبان کے ڈیٹا کی تلاش کا اعلان کیا۔.
  • آپ کمپنیوں میں ڈیٹا تک رسائی کو جمہوری بنانے کے لیے ڈیٹا/AI اسپیس میں کچھ بنانا چاہتے ہیں، ایسی صورت میں آپ ممکنہ طور پر اس پر غور کر سکتے ہیں۔ بنیادی طور پر Text2SQL کے ساتھ MVP. فراہم کرنے والے پسند کرتے ہیں۔ AI2SQL اور Text2sql.ai پہلے سے ہی اس جگہ میں داخلہ بنا رہے ہیں۔
  • آپ ایک پر کام کر رہے ہیں۔ اپنی مرضی کے مطابق BI نظام اور انفرادی کمپنی میں اس کے استعمال کو زیادہ سے زیادہ اور جمہوری بنانا چاہتے ہیں۔

جیسا کہ ہم مندرجہ ذیل حصوں میں دیکھیں گے، Text2SQL کو ایک غیر معمولی اپ فرنٹ سیٹ اپ کی ضرورت ہے۔ ROI کا اندازہ لگانے کے لیے، ان فیصلوں کی نوعیت پر غور کریں جن کی حمایت کی جانی ہے اور ساتھ ہی دستیاب ڈیٹا پر۔ Text2SQL متحرک ماحول میں ایک مکمل جیت ہو سکتا ہے جہاں ڈیٹا تیزی سے تبدیل ہو رہا ہے اور فیصلہ سازی، جیسے سرمایہ کاری، مارکیٹنگ، مینوفیکچرنگ اور توانائی کی صنعت میں فعال اور کثرت سے استعمال ہوتا ہے۔ ان ماحول میں، علم کے نظم و نسق کے روایتی ٹولز بہت مستحکم ہیں، اور ڈیٹا اور معلومات تک رسائی کے زیادہ روانی کے طریقے کمپنیوں کو مسابقتی فائدہ پیدا کرنے میں مدد کرتے ہیں۔ ڈیٹا کے لحاظ سے، Text2SQL ڈیٹا بیس کے ساتھ سب سے بڑی قدر فراہم کرتا ہے جو کہ ہے:

  • بڑا اور بڑھتا ہوا ۔، تاکہ Text2SQL وقت کے ساتھ ساتھ اپنی قدر کو ظاہر کر سکے کیونکہ زیادہ سے زیادہ ڈیٹا کا فائدہ اٹھایا جاتا ہے۔
  • اعلی معیار، تاکہ Text2SQL الگورتھم کو ڈیٹا میں ضرورت سے زیادہ شور (غیر مطابقت، خالی اقدار وغیرہ) سے نمٹنے کی ضرورت نہ ہو۔ عام طور پر، ایپلی کیشنز کے ذریعہ خود بخود تیار کردہ ڈیٹا کا معیار اور مستقل مزاجی انسانوں کے ذریعہ تخلیق اور برقرار رکھنے والے ڈیٹا سے زیادہ ہوتا ہے۔
  • معنوی طور پر بالغ خام کے برخلاف، تاکہ انسان مرکزی تصورات، رشتوں اور میٹرکس کی بنیاد پر ڈیٹا سے استفسار کر سکیں جو ان کے ذہنی ماڈل میں موجود ہیں۔ نوٹ کریں کہ سیمنٹک میچورٹی ایک اضافی تبدیلی کے مرحلے سے حاصل کی جا سکتی ہے جو خام ڈیٹا کو تصوراتی ڈھانچے میں ڈھالتا ہے (سی ایف سیکشن "ڈیٹا بیس کی معلومات کے ساتھ پرامپٹ کو بہتر بنانا")۔

مندرجہ ذیل میں، ہم ڈیٹا، الگورتھم، صارف کے تجربے کے ساتھ ساتھ Text2SQL خصوصیت کے متعلقہ غیر فعال تقاضوں میں گہرائی میں جائیں گے۔ مضمون پروڈکٹ مینیجرز، UX ڈیزائنرز اور ان ڈیٹا سائنسدانوں اور انجینئرز کے لیے لکھا گیا ہے جو اپنے Text2SQL سفر کے آغاز میں ہیں۔ ان لوگوں کے لیے، یہ شروع کرنے کے لیے نہ صرف ایک گائیڈ فراہم کرتا ہے، بلکہ پروڈکٹ، ٹیکنالوجی اور کاروبار کے درمیان انٹرفیس کے بارے میں بات چیت کے لیے علم کا ایک مشترکہ میدان بھی فراہم کرتا ہے، بشمول متعلقہ تجارتی معاملات۔ اگر آپ اپنے نفاذ میں پہلے سے زیادہ ترقی یافتہ ہیں، تو آخر میں حوالہ جات دریافت کرنے کے لیے گہرے غوطے فراہم کرتے ہیں۔

اگر یہ گہرائی والا تعلیمی مواد آپ کے لیے مفید ہے، تو آپ کر سکتے ہیں۔ ہماری AI ریسرچ میلنگ لسٹ کو سبسکرائب کریں۔ جب ہم نیا مواد جاری کرتے ہیں تو متنبہ کیا جائے۔ 

1 ڈیٹا

مشین لرننگ کی کوئی بھی کوشش ڈیٹا سے شروع ہوتی ہے، اس لیے ہم تربیت اور پیشین گوئی کے دوران استعمال کیے جانے والے ان پٹ اور ٹارگٹ ڈیٹا کی ساخت کو واضح کرکے شروع کریں گے۔ پورے مضمون میں، ہم شکل 2 سے Text1SQL کے بہاؤ کو اپنی چلتی نمائندگی کے طور پر استعمال کریں گے، اور فی الحال زیر غور اجزاء اور تعلقات کو پیلے رنگ میں اجاگر کریں گے۔

ڈیٹا کے تجزیہ کے لیے بات چیت کی AI
شکل 3: اس Text2SQL کی نمائندگی میں، ڈیٹا سے متعلقہ عناصر اور تعلقات کو پیلے رنگ میں نشان زد کیا گیا ہے۔

1.1 ڈیٹا کی شکل اور ساخت

عام طور پر، ایک خام Text2SQL ان پٹ آؤٹ پٹ جوڑا قدرتی زبان کے سوال اور متعلقہ SQL استفسار پر مشتمل ہوتا ہے، مثال کے طور پر:

س"ہر صارف کے لیے نام اور پیروکاروں کی تعداد درج کریں۔

SQL استفسار:

user_profiles سے نام، پیروکار منتخب کریں۔

تربیتی ڈیٹا کی جگہ میں، سوالات اور ایس کیو ایل کے سوالات کے درمیان نقشہ سازی کئی سے زیادہ ہے:

  • ایک SQL استفسار کو قدرتی زبان میں بہت سے مختلف سوالات کے ساتھ نقشہ بنایا جا سکتا ہے۔ مثال کے طور پر، مندرجہ بالا استفسار کے الفاظ کا اظہار اس طرح کیا جا سکتا ہے:مجھے فی صارف کے پیروکاروں کے نام اور تعداد دکھائیں۔"،"ہر صارف کے کتنے پیروکار ہیں؟"وغیرہ
  • SQL نحو انتہائی ورسٹائل ہے، اور تقریباً ہر سوال کو SQL میں متعدد طریقوں سے پیش کیا جا سکتا ہے۔ سب سے آسان مثال WHERE شقوں کی مختلف ترتیب ہیں۔ زیادہ جدید موقف پر، ہر وہ شخص جس نے SQL استفسار کی اصلاح کی ہے وہ جان لے گا کہ بہت سی سڑکیں ایک ہی نتیجہ کی طرف لے جاتی ہیں، اور لفظی طور پر مساوی استفسارات کا نحو بالکل مختلف ہو سکتا ہے۔

Text2SQL کے لیے تربیتی ڈیٹا کا دستی مجموعہ خاص طور پر تکلیف دہ ہے۔ اس کے لیے نہ صرف تشریح کرنے والے کی جانب سے SQL مہارت کی ضرورت ہوتی ہے، بلکہ عام لسانی کاموں جیسے جذبات کا تجزیہ اور متن کی درجہ بندی کے مقابلے میں فی مثال زیادہ وقت بھی درکار ہوتا ہے۔ تربیتی مثالوں کی کافی مقدار کو یقینی بنانے کے لیے، ڈیٹا کو بڑھانے کا استعمال کیا جا سکتا ہے — مثال کے طور پر، LLMs کو اسی سوال کے لیے پیرا فریسز بنانے کے لیے استعمال کیا جا سکتا ہے۔ [3] Text2SQL ڈیٹا بڑھانے کی تکنیک کا ایک مکمل سروے فراہم کرتا ہے۔

1.2 ڈیٹا بیس کی معلومات کے ساتھ پرامپٹ کو افزودہ کرنا

Text2SQL غیر ساختہ اور سٹرکچرڈ ڈیٹا کے درمیان انٹرفیس میں ایک الگورتھم ہے۔ بہترین کارکردگی کے لیے، تربیت اور پیشین گوئی کے دوران دونوں قسم کے ڈیٹا کا موجود ہونا ضروری ہے۔ خاص طور پر، الگورتھم کو استفسار شدہ ڈیٹا بیس کے بارے میں جاننا ہوتا ہے اور استفسار کو اس طرح مرتب کرنے کے قابل ہونا چاہیے کہ اسے ڈیٹا بیس کے خلاف عمل میں لایا جا سکے۔ یہ علم شامل ہوسکتا ہے:

  • ڈیٹا بیس کے کالم اور ٹیبل
  • میزوں کے درمیان تعلقات (غیر ملکی چابیاں)
  • ڈیٹا بیس کا مواد

ڈیٹا بیس کے علم کو شامل کرنے کے لیے دو اختیارات ہیں: ایک طرف، تربیتی ڈیٹا کو مخصوص ڈیٹا بیس کے لیے لکھی گئی مثالوں تک محدود رکھا جا سکتا ہے، ایسی صورت میں سکیما کو براہ راست SQL استفسار سے سیکھا جاتا ہے اور سوال میں اس کی میپنگ۔ یہ واحد ڈیٹا بیس ترتیب انفرادی ڈیٹا بیس اور/یا کمپنی کے لیے الگورتھم کو بہتر بنانے کی اجازت دیتی ہے۔ تاہم، یہ اسکیل ایبلٹی کے لیے کسی بھی عزائم کو ختم کر دیتا ہے، کیونکہ ماڈل کو ہر ایک گاہک یا ڈیٹا بیس کے لیے ٹھیک کرنے کی ضرورت ہوتی ہے۔ متبادل طور پر، کثیر ڈیٹا بیس کی ترتیب میں، ڈیٹا بیس اسکیما کو ان پٹ کے حصے کے طور پر فراہم کیا جاسکتا ہے، جس سے الگورتھم کو نئے، غیر دیکھے ہوئے ڈیٹا بیس اسکیموں کو "عام" کرنے کی اجازت ملتی ہے۔ اگرچہ آپ کو بالکل اس نقطہ نظر کو اپنانے کی ضرورت ہوگی اگر آپ بہت سے مختلف ڈیٹا بیسز پر Text2SQL استعمال کرنا چاہتے ہیں، ذہن میں رکھیں کہ اس کے لیے کافی فوری انجینئرنگ کوشش کی ضرورت ہے۔ کسی بھی معقول کاروباری ڈیٹا بیس کے لیے، بشمول پرامپٹ میں مکمل معلومات انتہائی ناکارہ ہوں گی اور ممکنہ طور پر فوری لمبائی کی حدود کی وجہ سے ناممکن ہو گی۔ اس طرح، فوری فارمولیشن کے لیے ذمہ دار فنکشن کو ڈیٹا بیس کی معلومات کے ذیلی سیٹ کو منتخب کرنے کے لیے کافی ہوشیار ہونا چاہیے جو کسی دیے گئے سوال کے لیے سب سے زیادہ "مفید" ہو، اور یہ ممکنہ طور پر غیر دیکھے ہوئے ڈیٹا بیسز کے لیے کیا جائے۔

آخر میں، ڈیٹا بیس کا ڈھانچہ ایک اہم کردار ادا کرتا ہے۔ ان حالات میں جہاں آپ کا ڈیٹا بیس پر کافی کنٹرول ہے، آپ اپنے ماڈل کی زندگی کو ایک بدیہی ساخت سے سیکھنے دے کر آسان بنا سکتے ہیں۔ انگوٹھے کے اصول کے طور پر، آپ کا ڈیٹا بیس جتنا زیادہ اس بات کی عکاسی کرتا ہے کہ کاروباری صارفین کس طرح کاروبار کے بارے میں بات کرتے ہیں، آپ کا ماڈل اس سے اتنا ہی بہتر اور تیزی سے سیکھ سکتا ہے۔ اس طرح، ڈیٹا میں اضافی تبدیلیوں کو لاگو کرنے پر غور کریں، جیسے عام یا بصورت دیگر منتشر ڈیٹا کو وسیع ٹیبلز یا ڈیٹا والٹ میں جمع کرنا، ٹیبلز اور کالموں کو واضح اور غیر مبہم طریقے سے نام دینا وغیرہ۔ تمام کاروباری علم جسے آپ سامنے انکوڈ کر سکتے ہیں کم ہو جائے گا۔ آپ کے ماڈل پر ممکنہ سیکھنے کا بوجھ اور آپ کو بہتر نتائج حاصل کرنے میں مدد ملتی ہے۔

2. الگورتھم

ڈیٹا کے تجزیہ کے لیے بات چیت کی AI
شکل 4: اس Text2SQL کی نمائندگی میں، الگورتھم سے متعلقہ عناصر اور تعلقات کو پیلے رنگ میں نشان زد کیا گیا ہے۔

Text2SQL ایک قسم ہے۔ معنوی تجزیہ - نصوص کی منطقی نمائندگی کے لیے نقشہ سازی۔ اس طرح، الگورتھم کو نہ صرف قدرتی زبان کو "سیکھنا" ہے، بلکہ ہدف کی نمائندگی بھی کرنا ہے - ہمارے معاملے میں، SQL۔ خاص طور پر، اسے حاصل کرنا ہوگا اور علم کے درج ذیل بٹس:

  • ایس کیو ایل نحو اور سیمنٹکس
  • ڈیٹا بیس کی ساخت۔
  • قدرتی زبان کی تفہیم (NLU)
  • قدرتی زبان اور ایس کیو ایل سوالات کے درمیان نقشہ سازی (نحوی، لغوی اور معنوی)

2.1 ان پٹ میں لسانی تغیرات کو حل کرنا

ان پٹ پر، Text2SQL کا بنیادی چیلنج زبان کی لچک میں مضمر ہے: جیسا کہ ڈیٹا کی شکل اور ساخت کے سیکشن میں بیان کیا گیا ہے، ایک ہی سوال کو کئی مختلف طریقوں سے بیان کیا جا سکتا ہے۔ مزید برآں، حقیقی زندگی کے گفتگو کے تناظر میں، ہمیں کئی مسائل سے نمٹنا پڑتا ہے جیسے املا اور گرامر کی غلطیاں، نامکمل اور مبہم آدانوں، کثیر لسانی آدانوں وغیرہ۔

ڈیٹا کے تجزیہ کے لیے بات چیت کی AI
شکل 5: Text2SQL الگورتھم کو ایک سوال کی بہت سی مختلف حالتوں سے نمٹنا ہوتا ہے۔

LLMs جیسے GPT ماڈل، T5، اور CodeX اس چیلنج کو حل کرنے کے قریب سے قریب تر آرہے ہیں۔ متنوع متن کی بھاری مقدار سے سیکھتے ہوئے، وہ بڑی تعداد میں لسانی نمونوں اور بے ضابطگیوں سے نمٹنا سیکھتے ہیں۔ آخر میں، وہ ان سوالات کو عام کرنے کے قابل ہو جاتے ہیں جو مختلف سطحی شکلوں کے باوجود معنوی طور پر ایک جیسے ہوتے ہیں۔ ایل ایل ایم کو باکس سے باہر (زیرو شاٹ) یا فائن ٹیوننگ کے بعد لاگو کیا جا سکتا ہے۔ سابقہ، جبکہ آسان، کم درستگی کی طرف جاتا ہے۔ مؤخر الذکر زیادہ مہارت اور کام کی ضرورت ہے، لیکن نمایاں طور پر درستگی میں اضافہ کر سکتے ہیں.

درستگی کے لحاظ سے، جیسا کہ توقع کی گئی ہے، بہترین کارکردگی کا مظاہرہ کرنے والے ماڈلز GPT فیملی کے تازہ ترین ماڈل ہیں بشمول CodeX ماڈلز۔ اپریل 2023 میں، GPT-4 نے پچھلے جدید ترین کے مقابلے میں 5% سے زیادہ ڈرامائی درستگی میں اضافہ کیا اور 85.3% کی درستگی حاصل کی (میٹرک "اقدار کے ساتھ عمل درآمد" پر)۔[4] اوپن سورس کیمپ میں، Text2SQL پہیلی کو حل کرنے کی ابتدائی کوششیں آٹو انکوڈنگ ماڈلز پر مرکوز تھیں جیسے BERT، جو NLU کے کاموں میں بہترین کارکردگی کا مظاہرہ کرتے ہیں۔ T5 ماڈل جیسے خودکار ماڈلز پر۔ T6 کو ملٹی ٹاسک لرننگ کا استعمال کرتے ہوئے پہلے سے تربیت دی گئی ہے اور اس طرح یہ آسانی سے نئے لسانی کاموں میں ڈھل جاتا ہے، بشمول۔ سیمنٹک پارسنگ کی مختلف اقسام۔ تاہم، خودکار ماڈلز میں ایک اندرونی خامی ہوتی ہے جب بات سیمنٹک پارسنگ کے کاموں کی ہوتی ہے: ان کے پاس آؤٹ پٹ کی غیر محدود جگہ ہوتی ہے اور کوئی سیمینٹک گارڈریل نہیں ہوتا ہے جو ان کے آؤٹ پٹ کو روکتا ہے، جس کا مطلب ہے کہ وہ اپنے طرز عمل میں حیرت انگیز طور پر تخلیقی ہو سکتے ہیں۔ اگرچہ یہ فری فارم مواد تیار کرنے کے لیے حیرت انگیز چیز ہے، لیکن یہ Text7SQL جیسے کاموں کے لیے ایک پریشانی ہے جہاں ہم ایک محدود، اچھی ساختہ ہدف آؤٹ پٹ کی توقع کرتے ہیں۔

2.2 استفسار کی توثیق اور بہتری

LLM آؤٹ پٹ کو محدود کرنے کے لیے، ہم استفسار کی توثیق اور بہتری کے لیے اضافی میکانزم متعارف کروا سکتے ہیں۔ اس کو ایک اضافی توثیق قدم کے طور پر لاگو کیا جا سکتا ہے، جیسا کہ PICARD سسٹم میں تجویز کیا گیا ہے۔[8] PICARD ایک SQL تجزیہ کار استعمال کرتا ہے جو اس بات کی تصدیق کر سکتا ہے کہ آیا جزوی SQL استفسار مکمل ہونے کے بعد ایک درست SQL استفسار کا باعث بن سکتا ہے۔ LLM کی طرف سے ہر نسل کے قدم پر، استفسار کو باطل کرنے والے ٹوکنز کو مسترد کر دیا جاتا ہے، اور سب سے زیادہ امکان والے درست ٹوکن رکھے جاتے ہیں۔ متعین ہونے کے ناطے، یہ نقطہ نظر 100% ایس کیو ایل کی درستگی کو یقینی بناتا ہے جب تک کہ تجزیہ کار درست SQL اصولوں کا مشاہدہ کرتا ہے۔ یہ نسل سے استفسار کی توثیق کو بھی جوڑ دیتا ہے، اس طرح دونوں اجزاء کو ایک دوسرے سے آزادانہ طور پر برقرار رکھنے اور ایل ایل ایم کو اپ گریڈ اور ترمیم کرنے کی اجازت دیتا ہے۔

ایک اور طریقہ یہ ہے کہ ساختی اور SQL علم کو براہ راست LLM میں شامل کیا جائے۔ مثال کے طور پر، گرافکس [9] T5 ماڈل میں ساختی SQL علم کو انجیکشن کرنے کے لیے گراف سے آگاہ پرتوں کا استعمال کرتا ہے۔ اس نقطہ نظر کی ممکنہ نوعیت کی وجہ سے، یہ نظام کو درست سوالات کی طرف متوجہ کرتا ہے، لیکن کامیابی کی ضمانت فراہم نہیں کرتا ہے۔

آخر میں، LLM کو ایک ملٹی سٹیپ ایجنٹ کے طور پر استعمال کیا جا سکتا ہے جو خود مختاری سے استفسار کی جانچ اور بہتر کر سکتا ہے۔[10] چین آف تھیٹ پرامپٹ میں متعدد مراحل کا استعمال کرتے ہوئے، ایجنٹ کو اپنے سوالات کی درستگی پر غور کرنے اور کسی بھی خامیوں کو بہتر بنانے کا کام سونپا جا سکتا ہے۔ اگر توثیق شدہ استفسار پر عمل درآمد نہیں کیا جا سکتا ہے، تو ایس کیو ایل استثنیٰ ٹریس بیک ایجنٹ کو بہتری کے لیے اضافی تاثرات کے طور پر بھیجا جا سکتا ہے۔

پسدید میں ہونے والے ان خودکار طریقوں کے علاوہ، استفسار کی جانچ کے عمل کے دوران صارف کو شامل کرنا بھی ممکن ہے۔ ہم اسے صارف کے تجربے کے سیکشن میں مزید تفصیل سے بیان کریں گے۔

2.3 تشخیص

اپنے Text2SQL الگورتھم کا جائزہ لینے کے لیے، ہمیں ایک ٹیسٹ (توثیق) ڈیٹاسیٹ تیار کرنے، اس پر اپنا الگورتھم چلانے اور نتیجہ پر متعلقہ تشخیصی میٹرکس کو لاگو کرنے کی ضرورت ہے۔ تربیت، ترقی اور توثیق کے اعداد و شمار میں ایک سادہ ڈیٹا سیٹ سوالیہ سوالات کے جوڑوں پر مبنی ہوگا اور سب سے زیادہ نتائج کا باعث بنے گا۔ تربیت کے دوران ماڈل پر توثیق کے سوالات ظاہر کیے جاسکتے ہیں اور اس کی عمومی کاری کی مہارتوں کے بارے میں حد سے زیادہ پر امید نظریہ کا باعث بنتے ہیں۔ اے استفسار پر مبنی تقسیم، جہاں ڈیٹاسیٹ کو اس طرح تقسیم کیا گیا ہے کہ تربیت کے دوران اور توثیق کے دوران کوئی سوال ظاہر نہیں ہوتا ہے، زیادہ سچے نتائج فراہم کرتا ہے۔

تشخیصی میٹرکس کے لحاظ سے، Text2SQL میں جس چیز کی ہمیں پرواہ ہے وہ سوالات پیدا کرنا نہیں ہے جو سونے کے معیار سے پوری طرح مماثل ہوں۔ یہ "بالکل سٹرنگ میچ" طریقہ بہت سخت ہے اور بہت سے غلط منفی پیدا کرے گا، کیونکہ مختلف ایس کیو ایل کے سوالات ایک ہی ڈیٹا سیٹ کی طرف لے جا سکتے ہیں۔ اس کے بجائے، ہم اعلیٰ مقام حاصل کرنا چاہتے ہیں۔ معنوی درستگی اور اس بات کا جائزہ لیں کہ آیا پیشین گوئی اور "گولڈ اسٹینڈرڈ" کے سوالات ہمیشہ ایک جیسے ڈیٹا سیٹس کو واپس کریں گے۔ تین تشخیصی میٹرکس ہیں جو اس مقصد کا تخمینہ لگاتے ہیں:

  • عین مطابق سیٹ میچ کی درستگی: پیدا کردہ اور ہدف SQL سوالات کو ان کے اجزاء میں تقسیم کیا جاتا ہے، اور نتیجے میں آنے والے سیٹوں کا شناخت کے لیے موازنہ کیا جاتا ہے۔[11] یہاں کمی یہ ہے کہ یہ صرف ایس کیو ایل کے استفسار میں ترتیب کی مختلف حالتوں کے لیے ذمہ دار ہے، لیکن معنوی طور پر مساوی سوالات کے درمیان زیادہ واضح نحوی اختلافات کے لیے نہیں۔
  • پھانسی کی درستگی: پیدا کردہ اور ہدف SQL سوالات کے نتیجے میں ڈیٹاسیٹس کا شناخت کے لیے موازنہ کیا جاتا ہے۔ اچھی قسمت کے ساتھ، مختلف سیمنٹکس کے سوالات اب بھی ایک مخصوص ڈیٹا بیس مثال پر اس امتحان کو پاس کر سکتے ہیں۔ مثال کے طور پر، ایک ڈیٹا بیس کو فرض کرتے ہوئے جہاں تمام صارفین کی عمر 30 سال سے زیادہ ہے، درج ذیل دو سوالات مختلف سیمنٹکس ہونے کے باوجود ایک جیسے نتائج دیں گے:
    صارف سے * منتخب کریں۔
    صارف سے * منتخب کریں جہاں عمر> 30 ہو۔
  • ٹیسٹ سوٹ کی درستگی: test-suite کی درستگی عملدرآمد کی درستگی کا ایک زیادہ جدید اور کم اجازت والا ورژن ہے۔ ہر استفسار کے لیے، ڈیٹا بیس کا ایک سیٹ ("ٹیسٹ سویٹ") تیار کیا جاتا ہے جو استفسار میں متغیرات، حالات اور اقدار کے حوالے سے بہت زیادہ مختلف ہوتے ہیں۔ پھر، ان میں سے ہر ایک ڈیٹا بیس پر عمل درآمد کی درستگی کا تجربہ کیا جاتا ہے۔ جبکہ ٹیسٹ سوٹ کی تیاری کے لیے اضافی کوشش کی ضرورت ہوتی ہے، یہ میٹرک تشخیص میں غلط مثبت ہونے کے خطرے کو بھی نمایاں طور پر کم کرتا ہے۔.ہے [12]

3. صارف کا تجربہ

ڈیٹا کے تجزیہ کے لیے بات چیت کی AI
شکل 6: اس Text2SQL کی نمائندگی میں، UX سے متعلقہ عناصر اور تعلقات کو پیلے رنگ میں نشان زد کیا گیا ہے۔

Text2SQL کا موجودہ جدید ترین نظام پیداواری نظام میں مکمل طور پر بغیر کسی رکاوٹ کے انضمام کی اجازت نہیں دیتا ہے - اس کے بجائے، صارف کی توقعات اور رویے کا فعال طور پر انتظام کرنا ضروری ہے، جسے ہمیشہ اس بات سے آگاہ رہنا چاہیے کہ وہ اس کے ساتھ بات چیت کر رہی ہے۔ ایک AI نظام۔

3.1 ناکامی کا انتظام

Text2SQL دو طریقوں میں ناکام ہو سکتا ہے، جنہیں مختلف طریقوں سے پکڑنے کی ضرورت ہے:

  • ایس کیو ایل کی غلطیاں: پیدا کردہ استفسار درست نہیں ہے — یا تو ایس کیو ایل غلط ہے، یا اسے لغوی یا معنوی خامیوں کی وجہ سے مخصوص ڈیٹا بیس کے خلاف عمل میں نہیں لایا جا سکتا۔ اس صورت میں، کوئی نتیجہ صارف کو واپس نہیں کیا جا سکتا.
  • معنوی غلطیاں: پیدا کردہ استفسار درست ہے لیکن یہ سوال کے الفاظ کی عکاسی نہیں کرتا، اس طرح غلط ڈیٹا سیٹ کی طرف جاتا ہے۔

دوسرا موڈ خاص طور پر مشکل ہے کیونکہ "خاموش ناکامیوں" کا خطرہ - ایسی غلطیاں جن کا صارف کے ذریعہ پتہ نہیں چلتا ہے - زیادہ ہے۔ پروٹو ٹائپیکل صارف کے پاس استفسار اور/یا نتیجے میں آنے والے ڈیٹا کی درستگی کی تصدیق کرنے کے لیے نہ وقت ہوگا اور نہ ہی تکنیکی مہارت۔ جب ڈیٹا کو حقیقی دنیا میں فیصلہ سازی کے لیے استعمال کیا جاتا ہے، تو اس قسم کی ناکامی کے تباہ کن نتائج ہو سکتے ہیں۔ اس سے بچنے کے لیے، صارفین کو تعلیم دینا اور قائم کرنا ضروری ہے۔ ایک کاروباری سطح پر guardrails جو ممکنہ اثرات کو محدود کرتے ہیں، جیسے کہ زیادہ اثر والے فیصلوں کے لیے اضافی ڈیٹا چیک۔ دوسری طرف، ہم یوزر انٹرفیس کا استعمال انسانی مشین کے تعامل کو منظم کرنے کے لیے بھی کر سکتے ہیں اور صارف کو مشکل درخواستوں کا پتہ لگانے اور بہتر بنانے میں مدد کر سکتے ہیں۔

3.2 انسانی مشین کا تعامل

صارفین آپ کے AI سسٹم کے ساتھ مختلف ڈگریوں کی شدت کے ساتھ شامل ہو سکتے ہیں۔ فی درخواست زیادہ تعامل بہتر نتائج کا باعث بن سکتا ہے، لیکن یہ صارف کے تجربے کی روانی کو بھی سست کر دیتا ہے۔ غلط استفسارات اور نتائج کے ممکنہ منفی اثرات کے علاوہ، اس بات پر بھی غور کریں کہ آپ کے صارفین مزید درست نتائج حاصل کرنے اور طویل مدتی میں پروڈکٹ کو بہتر بنانے میں مدد کرنے کے لیے آگے پیچھے تاثرات فراہم کرنے کے لیے کتنے متحرک ہوں گے۔

سب سے آسان اور کم سے کم مشغول طریقہ اعتماد کے اسکور کے ساتھ کام کرنا ہے۔ اگرچہ پیدا کردہ ٹوکن کے امکانات کے اوسط کے طور پر اعتماد کا سادہ حساب بہت زیادہ آسان ہے، زبانی تاثرات جیسے زیادہ جدید طریقے استعمال کیے جا سکتے ہیں۔ [13] اعتماد کو انٹرفیس میں ظاہر کیا جا سکتا ہے اور خطرناک حد تک کم ہونے کی صورت میں اسے واضح الرٹ کے ساتھ نمایاں کیا جا سکتا ہے۔ اس طرح، "حقیقی دنیا" میں مناسب فالو اپ کی ذمہ داری — چاہے وہ مسترد ہو، قبولیت ہو یا ڈیٹا کی اضافی جانچ — آپ کے صارف کے کندھوں پر آتی ہے۔ اگرچہ یہ آپ کے لیے بطور وینڈر ایک محفوظ شرط ہے، لیکن اس کام کو صارف کو منتقل کرنے سے آپ کی پروڈکٹ کی قدر بھی کم ہو سکتی ہے۔

دوسرا امکان یہ ہے کہ کم اعتماد، مبہم یا دوسری صورت میں مشکوک سوالات کی صورت میں صارف کو وضاحتی مکالمے میں شامل کیا جائے۔ مثال کے طور پر، آپ کا سسٹم ان پٹ میں آرتھوگرافک یا گرامر کی تصحیح تجویز کر سکتا ہے اور مخصوص الفاظ یا گرامر کے ڈھانچے کو غیر واضح کرنے کے لیے کہہ سکتا ہے۔ یہ صارف کو استفسار میں تصحیح کے لیے فعال طور پر پوچھنے کی بھی اجازت دے سکتا ہے:[14]

صارف: مجھے اس سپرنٹ میں جان کے کام دکھائیں۔

معاون: کیا آپ جان کے تخلیق کردہ کاموں کو دیکھنا چاہیں گے، یا جن پر وہ کام کر رہا ہے؟

صارف: جان نے جو کام تخلیق کیے ہیں۔

معاون: ٹھیک ہے، یہ ٹاسک آئی ڈیز ہیں:

ڈیٹا کے تجزیہ کے لیے بات چیت کی AI

صارف: شکریہ، میں کاموں کے بارے میں مزید معلومات بھی دیکھنا چاہوں گا۔ براہ کرم فوری طور پر بھی ترتیب دیں۔

معاون: یقینی طور پر، یہاں مختصر تفصیل، تفویض کردہ اور آخری تاریخ کے ساتھ کام ہیں، آخری تاریخ کے لحاظ سے ترتیب دیے گئے ہیں۔

ڈیٹا کے تجزیہ کے لیے بات چیت کی AI

آخر میں، صارف کے سوالات کی سمجھ کو آسان بنانے کے لیے، آپ کا سسٹم استفسار کی ایک واضح متنی اصلاح بھی فراہم کر سکتا ہے اور صارف سے اس کی تصدیق یا درست کرنے کے لیے کہہ سکتا ہے۔[15]

4. غیر فعال ضروریات

اس سیکشن میں، ہم Text2SQL کے لیے مخصوص غیر فعال تقاضوں کے ساتھ ساتھ ان کے درمیان تجارتی معاہدوں پر بھی تبادلہ خیال کرتے ہیں۔ ہم ان چھ تقاضوں پر توجہ مرکوز کریں گے جو کام کے لیے سب سے اہم معلوم ہوتی ہیں: درستگی، توسیع پذیری، رفتار، وضاحت کی اہلیت، رازداری اور وقت کے ساتھ موافقت۔

4.1 درستگی

Text2SQL کے لیے، درستگی کے تقاضے زیادہ ہیں۔ سب سے پہلے، Text2SQL عام طور پر گفتگو کی ترتیب میں لاگو ہوتا ہے جہاں ایک ایک کرکے پیشین گوئیاں کی جاتی ہیں۔ اس طرح، "بڑی تعداد کا قانون" جو عام طور پر بیچ کی پیشین گوئیوں میں غلطی کو دور کرنے میں مدد کرتا ہے، مدد نہیں کرتا۔ دوسرا، نحوی اور لغوی اعتبار ایک "مشکل" شرط ہے: ماڈل کو ایک اچھی طرح سے تشکیل شدہ SQL استفسار پیدا کرنا ہوتا ہے، ممکنہ طور پر پیچیدہ نحو اور اصطلاحات کے ساتھ، بصورت دیگر ڈیٹا بیس کے خلاف درخواست پر عمل نہیں کیا جا سکتا۔ اور اگر یہ اچھی طرح چلتا ہے اور استفسار پر عمل کیا جا سکتا ہے، تو اس میں اب بھی سیمنٹک غلطیاں ہو سکتی ہیں اور غلط ڈیٹا سیٹ (cf. سیکشن 3.1 ناکامی کا انتظام) کا باعث بن سکتی ہیں۔

4.2 اسکیل ایبلٹیٹی

اسکیل ایبلٹی کے اہم تحفظات یہ ہیں کہ آیا آپ Text2SQL کو ایک یا ایک سے زیادہ ڈیٹا بیس پر لاگو کرنا چاہتے ہیں — اور بعد کی صورت میں، آیا ڈیٹا بیس کا سیٹ معلوم اور بند ہے۔ اگر ہاں، تو آپ کو آسان وقت ملے گا کیونکہ آپ تربیت کے دوران ان ڈیٹا بیس کے بارے میں معلومات شامل کر سکتے ہیں۔ تاہم، توسیع پذیر پروڈکٹ کے منظر نامے میں — خواہ وہ اسٹینڈ لون Text2SQL ایپلیکیشن ہو یا موجودہ ڈیٹا پروڈکٹ میں انضمام — آپ کے الگورتھم کو پرواز پر کسی بھی نئے ڈیٹا بیس اسکیما سے نمٹنا ہوگا۔ یہ منظر نامہ آپ کو ڈیٹا بیس کے ڈھانچے کو سیکھنے کے لیے مزید بدیہی بنانے کے لیے تبدیل کرنے کا موقع بھی نہیں دیتا (لنک!)۔ یہ سب درستگی کے ساتھ بھاری تجارت کا باعث بنتے ہیں، جو اس بات کی بھی وضاحت کر سکتا ہے کہ موجودہ Text2SQL فراہم کنندگان جو نئے ڈیٹا بیسز کی ایڈہاک استفسار پیش کرتے ہیں، ابھی تک مارکیٹ میں قابل ذکر رسائی حاصل نہیں کر پائے ہیں۔

4.3 سپیڈ

چونکہ Text2SQL درخواستوں پر عام طور پر بات چیت میں آن لائن کارروائی کی جائے گی، اس لیے صارف کی اطمینان کے لیے رفتار کا پہلو اہم ہے۔ مثبت پہلو پر، صارفین اکثر اس حقیقت سے واقف ہوتے ہیں کہ ڈیٹا کی درخواستوں میں ایک خاص وقت لگ سکتا ہے اور مطلوبہ صبر کا مظاہرہ کیا جا سکتا ہے۔ تاہم، اس خیر سگالی کو چیٹ کی ترتیب سے مجروح کیا جا سکتا ہے، جہاں صارفین لاشعوری طور پر انسان جیسی گفتگو کی رفتار کی توقع کرتے ہیں۔ Brute-force آپٹیمائزیشن کے طریقے جیسے کہ ماڈل کا سائز کم کرنا درستگی پر ناقابل قبول اثر ڈال سکتا ہے، لہذا اس توقع کو پورا کرنے کے لیے inference optimization پر غور کریں۔

4.4 وضاحت اور شفافیت

مثالی صورت میں، صارف اس بات کی پیروی کر سکتا ہے کہ متن سے استفسار کیسے پیدا ہوا، سوال میں مخصوص الفاظ یا تاثرات اور ایس کیو ایل استفسار وغیرہ کے درمیان میپنگ دیکھ سکتے ہیں۔ یہ سسٹم کے ساتھ بات چیت کرتے وقت استفسار کی تصدیق کرنے اور کوئی ایڈجسٹمنٹ کرنے کی اجازت دیتا ہے۔ . اس کے علاوہ، سسٹم استفسار کی واضح متنی اصلاح بھی فراہم کر سکتا ہے اور صارف سے اس کی تصدیق یا درست کرنے کے لیے کہہ سکتا ہے۔

4.5 رازداری

Text2SQL فنکشن کو استفسار کے عمل سے الگ کیا جا سکتا ہے، لہذا واپس کی گئی ڈیٹا بیس کی معلومات کو پوشیدہ رکھا جا سکتا ہے۔ تاہم، اہم سوال یہ ہے کہ پرامپٹ میں ڈیٹا بیس کے بارے میں کتنی معلومات شامل ہیں۔ تین اختیارات (رازداری کی سطح کو کم کرکے) یہ ہیں:

  • کوئی معلومات نہیں
  • ڈیٹا بیس اسکیما
  • ڈیٹا بیس کا مواد

پرائیویسی درستگی کے ساتھ تجارت کرتی ہے — پرامپٹ میں مفید معلومات شامل کرنے میں آپ جتنی کم رکاوٹیں ڈالیں گے، نتائج اتنے ہی بہتر ہوں گے۔

4.6 وقت کے ساتھ موافقت

Text2SQL کو پائیدار طریقے سے استعمال کرنے کے لیے، آپ کو ڈیٹا ڈرفٹ کے مطابق ڈھالنا ہوگا، یعنی ڈیٹا کی بدلتی تقسیم جس پر ماڈل لاگو کیا گیا ہے۔ مثال کے طور پر، آئیے فرض کریں کہ ابتدائی فائن ٹیوننگ کے لیے استعمال ہونے والا ڈیٹا صارفین کے سوال کرنے کے سادہ رویے کی عکاسی کرتا ہے جب وہ BI سسٹم کا استعمال شروع کرتے ہیں۔ جیسے جیسے وقت گزرتا ہے، صارفین کی معلومات کی ضروریات زیادہ نفیس ہوتی جاتی ہیں اور مزید پیچیدہ سوالات کی ضرورت ہوتی ہے، جو آپ کے سادہ نمونے کو مغلوب کردیتی ہیں۔ اس کے علاوہ، کمپنی کی تبدیلی کے اہداف یا حکمت عملی بھی ڈیٹا بیس کے دیگر شعبوں کی طرف معلومات کی ضروریات کو بہا اور ڈائریکٹ کر سکتی ہے۔ آخر میں، Text2SQL کے لیے مخصوص چیلنج ڈیٹا بیس ڈرفٹ ہے۔ جیسے جیسے کمپنی کے ڈیٹا بیس کو بڑھایا جاتا ہے، نئے، غیر دیکھے ہوئے کالم اور ٹیبل پرامپٹ میں اپنا راستہ بناتے ہیں۔ جبکہ Text2SQL الگورتھم جو کہ ملٹی ڈیٹا بیس ایپلیکیشن کے لیے بنائے گئے ہیں اس مسئلے کو اچھی طرح سے ہینڈل کر سکتے ہیں، یہ سنگل ڈیٹا بیس ماڈل کی درستگی کو نمایاں طور پر متاثر کر سکتا ہے۔ ان تمام مسائل کو فائن ٹیوننگ ڈیٹاسیٹ کے ساتھ بہترین طریقے سے حل کیا جاتا ہے جو صارفین کے موجودہ، حقیقی دنیا کے رویے کی عکاسی کرتا ہے۔ اس طرح، صارف کے سوالات اور نتائج کے ساتھ ساتھ کسی بھی متعلقہ فیڈ بیک کو لاگ کرنا بہت ضروری ہے جو استعمال سے جمع کیا جا سکتا ہے۔ مزید برآں، سیمنٹک کلسٹرنگ الگورتھم، مثال کے طور پر ایمبیڈنگز یا ٹاپک ماڈلنگ کا استعمال کرتے ہوئے، صارف کے رویے میں بنیادی طویل مدتی تبدیلیوں کا پتہ لگانے کے لیے لاگو کیا جا سکتا ہے اور ان کو آپ کے فائن ٹیوننگ ڈیٹاسیٹ کو مکمل کرنے کے لیے معلومات کے اضافی ذریعہ کے طور پر استعمال کیا جا سکتا ہے۔

نتیجہ

آئیے مضمون کے اہم نکات کا خلاصہ کرتے ہیں:

  • Text2SQL کاروبار میں بدیہی اور جمہوری ڈیٹا تک رسائی کو لاگو کرنے کی اجازت دیتا ہے، اس طرح دستیاب ڈیٹا کی قدر کو زیادہ سے زیادہ کرتا ہے۔
  • Text2SQL ڈیٹا ان پٹ پر سوالات اور آؤٹ پٹ پر SQL سوالات پر مشتمل ہوتا ہے۔ سوالات اور ایس کیو ایل کے سوالات کے درمیان نقشہ سازی کئی سے زیادہ ہے۔
  • پرامپٹ کے حصے کے طور پر ڈیٹا بیس کے بارے میں معلومات فراہم کرنا ضروری ہے۔ مزید برآں، الگورتھم کے لیے اسے سیکھنے اور سمجھنا آسان بنانے کے لیے ڈیٹا بیس کی ساخت کو بہتر بنایا جا سکتا ہے۔
  • ان پٹ پر، بنیادی چیلنج قدرتی زبان کے سوالات کی لسانی تغیر پذیری ہے، جس سے LLMs کا استعمال کرتے ہوئے رابطہ کیا جا سکتا ہے جو مختلف متنی طرزوں کی وسیع اقسام پر پہلے سے تربیت یافتہ تھے۔
  • Text2SQL کا آؤٹ پٹ ایک درست SQL استفسار ہونا چاہیے۔ اس رکاوٹ کو الگورتھم میں SQL علم کو "انجیکشن" دے کر شامل کیا جا سکتا ہے۔ متبادل طور پر، تکراری نقطہ نظر کا استعمال کرتے ہوئے، استفسار کو متعدد مراحل میں چیک اور بہتر کیا جا سکتا ہے۔
  • "خاموش ناکامیوں" کے ممکنہ طور پر زیادہ اثرات کی وجہ سے جو فیصلہ سازی کے لیے غلط ڈیٹا واپس کرتے ہیں، ناکامی کا انتظام صارف کے انٹرفیس میں بنیادی تشویش ہے۔
  • ایک "اضافہ شدہ" انداز میں، صارفین ایس کیو ایل کے سوالات کی تکراری توثیق اور بہتری میں فعال طور پر شامل ہو سکتے ہیں۔ اگرچہ یہ ایپلی کیشن کو کم سیال بناتا ہے، یہ ناکامی کی شرح کو بھی کم کرتا ہے، صارفین کو زیادہ لچکدار طریقے سے ڈیٹا کو دریافت کرنے کی اجازت دیتا ہے اور مزید سیکھنے کے لیے قیمتی سگنل پیدا کرتا ہے۔
  • جن اہم غیر فعال تقاضوں پر غور کرنا ہے وہ ہیں درستگی، توسیع پذیری، رفتار، وضاحت کی اہلیت، رازداری اور وقت کے ساتھ موافقت۔ اہم تجارتی تعلقات ایک طرف درستگی، اور دوسری طرف اسکیل ایبلٹی، رفتار اور رازداری کے درمیان ہوتے ہیں۔

حوالہ جات

[1] کین وان ہیرن۔ 2023۔ ایس کیو ایل تجزیہ کار کو 26 بار بار آنے والے GPT پرامپٹس کے ساتھ تبدیل کرنا

[2] نترشن راجکمار وغیرہ۔ 2022۔ بڑی زبان کے ماڈلز کی ٹیکسٹ ٹو ایس کیو ایل صلاحیتوں کا جائزہ لینا

[3] Naihao Deng et al. 2023۔ ٹیکسٹ ٹو ایس کیو ایل میں حالیہ پیشرفت: ہمارے پاس کیا ہے اور ہم کیا توقع کرتے ہیں اس کا ایک سروے

[4] محمد رضا پورریزہ وغیرہ۔ 2023۔ DIN-SQL: خود تصحیح کے ساتھ ٹیکسٹ ٹو ایس کیو ایل کی سیاق و سباق سے متعلق سیکھنا

[5] وکٹر ژونگ وغیرہ۔ 2021۔ زیرو شاٹ ایگزیکیوٹیبل سیمنٹک پارسنگ کے لیے زمینی موافقت

[6] Xi Victoria Lin et al. 2020 کراس ڈومین ٹیکسٹ ٹو ایس کیو ایل سیمنٹک پارسنگ کے لیے متنی اور ٹیبلر ڈیٹا کو ملانا

[7] ٹونگ گو وغیرہ۔ 2019 مواد کو بڑھایا گیا BERT پر مبنی ٹیکسٹ ٹو ایس کیو ایل جنریشن

[8] Torsten Scholak et al. 2021۔ PICARD: زبان کے ماڈلز سے محدود آٹو ریگریسو ڈیکوڈنگ کے لیے بتدریج تجزیہ کرنا

[9] جنیانگ لی وغیرہ۔ 2023۔ Graphix-T5: ٹیکسٹ ٹو ایس کیو ایل پارسنگ کے لیے پہلے سے تربیت یافتہ ٹرانسفارمرز کو گراف سے آگاہ پرتوں کے ساتھ ملانا

[10] لینگ چین۔ 2023۔ ایل ایل ایم اور ایس کیو ایل

[11] تاؤ یو وغیرہ۔ 2018. مکڑی: پیچیدہ اور کراس ڈومین سیمنٹک پارسنگ اور ٹیکسٹ ٹو ایس کیو ایل ٹاسک کے لیے ایک بڑے پیمانے پر انسانی لیبل والا ڈیٹا سیٹ

[12] Ruiqi Zhong et al. 2020 ڈسٹلڈ ٹیسٹ سویٹس کے ساتھ ٹیکسٹ ٹو ایس کیو ایل کے لیے سیمنٹک تشخیص

[13] کیتھرین تیان وغیرہ۔ 2023۔ صرف انشانکن کے لیے پوچھیں: زبان کے ماڈلز سے کیلیبریٹڈ اعتماد کے اسکور حاصل کرنے کے لیے حکمت عملی انسانی آراء کے ساتھ اچھی طرح سے

[14] بریڈن ہینکوک وغیرہ۔ 2019 تعیناتی کے بعد مکالمے سے سیکھنا: اپنے آپ کو کھانا کھلائیں، چیٹ بوٹ!

[15] احمد ایلگوہری وغیرہ۔ 2020 اپنے تجزیہ کار سے بات کریں: قدرتی زبان کے تاثرات کے ساتھ انٹرایکٹو ٹیکسٹ ٹو ایس کیو ایل

[16] Janna Lipenkova. 2022۔ مجھ سے بات کرو! آپ کی کمپنی کے ڈیٹا کے ساتھ Text2SQL گفتگونیویارک نیچرل لینگویج پروسیسنگ میٹ اپ میں بات کریں۔

تمام تصاویر مصنف کی ہیں۔

یہ مضمون اصل میں شائع کیا گیا تھا ڈیٹا سائنس کی طرف اور مصنف کی اجازت سے TOPBOTS پر دوبارہ شائع کیا گیا۔

اس مضمون کا لطف اٹھائیں؟ مزید AI ریسرچ اپ ڈیٹس کے لیے سائن اپ کریں۔

جب ہم اس جیسے مزید خلاصہ مضامین جاری کریں گے تو ہم آپ کو بتائیں گے۔

ٹائم اسٹیمپ:

سے زیادہ ٹاپ بوٹس