Creating An Information Edge With Conversational Access To Data

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

डेटा विश्लेषण के लिए संवादी एआई

चित्र 1: Text2SQL प्रवाह का प्रतिनिधित्व

जैसे-जैसे हमारी दुनिया अधिक वैश्विक और गतिशील होती जा रही है, व्यवसाय सूचित, उद्देश्यपूर्ण और समय पर निर्णय लेने के लिए डेटा पर अधिक निर्भर होते जा रहे हैं। हालाँकि, अब तक, संगठनात्मक डेटा की पूरी क्षमता को उजागर करना अक्सर मुट्ठी भर डेटा वैज्ञानिकों और विश्लेषकों का विशेषाधिकार है। अधिकांश कर्मचारी पारंपरिक डेटा विज्ञान टूलकिट (एसक्यूएल, पायथन, आर आदि) में महारत हासिल नहीं करते हैं। वांछित डेटा तक पहुंचने के लिए, वे एक अतिरिक्त परत से गुजरते हैं जहां विश्लेषक या बीआई टीमें व्यावसायिक प्रश्नों के गद्य का डेटा की भाषा में "अनुवाद" करती हैं। इस यात्रा में घर्षण और अक्षमता की संभावना अधिक है - उदाहरण के लिए, डेटा देरी से वितरित किया जा सकता है या तब भी जब प्रश्न पहले ही अप्रचलित हो चुका हो। जब आवश्यकताओं को विश्लेषणात्मक प्रश्नों में सटीक रूप से अनुवादित नहीं किया जाता है तो जानकारी रास्ते में खो सकती है। इसके अलावा, उच्च गुणवत्ता वाली अंतर्दृष्टि उत्पन्न करने के लिए एक पुनरावृत्त दृष्टिकोण की आवश्यकता होती है जो लूप में हर अतिरिक्त चरण के साथ हतोत्साहित होती है। दूसरी ओर, ये तदर्थ इंटरैक्शन महंगी डेटा प्रतिभा के लिए व्यवधान पैदा करते हैं और उन्हें अधिक रणनीतिक डेटा कार्य से विचलित करते हैं, जैसा कि एक डेटा वैज्ञानिक के इन "स्वीकारोक्ति" में वर्णित है:

जब मैं स्क्वायर में था और टीम छोटी थी तो हमारे पास एक भयानक "एनालिटिक्स ऑन-कॉल" रोटेशन था। इसे सख्ती से साप्ताहिक आधार पर घुमाया जाता था, और यदि यह आपकी बारी थी तो आप जानते थे कि आपको उस सप्ताह बहुत कम "वास्तविक" काम मिलेगा और आपका अधिकांश समय विभिन्न उत्पाद और संचालन टीमों से तदर्थ प्रश्न पूछने में व्यतीत होगा। कंपनी (एसक्यूएल मंकीरिंग, हमने इसे कहा)। एनालिटिक्स टीम में प्रबंधक की भूमिका के लिए कड़ी प्रतिस्पर्धा थी और मुझे लगता है कि यह पूरी तरह से प्रबंधकों को इस रोटेशन से छूट दिए जाने का नतीजा था - कोई भी स्टेटस पुरस्कार ऑन-कॉल काम न करने के प्रतिद्वंद्वी को नहीं दे सकता।[1]

वास्तव में, क्या आपके डेटा स्टाफ के साथ कई दौर की बातचीत से गुजरने के बजाय सीधे आपके डेटा से बात करना अच्छा नहीं होगा? इस दृष्टिकोण को संवादी इंटरफेस द्वारा अपनाया गया है जो मनुष्यों को भाषा का उपयोग करके डेटा के साथ बातचीत करने की अनुमति देता है, जो संचार का हमारा सबसे सहज और सार्वभौमिक चैनल है। किसी प्रश्न को पार्स करने के बाद, एक एल्गोरिदम इसे SQL जैसी पसंद की क्वेरी भाषा में एक संरचित तार्किक रूप में एन्कोड करता है। इस प्रकार, गैर-तकनीकी उपयोगकर्ता अपने डेटा के साथ चैट कर सकते हैं और बीआई टीम के माध्यम से चक्कर लगाए बिना, तुरंत विशिष्ट, प्रासंगिक और समय पर जानकारी प्राप्त कर सकते हैं। इस लेख में, हम Text2SQL के विभिन्न कार्यान्वयन पहलुओं पर विचार करेंगे और बड़े भाषा मॉडल (एलएलएम) के उपयोग के साथ आधुनिक दृष्टिकोण पर ध्यान केंद्रित करेंगे, जो अब तक का सबसे अच्छा प्रदर्शन प्राप्त करते हैं (cf. [2]; वैकल्पिक दृष्टिकोण पर एक सर्वेक्षण के लिए एलएलएम से परे, पाठकों को [3]) संदर्भित किया जाता है। एआई सुविधा की योजना और निर्माण करते समय विचार करने के लिए मुख्य तत्वों के निम्नलिखित "मानसिक मॉडल" के अनुसार लेख को संरचित किया गया है:

डेटा विश्लेषण के लिए संवादी एआई — चित्र 2: एआई सुविधा का मानसिक मॉडल

आइए अंत को ध्यान में रखते हुए शुरुआत करें और मूल्य को फिर से समझें - आप अपने डेटा या एनालिटिक्स उत्पाद में Text2SQL सुविधा क्यों बनाएंगे। तीन मुख्य लाभ हैं:

व्यापार उपयोगकर्ताओं संगठनात्मक डेटा तक सीधे और समय पर पहुंच सकते हैं।
इससे राहत मिलती है डेटा वैज्ञानिक और विश्लेषक व्यावसायिक उपयोगकर्ताओं के तदर्थ अनुरोधों के बोझ से मुक्ति और उन्हें उन्नत डेटा चुनौतियों पर ध्यान केंद्रित करने की अनुमति देता है।
यह अनुमति देता है व्यापार अपने डेटा का अधिक तरल और रणनीतिक तरीके से लाभ उठाना, अंततः इसे निर्णय लेने के लिए एक ठोस आधार में बदलना।

अब, वे कौन से उत्पाद परिदृश्य हैं जिनमें आप Text2SQL पर विचार कर सकते हैं? तीन मुख्य सेटिंग्स हैं:

आप एक पेशकश कर रहे हैं स्केलेबल डेटा/बीआई उत्पाद और अधिक उपयोगकर्ताओं को गैर-तकनीकी तरीके से अपने डेटा तक पहुंचने में सक्षम बनाना चाहते हैं, जिससे उपयोग और उपयोगकर्ता आधार दोनों बढ़ें। उदाहरण के तौर पर, ServiceNow के पास है डेटा क्वेरीज़ को एक बड़ी संवादी पेशकश में एकीकृत किया गया, तथा Atlan हाल ही में है प्राकृतिक भाषा डेटा अन्वेषण की घोषणा की.
आप कंपनियों में डेटा पहुंच को लोकतांत्रिक बनाने के लिए डेटा/एआई क्षेत्र में कुछ बनाना चाह रहे हैं, ऐसी स्थिति में आप संभावित रूप से इस पर विचार कर सकते हैं मूल रूप से Text2SQL के साथ एमवीपी. प्रदाताओं को पसंद है AI2SQL और Text2sql.ai पहले से ही इस क्षेत्र में प्रवेश कर रहे हैं।
आप एक पर काम कर रहे हैं कस्टम बीआई प्रणाली और व्यक्तिगत कंपनी में इसके उपयोग को अधिकतम और लोकतांत्रिक बनाना चाहते हैं।

जैसा कि हम निम्नलिखित अनुभागों में देखेंगे, Text2SQL को एक गैर-तुच्छ अग्रिम सेटअप की आवश्यकता होती है। आरओआई का अनुमान लगाने के लिए, उन निर्णयों की प्रकृति पर विचार करें जिनका समर्थन किया जाना है और साथ ही उपलब्ध डेटा पर भी। Text2SQL गतिशील वातावरण में एक पूर्ण जीत हो सकता है जहां डेटा तेजी से बदल रहा है और निवेश, विपणन, विनिर्माण और ऊर्जा उद्योग जैसे निर्णय लेने में सक्रिय रूप से और अक्सर उपयोग किया जाता है। इन वातावरणों में, ज्ञान प्रबंधन के लिए पारंपरिक उपकरण बहुत स्थिर हैं, और डेटा और सूचना तक पहुंचने के अधिक धाराप्रवाह तरीके कंपनियों को प्रतिस्पर्धात्मक लाभ उत्पन्न करने में मदद करते हैं। डेटा के संदर्भ में, Text2SQL डेटाबेस के साथ सबसे बड़ा मूल्य प्रदान करता है:

बड़ा और बढ़ता हुआ, ताकि Text2SQL समय के साथ अपने मूल्य को प्रकट कर सके क्योंकि अधिक से अधिक डेटा का लाभ उठाया जाता है।
उच्च गुणवत्ता, ताकि Text2SQL एल्गोरिदम को डेटा में अत्यधिक शोर (असंगतता, खाली मान आदि) से निपटना न पड़े। सामान्य तौर पर, जो डेटा अनुप्रयोगों द्वारा स्वचालित रूप से उत्पन्न होता है, उसमें मनुष्यों द्वारा बनाए और बनाए गए डेटा की तुलना में उच्च गुणवत्ता और स्थिरता होती है।
शब्दार्थ की दृष्टि से परिपक्व कच्चे के विपरीत, ताकि मनुष्य अपने मानसिक मॉडल में मौजूद केंद्रीय अवधारणाओं, रिश्तों और मैट्रिक्स के आधार पर डेटा की क्वेरी कर सकें। ध्यान दें कि सिमेंटिक परिपक्वता एक अतिरिक्त परिवर्तन चरण द्वारा प्राप्त की जा सकती है जो कच्चे डेटा को एक वैचारिक संरचना में परिवर्तित करती है (सीएफ अनुभाग "डेटाबेस जानकारी के साथ प्रॉम्प्ट को समृद्ध करना")।

निम्नलिखित में, हम डेटा, एल्गोरिदम, उपयोगकर्ता अनुभव, साथ ही Text2SQL सुविधा की प्रासंगिक गैर-कार्यात्मक आवश्यकताओं के बारे में गहराई से जानेंगे। यह लेख उत्पाद प्रबंधकों, यूएक्स डिजाइनरों और उन डेटा वैज्ञानिकों और इंजीनियरों के लिए लिखा गया है जो अपनी टेक्स्ट2एसक्यूएल यात्रा की शुरुआत में हैं। इन लोगों के लिए, यह न केवल आरंभ करने के लिए एक मार्गदर्शिका प्रदान करता है, बल्कि संबंधित ट्रेड-ऑफ सहित उत्पाद, प्रौद्योगिकी और व्यवसाय के बीच इंटरफेस पर चर्चा के लिए ज्ञान का एक सामान्य आधार भी प्रदान करता है। यदि आप अपने कार्यान्वयन में पहले से ही अधिक उन्नत हैं, तो अंत में संदर्भ अन्वेषण के लिए गहन जानकारी प्रदान करते हैं।

यदि यह गहन शैक्षिक सामग्री आपके लिए उपयोगी है, तो आप कर सकते हैं हमारी AI रिसर्च मेलिंग लिस्ट को सब्सक्राइब करें जब हम नई सामग्री जारी करते हैं तो सतर्क रहें।

1। डेटा

कोई भी मशीन सीखने का प्रयास डेटा से शुरू होता है, इसलिए हम प्रशिक्षण और भविष्यवाणी के दौरान उपयोग किए जाने वाले इनपुट और लक्ष्य डेटा की संरचना को स्पष्ट करके शुरू करेंगे। पूरे लेख में, हम अपने चल रहे प्रतिनिधित्व के रूप में चित्र 2 से Text1SQL प्रवाह का उपयोग करेंगे, और वर्तमान में विचार किए गए घटकों और संबंधों को पीले रंग में उजागर करेंगे।

1.1 डेटा का प्रारूप और संरचना

आमतौर पर, एक कच्चे Text2SQL इनपुट-आउटपुट जोड़ी में एक प्राकृतिक-भाषा प्रश्न और संबंधित SQL क्वेरी शामिल होती है, उदाहरण के लिए:

सवाल: "प्रत्येक उपयोगकर्ता के नाम और अनुयायियों की संख्या सूचीबद्ध करें।

SQL क्वेरी:

user_profiles से नाम, फ़ॉलोअर्स चुनें

प्रशिक्षण डेटा स्थान में, प्रश्नों और SQL प्रश्नों के बीच मैपिंग अनेक-से-अनेक होती है:

एक SQL क्वेरी को प्राकृतिक भाषा में कई अलग-अलग प्रश्नों से मैप किया जा सकता है; उदाहरण के लिए, उपरोक्त क्वेरी शब्दार्थ को इस प्रकार व्यक्त किया जा सकता है: "मुझे प्रति उपयोगकर्ता फ़ॉलोअर्स के नाम और संख्या दिखाएँ","प्रत्येक उपयोगकर्ता के कितने अनुयायी हैं?" आदि।
SQL सिंटैक्स अत्यधिक बहुमुखी है, और लगभग हर प्रश्न को SQL में कई तरीकों से दर्शाया जा सकता है। सबसे सरल उदाहरण WHERE क्लॉज के विभिन्न क्रम हैं। अधिक उन्नत रुख पर, हर कोई जिसने SQL क्वेरी ऑप्टिमाइज़ेशन किया है, उसे पता होगा कि कई सड़कें एक ही परिणाम की ओर ले जाती हैं, और शब्दार्थ रूप से समकक्ष क्वेरी में पूरी तरह से अलग वाक्यविन्यास हो सकता है।

Text2SQL के लिए प्रशिक्षण डेटा का मैन्युअल संग्रह विशेष रूप से कठिन है। इसके लिए न केवल एनोटेटर की ओर से एसक्यूएल निपुणता की आवश्यकता होती है, बल्कि भावना विश्लेषण और पाठ वर्गीकरण जैसे अधिक सामान्य भाषाई कार्यों की तुलना में प्रति उदाहरण के लिए अधिक समय की भी आवश्यकता होती है। पर्याप्त मात्रा में प्रशिक्षण उदाहरण सुनिश्चित करने के लिए, डेटा संवर्द्धन का उपयोग किया जा सकता है - उदाहरण के लिए, एलएलएम का उपयोग उसी प्रश्न के लिए पैराफ्रेश उत्पन्न करने के लिए किया जा सकता है। [3] Text2SQL डेटा संवर्द्धन तकनीकों का अधिक संपूर्ण सर्वेक्षण प्रदान करता है।

1.2 डेटाबेस जानकारी के साथ प्रॉम्प्ट को समृद्ध करना

Text2SQL असंरचित और संरचित डेटा के बीच इंटरफ़ेस पर एक एल्गोरिदम है। इष्टतम प्रदर्शन के लिए, प्रशिक्षण और भविष्यवाणी के दौरान दोनों प्रकार के डेटा मौजूद होने की आवश्यकता है। विशेष रूप से, एल्गोरिदम को पूछे गए डेटाबेस के बारे में जानना होगा और क्वेरी को इस तरह से तैयार करने में सक्षम होना होगा कि इसे डेटाबेस के विरुद्ध निष्पादित किया जा सके। इस ज्ञान में शामिल हो सकते हैं:

डेटाबेस के कॉलम और टेबल
तालिकाओं के बीच संबंध (विदेशी कुंजी)
डेटाबेस सामग्री

डेटाबेस ज्ञान को शामिल करने के लिए दो विकल्प हैं: एक ओर, प्रशिक्षण डेटा को विशिष्ट डेटाबेस के लिए लिखे गए उदाहरणों तक सीमित किया जा सकता है, जिस स्थिति में स्कीमा सीधे SQL क्वेरी से सीखा जाता है और प्रश्न पर इसकी मैपिंग की जाती है। यह एकल-डेटाबेस सेटिंग किसी व्यक्तिगत डेटाबेस और/या कंपनी के लिए एल्गोरिदम को अनुकूलित करने की अनुमति देती है। हालाँकि, यह स्केलेबिलिटी की किसी भी महत्वाकांक्षा को खत्म कर देता है, क्योंकि मॉडल को हर एक ग्राहक या डेटाबेस के लिए ठीक-ठीक करने की आवश्यकता होती है। वैकल्पिक रूप से, मल्टी-डेटाबेस सेटिंग में, डेटाबेस स्कीमा को इनपुट के हिस्से के रूप में प्रदान किया जा सकता है, जिससे एल्गोरिदम को नए, अनदेखी डेटाबेस स्कीमा को "सामान्यीकृत" करने की अनुमति मिलती है। हालाँकि यदि आप कई अलग-अलग डेटाबेस पर Text2SQL का उपयोग करना चाहते हैं तो आपको निश्चित रूप से इस दृष्टिकोण को अपनाने की आवश्यकता होगी, ध्यान रखें कि इसके लिए काफी त्वरित इंजीनियरिंग प्रयास की आवश्यकता होती है। किसी भी उचित व्यावसायिक डेटाबेस के लिए, प्रॉम्प्ट में पूरी जानकारी शामिल करना बेहद अक्षम होगा और प्रॉम्प्ट लंबाई सीमाओं के कारण संभवतः असंभव होगा। इस प्रकार, शीघ्र निर्माण के लिए जिम्मेदार फ़ंक्शन डेटाबेस जानकारी के एक सबसेट का चयन करने के लिए पर्याप्त स्मार्ट होना चाहिए जो किसी दिए गए प्रश्न के लिए सबसे "उपयोगी" है, और संभावित रूप से अनदेखे डेटाबेस के लिए ऐसा करना चाहिए।

अंत में, डेटाबेस संरचना एक महत्वपूर्ण भूमिका निभाती है। उन परिदृश्यों में जहां आपके पास डेटाबेस पर पर्याप्त नियंत्रण है, आप अपने मॉडल को सहज संरचना से सीखने की अनुमति देकर उसके जीवन को आसान बना सकते हैं। एक सामान्य नियम के रूप में, जितना अधिक आपका डेटाबेस दर्शाता है कि व्यावसायिक उपयोगकर्ता व्यवसाय के बारे में कैसे बात करते हैं, आपका मॉडल उतना ही बेहतर और तेज़ी से सीख सकता है। इस प्रकार, डेटा में अतिरिक्त परिवर्तन लागू करने पर विचार करें, जैसे सामान्यीकृत या अन्यथा बिखरे हुए डेटा को विस्तृत तालिकाओं या डेटा वॉल्ट में इकट्ठा करना, स्पष्ट और स्पष्ट तरीके से तालिकाओं और स्तंभों का नामकरण करना आदि। सभी व्यावसायिक ज्ञान जिसे आप पहले से एन्कोड कर सकते हैं, कम हो जाएगा आपके मॉडल पर संभाव्य सीखने का बोझ और आपको बेहतर परिणाम प्राप्त करने में मदद करता है।

2। एल्गोरिथ्म

Text2SQL एक प्रकार है अर्थपूर्ण विश्लेषण - तार्किक अभ्यावेदन के लिए ग्रंथों का मानचित्रण। इस प्रकार, एल्गोरिदम को न केवल प्राकृतिक भाषा को "सीखना" है, बल्कि लक्ष्य प्रतिनिधित्व भी करना है - हमारे मामले में, एसक्यूएल। विशेष रूप से, इसे निम्नलिखित ज्ञान प्राप्त करना होगा:

एसक्यूएल सिंटैक्स और शब्दार्थ
डेटाबेस संरचना
प्राकृतिक भाषा समझ (NLU)
प्राकृतिक भाषा और एसक्यूएल प्रश्नों के बीच मानचित्रण (वाक्यविन्यास, शाब्दिक और अर्थ संबंधी)

2.1 इनपुट में भाषाई परिवर्तनशीलता को हल करना

इनपुट पर, Text2SQL की मुख्य चुनौती भाषा के लचीलेपन में निहित है: जैसा कि डेटा के प्रारूप और संरचना अनुभाग में वर्णित है, एक ही प्रश्न को कई अलग-अलग तरीकों से व्याख्यायित किया जा सकता है। इसके अतिरिक्त, वास्तविक जीवन के संवादी संदर्भ में, हमें वर्तनी और व्याकरण की गलतियाँ, अपूर्ण और अस्पष्ट इनपुट, बहुभाषी इनपुट आदि जैसे कई मुद्दों से निपटना पड़ता है।

जीपीटी मॉडल, टी5 और कोडएक्स जैसे एलएलएम इस चुनौती को हल करने के और करीब आ रहे हैं। बड़ी मात्रा में विविध पाठों से सीखते हुए, वे बड़ी संख्या में भाषाई पैटर्न और अनियमितताओं से निपटना सीखते हैं। अंत में, वे उन प्रश्नों का सामान्यीकरण करने में सक्षम हो जाते हैं जो अलग-अलग सतही रूप होने के बावजूद शब्दार्थ की दृष्टि से समान होते हैं। एलएलएम को आउट-ऑफ-द-बॉक्स (शून्य-शॉट) या फाइन-ट्यूनिंग के बाद लागू किया जा सकता है। पहला, सुविधाजनक होते हुए भी कम सटीकता की ओर ले जाता है। उत्तरार्द्ध में अधिक कौशल और काम की आवश्यकता होती है, लेकिन सटीकता में काफी वृद्धि हो सकती है।

सटीकता के मामले में, जैसा कि अपेक्षित था, सबसे अच्छा प्रदर्शन करने वाले मॉडल कोडेक्स मॉडल सहित जीपीटी परिवार के नवीनतम मॉडल हैं। अप्रैल 2023 में, GPT-4 ने पिछले अत्याधुनिक की तुलना में सटीकता में 5% से अधिक की नाटकीय वृद्धि की और 85.3% (मीट्रिक "मूल्यों के साथ निष्पादन") की सटीकता हासिल की।[4] ओपन-सोर्स कैंप में, टेक्स्ट2एसक्यूएल पहेली को हल करने के शुरुआती प्रयास बीईआरटी जैसे ऑटो-एन्कोडिंग मॉडल पर केंद्रित थे, जो एनएलयू कार्यों में उत्कृष्टता प्राप्त करते हैं। [5, 6, 7] हालांकि, जेनरेटिव एआई के आसपास प्रचार के बीच, हाल के तरीकों पर ध्यान केंद्रित किया गया है T5 मॉडल जैसे ऑटोरेग्रेसिव मॉडल पर। T5 को मल्टी-टास्क लर्निंग का उपयोग करके पूर्व-प्रशिक्षित किया गया है और इस प्रकार यह आसानी से नए भाषाई कार्यों को अपना लेता है। सिमेंटिक पार्सिंग के विभिन्न प्रकार। हालाँकि, जब सिमेंटिक पार्सिंग कार्यों की बात आती है तो ऑटोरेग्रेसिव मॉडल में एक आंतरिक दोष होता है: उनके पास एक अप्रतिबंधित आउटपुट स्थान होता है और कोई सिमेंटिक रेलिंग नहीं होती है जो उनके आउटपुट को बाधित करती है, जिसका अर्थ है कि वे अपने व्यवहार में आश्चर्यजनक रूप से रचनात्मक हो सकते हैं। हालाँकि यह फ्री-फ़ॉर्म सामग्री उत्पन्न करने के लिए अद्भुत चीज़ है, यह Text2SQL जैसे कार्यों के लिए एक उपद्रव है जहाँ हम एक सीमित, अच्छी तरह से संरचित लक्ष्य आउटपुट की उम्मीद करते हैं।

2.2 क्वेरी सत्यापन और सुधार

एलएलएम आउटपुट को बाधित करने के लिए, हम क्वेरी को मान्य करने और सुधारने के लिए अतिरिक्त तंत्र पेश कर सकते हैं। इसे एक अतिरिक्त सत्यापन चरण के रूप में कार्यान्वित किया जा सकता है, जैसा कि PICARD प्रणाली में प्रस्तावित है।[8] PICARD एक SQL पार्सर का उपयोग करता है जो यह सत्यापित कर सकता है कि आंशिक SQL क्वेरी पूर्ण होने के बाद वैध SQL क्वेरी का कारण बन सकती है या नहीं। एलएलएम द्वारा प्रत्येक पीढ़ी के चरण में, क्वेरी को अमान्य करने वाले टोकन अस्वीकार कर दिए जाते हैं, और उच्चतम संभावना वाले वैध टोकन रखे जाते हैं। नियतात्मक होने के कारण, यह दृष्टिकोण 100% SQL वैधता सुनिश्चित करता है जब तक कि पार्सर सही SQL नियमों का पालन करता है। यह पीढ़ी से क्वेरी सत्यापन को भी अलग करता है, इस प्रकार दोनों घटकों को एक दूसरे से स्वतंत्र रूप से बनाए रखने और एलएलएम को अपग्रेड और संशोधित करने की अनुमति देता है।

एक अन्य दृष्टिकोण संरचनात्मक और एसक्यूएल ज्ञान को सीधे एलएलएम में शामिल करना है। उदाहरण के लिए, ग्राफ़िक्स [9] टी5 मॉडल में संरचित एसक्यूएल ज्ञान को इंजेक्ट करने के लिए ग्राफ़-जागरूक परतों का उपयोग करता है। इस दृष्टिकोण की संभाव्य प्रकृति के कारण, यह सिस्टम को सही प्रश्नों के प्रति पूर्वाग्रहित करता है, लेकिन सफलता की गारंटी नहीं देता है।

अंत में, एलएलएम का उपयोग एक बहु-चरणीय एजेंट के रूप में किया जा सकता है जो स्वायत्त रूप से क्वेरी की जांच और सुधार कर सकता है। [10] चेन-ऑफ-थॉट प्रॉम्प्ट में कई चरणों का उपयोग करके, एजेंट को अपने स्वयं के प्रश्नों की शुद्धता पर विचार करने और किसी भी दोष को सुधारने का काम सौंपा जा सकता है। यदि मान्य क्वेरी अभी भी निष्पादित नहीं की जा सकती है, तो SQL अपवाद ट्रेसबैक को सुधार के लिए अतिरिक्त फीडबैक के रूप में एजेंट को पास किया जा सकता है।

बैकएंड में होने वाली इन स्वचालित विधियों के अलावा, क्वेरी जाँच प्रक्रिया के दौरान उपयोगकर्ता को शामिल करना भी संभव है। हम उपयोगकर्ता अनुभव अनुभाग में इसका अधिक विस्तार से वर्णन करेंगे।

2.3 मूल्यांकन

हमारे Text2SQL एल्गोरिथ्म का मूल्यांकन करने के लिए, हमें एक परीक्षण (सत्यापन) डेटासेट तैयार करना होगा, उस पर अपना एल्गोरिदम चलाना होगा और परिणाम पर प्रासंगिक मूल्यांकन मेट्रिक्स लागू करना होगा। प्रशिक्षण, विकास और सत्यापन डेटा में विभाजित एक अनुभवहीन डेटासेट प्रश्न-क्वेरी जोड़े पर आधारित होगा और उप-इष्टतम परिणामों की ओर ले जाएगा। प्रशिक्षण के दौरान मॉडल के सामने सत्यापन संबंधी प्रश्न प्रकट किए जा सकते हैं और इसके सामान्यीकरण कौशल पर अत्यधिक आशावादी दृष्टिकोण सामने आ सकता है। ए क्वेरी-आधारित विभाजन, जहां डेटासेट को इस तरह से विभाजित किया जाता है कि प्रशिक्षण के दौरान और सत्यापन के दौरान कोई भी प्रश्न प्रकट नहीं होता है, अधिक सच्चे परिणाम प्रदान करता है।

मूल्यांकन मेट्रिक्स के संदर्भ में, Text2SQL में हम जिस चीज़ की परवाह करते हैं वह ऐसी क्वेरी उत्पन्न करना नहीं है जो पूरी तरह से स्वर्ण मानक के समान हों। यह "सटीक स्ट्रिंग मिलान" विधि बहुत सख्त है और कई गलत नकारात्मक परिणाम उत्पन्न करेगी, क्योंकि अलग-अलग SQL क्वेरीज़ से एक ही डेटासेट वापस आ सकता है। इसके बजाय, हम ऊँचाइयाँ हासिल करना चाहते हैं अर्थ संबंधी सटीकता और मूल्यांकन करें कि क्या पूर्वानुमानित और "स्वर्ण मानक" प्रश्न हमेशा समान डेटासेट लौटाएंगे। तीन मूल्यांकन मेट्रिक्स हैं जो इस लक्ष्य का अनुमान लगाते हैं:

सटीक-सेट मिलान सटीकता: उत्पन्न और लक्ष्य SQL क्वेरी को उनके घटकों में विभाजित किया जाता है, और परिणामी सेट की पहचान के लिए तुलना की जाती है। [11] यहां कमी यह है कि यह केवल SQL क्वेरी में ऑर्डर भिन्नताओं के लिए जिम्मेदार है, लेकिन शब्दार्थ रूप से समकक्ष प्रश्नों के बीच अधिक स्पष्ट वाक्यविन्यास अंतर के लिए नहीं।
निष्पादन सटीकता: उत्पन्न और लक्ष्य SQL क्वेरी से उत्पन्न डेटासेट की पहचान के लिए तुलना की जाती है। सौभाग्य से, विभिन्न शब्दार्थ वाले प्रश्न अभी भी एक विशिष्ट डेटाबेस उदाहरण पर इस परीक्षा को पास कर सकते हैं। उदाहरण के लिए, एक डेटाबेस मानते हुए जहां सभी उपयोगकर्ता 30 वर्ष से अधिक आयु के हैं, निम्नलिखित दो प्रश्न अलग-अलग शब्दार्थ होने के बावजूद समान परिणाम देंगे:
उपयोगकर्ता से * चुनें
उस उपयोगकर्ता से * चुनें जिसकी आयु > 30 है
परीक्षण-सूट सटीकता: परीक्षण-सूट सटीकता निष्पादन सटीकता का एक अधिक उन्नत और कम अनुमेय संस्करण है। प्रत्येक क्वेरी के लिए, डेटाबेस का एक सेट ("परीक्षण सूट") उत्पन्न होता है जो क्वेरी में चर, स्थितियों और मूल्यों के संबंध में अत्यधिक भिन्न होता है। फिर, इनमें से प्रत्येक डेटाबेस पर निष्पादन सटीकता का परीक्षण किया जाता है। परीक्षण-सूट पीढ़ी को इंजीनियर करने के लिए अतिरिक्त प्रयास की आवश्यकता होने पर, यह मीट्रिक मूल्यांकन में गलत सकारात्मकता के जोखिम को भी काफी कम कर देता है.[12]

3. उपयोगकर्ता अनुभव

Text2SQL की वर्तमान अत्याधुनिकता उत्पादन प्रणालियों में पूरी तरह से निर्बाध एकीकरण की अनुमति नहीं देती है - इसके बजाय, उपयोगकर्ता की अपेक्षाओं और व्यवहार को सक्रिय रूप से प्रबंधित करना आवश्यक है, जिसे हमेशा पता होना चाहिए कि वह किसके साथ बातचीत कर रही है एक एआई प्रणाली.

3.1 विफलता प्रबंधन

Text2SQL दो मोड में विफल हो सकता है, जिसे विभिन्न तरीकों से पकड़ने की आवश्यकता है:

एसक्यूएल त्रुटियाँ: उत्पन्न क्वेरी मान्य नहीं है - या तो SQL अमान्य है, या इसे शाब्दिक या अर्थ संबंधी खामियों के कारण विशिष्ट डेटाबेस के विरुद्ध निष्पादित नहीं किया जा सकता है। इस स्थिति में, उपयोगकर्ता को कोई परिणाम नहीं लौटाया जा सकता.
सिमेंटिक त्रुटियां: उत्पन्न क्वेरी वैध है लेकिन यह प्रश्न के शब्दार्थ को प्रतिबिंबित नहीं करती है, इस प्रकार गलत डेटासेट लौटाया जाता है।

दूसरा मोड विशेष रूप से मुश्किल है क्योंकि "मूक विफलताओं" का जोखिम - ऐसी त्रुटियां जो उपयोगकर्ता द्वारा पता नहीं चल पाती हैं - अधिक है। प्रोटोटाइप उपयोगकर्ता के पास क्वेरी और/या परिणामी डेटा की शुद्धता को सत्यापित करने के लिए न तो समय होगा और न ही तकनीकी कौशल। जब वास्तविक दुनिया में निर्णय लेने के लिए डेटा का उपयोग किया जाता है, तो इस प्रकार की विफलता के विनाशकारी परिणाम हो सकते हैं। इससे बचने के लिए, उपयोगकर्ताओं को शिक्षित करना और स्थापित करना महत्वपूर्ण है व्यावसायिक स्तर पर रेलिंग जो संभावित प्रभाव को सीमित करता है, जैसे कि अधिक प्रभाव वाले निर्णयों के लिए अतिरिक्त डेटा जाँच। दूसरी ओर, हम मानव-मशीन इंटरैक्शन को प्रबंधित करने और उपयोगकर्ता को समस्याग्रस्त अनुरोधों का पता लगाने और उन्हें सुधारने में मदद करने के लिए उपयोगकर्ता इंटरफ़ेस का भी उपयोग कर सकते हैं।

3.2 मानव-मशीन संपर्क

उपयोगकर्ता तीव्रता की विभिन्न डिग्री के साथ आपके एआई सिस्टम से जुड़ सकते हैं। प्रति अनुरोध अधिक इंटरैक्शन से बेहतर परिणाम मिल सकते हैं, लेकिन यह उपयोगकर्ता अनुभव की तरलता को भी धीमा कर देता है। गलत प्रश्नों और परिणामों के संभावित नकारात्मक प्रभाव के अलावा, इस बात पर भी विचार करें कि आपके उपयोगकर्ता अधिक सटीक परिणाम प्राप्त करने और लंबी अवधि में उत्पाद को बेहतर बनाने में मदद करने के लिए आगे-पीछे प्रतिक्रिया देने के लिए कितने प्रेरित होंगे।

आत्मविश्वास स्कोर के साथ काम करना सबसे आसान और कम आकर्षक तरीका है। जबकि उत्पन्न टोकन की संभावनाओं के औसत के रूप में आत्मविश्वास की सरल गणना अत्यधिक सरल है, मौखिक प्रतिक्रिया जैसे अधिक उन्नत तरीकों का उपयोग किया जा सकता है। [13] आत्मविश्वास को इंटरफ़ेस में प्रदर्शित किया जा सकता है और खतरनाक रूप से कम होने की स्थिति में स्पष्ट चेतावनी के साथ हाइलाइट किया जा सकता है। इस तरह, "वास्तविक दुनिया" में उचित अनुवर्ती कार्रवाई की जिम्मेदारी - चाहे वह अस्वीकृति, स्वीकृति या डेटा की अतिरिक्त जांच हो - आपके उपयोगकर्ता के कंधों पर आ जाती है। हालांकि एक विक्रेता के रूप में यह आपके लिए एक सुरक्षित दांव है, इस कार्य को उपयोगकर्ता को स्थानांतरित करने से आपके उत्पाद का मूल्य भी कम हो सकता है।

दूसरी संभावना कम आत्मविश्वास, अस्पष्ट या अन्यथा संदिग्ध प्रश्नों के मामले में उपयोगकर्ता को स्पष्टीकरण संवाद में शामिल करना है। उदाहरण के लिए, आपका सिस्टम इनपुट में ऑर्थोग्राफ़िक या व्याकरण सुधार का सुझाव दे सकता है और विशिष्ट शब्दों या व्याकरणिक संरचनाओं को स्पष्ट करने के लिए कह सकता है। यह उपयोगकर्ता को क्वेरी में सुधार के लिए सक्रिय रूप से पूछने की अनुमति भी दे सकता है:[14]

उपयोगकर्ता: मुझे इस स्प्रिंट में जॉन के कार्य दिखाओ।

सहायक: क्या आप जॉन द्वारा बनाए गए कार्यों को देखना चाहेंगे, या जिन पर वह काम कर रहा है?

उपयोगकर्ता: जॉन द्वारा बनाए गए कार्य

सहायक: ठीक है, यहां कार्य आईडी हैं:

उपयोगकर्ता: धन्यवाद, मैं कार्यों के बारे में अधिक जानकारी भी देखना चाहूंगा। कृपया तात्कालिकता के आधार पर भी क्रमबद्ध करें।

सहायक: निश्चित रूप से, यहां समय सीमा के अनुसार क्रमबद्ध संक्षिप्त विवरण, असाइनमेंट और समय सीमा के साथ कार्य दिए गए हैं।

अंत में, उपयोगकर्ता द्वारा प्रश्नों की समझ को आसान बनाने के लिए, आपका सिस्टम क्वेरी का एक स्पष्ट पाठ्य सुधार भी प्रदान कर सकता है और उपयोगकर्ता से इसकी पुष्टि या सही करने के लिए कह सकता है।[15]

4. गैर-कार्यात्मक आवश्यकताएँ

इस अनुभाग में, हम Text2SQL के लिए विशिष्ट गैर-कार्यात्मक आवश्यकताओं के साथ-साथ उनके बीच व्यापार-बंद पर चर्चा करते हैं। हम उन छह आवश्यकताओं पर ध्यान केंद्रित करेंगे जो कार्य के लिए सबसे महत्वपूर्ण लगती हैं: सटीकता, मापनीयता, गति, व्याख्यात्मकता, गोपनीयता और समय के साथ अनुकूलनशीलता।

4.1 सटीकता

Text2SQL के लिए, सटीकता की आवश्यकताएँ अधिक हैं। सबसे पहले, Text2SQL को आम तौर पर वार्तालाप सेटिंग में लागू किया जाता है जहां भविष्यवाणियां एक-एक करके की जाती हैं। इस प्रकार, "बड़ी संख्या का कानून" जो आम तौर पर बैचेड भविष्यवाणियों में त्रुटि को संतुलित करने में मदद करता है, मदद नहीं करता है। दूसरा, वाक्यात्मक और शाब्दिक वैधता एक "कठिन" स्थिति है: मॉडल को एक अच्छी तरह से बनाई गई SQL क्वेरी उत्पन्न करनी होगी, संभावित रूप से जटिल वाक्यविन्यास और शब्दार्थ के साथ, अन्यथा अनुरोध को डेटाबेस के विरुद्ध निष्पादित नहीं किया जा सकता है। और यदि यह अच्छी तरह से चलता है और क्वेरी निष्पादित की जा सकती है, तो इसमें अभी भी अर्थ संबंधी त्रुटियां हो सकती हैं और गलत लौटाए गए डेटासेट का कारण बन सकता है (सीएफ अनुभाग 3.1 विफलता प्रबंधन)।

4.2 स्केलेबिलिटी

मुख्य स्केलेबिलिटी विचार यह है कि क्या आप Text2SQL को एक या एकाधिक डेटाबेस पर लागू करना चाहते हैं - और बाद के मामले में, क्या डेटाबेस का सेट ज्ञात और बंद है। यदि हां, तो आपके लिए यह आसान होगा क्योंकि आप प्रशिक्षण के दौरान इन डेटाबेस के बारे में जानकारी शामिल कर सकते हैं। हालाँकि, एक स्केलेबल उत्पाद के परिदृश्य में - चाहे वह एक स्टैंडअलोन Text2SQL एप्लिकेशन हो या मौजूदा डेटा उत्पाद में एकीकरण हो - आपके एल्गोरिदम को तुरंत किसी भी नए डेटाबेस स्कीमा से निपटना होगा। यह परिदृश्य आपको डेटाबेस संरचना को सीखने के लिए अधिक सहज बनाने के लिए बदलने का अवसर भी नहीं देता है (लिंक!)। यह सब सटीकता के साथ एक भारी व्यापार-बंद की ओर ले जाता है, जो यह भी बता सकता है कि मौजूदा टेक्स्ट2एसक्यूएल प्रदाता जो नए डेटाबेस की तदर्थ क्वेरी की पेशकश करते हैं, उन्होंने अभी तक महत्वपूर्ण बाजार में प्रवेश क्यों हासिल नहीं किया है।

4.3 स्पीड

चूंकि Text2SQL अनुरोधों को आम तौर पर बातचीत में ऑनलाइन संसाधित किया जाएगा, इसलिए उपयोगकर्ता की संतुष्टि के लिए गति पहलू महत्वपूर्ण है। सकारात्मक पक्ष पर, उपयोगकर्ता अक्सर इस तथ्य से अवगत होते हैं कि डेटा अनुरोधों में एक निश्चित समय लग सकता है और आवश्यक धैर्य दिखाया जा सकता है। हालाँकि, इस सद्भावना को चैट सेटिंग द्वारा कम किया जा सकता है, जहाँ उपयोगकर्ता अवचेतन रूप से मानव जैसी बातचीत की गति की अपेक्षा करते हैं। मॉडल के आकार को कम करने जैसी क्रूर-बल अनुकूलन विधियों का सटीकता पर अस्वीकार्य प्रभाव हो सकता है, इसलिए इस अपेक्षा को पूरा करने के लिए अनुमान अनुकूलन पर विचार करें।

4.4 व्याख्यात्मकता और पारदर्शिता

आदर्श स्थिति में, उपयोगकर्ता पाठ से क्वेरी कैसे उत्पन्न हुई, इसका अनुसरण कर सकता है, प्रश्न और SQL क्वेरी आदि में विशिष्ट शब्दों या अभिव्यक्तियों के बीच मैपिंग देख सकता है। यह सिस्टम के साथ इंटरैक्ट करते समय क्वेरी को सत्यापित करने और कोई भी समायोजन करने की अनुमति देता है। . इसके अलावा, सिस्टम क्वेरी का एक स्पष्ट पाठ्य सुधार भी प्रदान कर सकता है और उपयोगकर्ता से इसकी पुष्टि या सही करने के लिए कह सकता है।

4.5 गोपनीयता

Text2SQL फ़ंक्शन को क्वेरी निष्पादन से अलग किया जा सकता है, ताकि लौटाई गई डेटाबेस जानकारी को अदृश्य रखा जा सके। हालाँकि, महत्वपूर्ण प्रश्न यह है कि प्रॉम्प्ट में डेटाबेस के बारे में कितनी जानकारी शामिल है। तीन विकल्प (गोपनीयता स्तर घटाकर) हैं:

कोई सूचना नहीं
डेटाबेस स्कीमा
डेटाबेस सामग्री

गोपनीयता सटीकता के साथ काम करती है - प्रॉम्प्ट में उपयोगी जानकारी शामिल करने में आप जितने कम बाध्य होंगे, परिणाम उतने ही बेहतर होंगे।

4.6 समय के साथ अनुकूलनशीलता

Text2SQL को टिकाऊ तरीके से उपयोग करने के लिए, आपको डेटा बहाव को अनुकूलित करने की आवश्यकता है, अर्थात डेटा का बदलता वितरण जिस पर मॉडल लागू किया जाता है। उदाहरण के लिए, मान लें कि प्रारंभिक फ़ाइन-ट्यूनिंग के लिए उपयोग किया गया डेटा उपयोगकर्ताओं के बीआई सिस्टम का उपयोग शुरू करने पर उनके सरल क्वेरी व्यवहार को दर्शाता है। जैसे-जैसे समय बीतता है, उपयोगकर्ताओं की सूचना आवश्यकताएं अधिक परिष्कृत हो जाती हैं और अधिक जटिल प्रश्नों की आवश्यकता होती है, जो आपके अनुभवहीन मॉडल पर हावी हो जाते हैं। इसके अलावा, किसी कंपनी के बदलाव के लक्ष्य या रणनीति भी जानकारी की जरूरतों को डेटाबेस के अन्य क्षेत्रों की ओर ले जा सकती है और निर्देशित कर सकती है। अंत में, एक Text2SQL-विशिष्ट चुनौती डेटाबेस ड्रिफ्ट है। जैसे-जैसे कंपनी डेटाबेस का विस्तार होता है, नए, अनदेखे कॉलम और टेबल प्रॉम्प्ट में अपना रास्ता बना लेते हैं। जबकि Text2SQL एल्गोरिदम जो मल्टी-डेटाबेस एप्लिकेशन के लिए डिज़ाइन किए गए हैं, इस समस्या को अच्छी तरह से संभाल सकते हैं, यह एकल-डेटाबेस मॉडल की सटीकता को महत्वपूर्ण रूप से प्रभावित कर सकता है। इन सभी मुद्दों को एक फाइन-ट्यूनिंग डेटासेट के साथ सबसे अच्छा हल किया जाता है जो उपयोगकर्ताओं के वर्तमान, वास्तविक दुनिया के व्यवहार को दर्शाता है। इस प्रकार, उपयोगकर्ता के प्रश्नों और परिणामों के साथ-साथ किसी भी संबंधित फीडबैक को लॉग करना महत्वपूर्ण है जिसे उपयोग से एकत्र किया जा सकता है। इसके अतिरिक्त, सिमेंटिक क्लस्टरिंग एल्गोरिदम, उदाहरण के लिए एम्बेडिंग या विषय मॉडलिंग का उपयोग करके, उपयोगकर्ता के व्यवहार में अंतर्निहित दीर्घकालिक परिवर्तनों का पता लगाने के लिए लागू किया जा सकता है और इन्हें आपके फाइन-ट्यूनिंग डेटासेट को सही करने के लिए जानकारी के अतिरिक्त स्रोत के रूप में उपयोग किया जा सकता है।

निष्कर्ष

आइए लेख के मुख्य बिंदुओं को संक्षेप में प्रस्तुत करें:

Text2SQL किसी व्यवसाय में सहज और लोकतांत्रिक डेटा पहुंच को लागू करने की अनुमति देता है, इस प्रकार उपलब्ध डेटा के मूल्य को अधिकतम करता है।
Text2SQL डेटा में इनपुट पर प्रश्न और आउटपुट पर SQL क्वेरी शामिल हैं। प्रश्नों और SQL प्रश्नों के बीच मैपिंग अनेक-से-अनेक है।
प्रॉम्प्ट के भाग के रूप में डेटाबेस के बारे में जानकारी प्रदान करना महत्वपूर्ण है। इसके अतिरिक्त, एल्गोरिदम के लिए इसे सीखना और समझना आसान बनाने के लिए डेटाबेस संरचना को अनुकूलित किया जा सकता है।
इनपुट पर, मुख्य चुनौती प्राकृतिक-भाषा प्रश्नों की भाषाई परिवर्तनशीलता है, जिसे एलएलएम का उपयोग करके हल किया जा सकता है जो विभिन्न पाठ शैलियों की एक विस्तृत विविधता पर पूर्व-प्रशिक्षित थे।
Text2SQL का आउटपुट एक वैध SQL क्वेरी होना चाहिए। इस बाधा को एल्गोरिदम में SQL ज्ञान को "इंजेक्ट" करके शामिल किया जा सकता है; वैकल्पिक रूप से, पुनरावृत्त दृष्टिकोण का उपयोग करके, क्वेरी को कई चरणों में जांचा और सुधारा जा सकता है।
निर्णय लेने के लिए गलत डेटा लौटाने वाली "मूक विफलताओं" के संभावित उच्च प्रभाव के कारण, उपयोगकर्ता इंटरफ़ेस में विफलता प्रबंधन एक प्राथमिक चिंता है।
"संवर्धित" फैशन में, उपयोगकर्ता SQL प्रश्नों के पुनरावृत्त सत्यापन और सुधार में सक्रिय रूप से शामिल हो सकते हैं। हालांकि यह एप्लिकेशन को कम तरल बनाता है, यह विफलता दर को भी कम करता है, उपयोगकर्ताओं को अधिक लचीले तरीके से डेटा का पता लगाने की अनुमति देता है और आगे सीखने के लिए मूल्यवान संकेत बनाता है।
विचार करने योग्य प्रमुख गैर-कार्यात्मक आवश्यकताएँ सटीकता, मापनीयता, गति, व्याख्यात्मकता, गोपनीयता और समय के साथ अनुकूलनशीलता हैं। मुख्य समझौता एक ओर सटीकता और दूसरी ओर स्केलेबिलिटी, गति और गोपनीयता के बीच होता है।