Can Data Governance Address AI Fatigue? - KDnuggets

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

क्या डेटा गवर्नेंस एआई थकान का समाधान कर सकता है?
लेखक द्वारा छवि

डेटा गवर्नेंस और एआई थकान दो अलग-अलग अवधारणाओं की तरह लगते हैं, लेकिन दोनों के बीच एक आंतरिक संबंध है। इसे बेहतर ढंग से समझने के लिए, आइए उनकी परिभाषा से शुरुआत करें।

यह लंबे समय से डेटा उद्योग का मुख्य फोकस रहा है।

गूगल इसे अच्छी तरह से कहते हैं - “डेटा गवर्नेंस वह सब कुछ है जो आप यह सुनिश्चित करने के लिए करते हैं कि डेटा सुरक्षित, निजी, सटीक, उपलब्ध और उपयोग योग्य है। इसमें आंतरिक मानकों-डेटा नीतियों को स्थापित करना शामिल है-जो डेटा को इकट्ठा करने, संग्रहीत करने, संसाधित करने और निपटाने के तरीके पर लागू होते हैं।"

जैसा कि यह परिभाषा उजागर करती है, डेटा गवर्नेंस डेटा प्रबंधन के बारे में है - सटीक रूप से एआई मॉडल चलाने वाला इंजन।

अब जब डेटा गवर्नेंस और एआई के बीच संबंध के पहले संकेत सामने आने लगे हैं, तो आइए इसे एआई की थकान से जोड़ते हैं। हालाँकि नाम से इसका पता चलता है, लेकिन ऐसी थकान के कारणों पर प्रकाश डालने से पूरे पोस्ट में इस शब्द का लगातार उपयोग सुनिश्चित होता है।

संगठनों, डेवलपर्स या टीमों के सामने आने वाली असफलताओं और चुनौतियों के कारण एआई में थकान आ जाती है, जिससे अक्सर एआई सिस्टम के असफल मूल्य प्राप्ति या कार्यान्वयन होता है।

यह अधिकतर अवास्तविक अपेक्षाओं से शुरू होता है कि एआई क्या करने में सक्षम है। एआई जैसी परिष्कृत प्रौद्योगिकियों के लिए, प्रमुख हितधारकों को न केवल एआई की क्षमताओं और संभावनाओं के साथ, बल्कि इसकी सीमाओं और जोखिमों के साथ भी तालमेल बिठाने की जरूरत है।

जोखिमों के बारे में बात करते हुए, नैतिकता को अक्सर एक बाद का विचार माना जाता है जो गैर-अनुपालक एआई पहल को खत्म करने की ओर ले जाता है।

आप एआई थकान पैदा करने में डेटा गवर्नेंस की भूमिका के बारे में सोच रहे होंगे - इस पोस्ट का आधार।

हम आगे इसी ओर जा रहे हैं।

एआई थकान को मोटे तौर पर पूर्व-तैनाती और पोस्ट-तैनाती के रूप में वर्गीकृत किया जा सकता है। आइए सबसे पहले हम पूर्व-तैनाती पर ध्यान केंद्रित करें।

पूर्व तैनाती

प्रूफ़ ऑफ़ कॉन्सेप्ट (PoC) को परिनियोजन तक पहुँचाने में विभिन्न कारक योगदान करते हैं, जैसे:

हम क्या हल करने का प्रयास कर रहे हैं?
अब प्राथमिकता तय करना एक अनिवार्य समस्या क्यों बन गई है?
कौन सा डेटा उपलब्ध है?
क्या यह सबसे पहले एमएल-सॉल्व करने योग्य है?
क्या डेटा का कोई पैटर्न होता है?
क्या घटना दोहराई जा सकती है?
कौन सा अतिरिक्त डेटा मॉडल के प्रदर्शन को बढ़ाएगा?

क्या डेटा गवर्नेंस एआई थकान का समाधान कर सकता है?
से छवि Freepik

एक बार जब हमने मूल्यांकन कर लिया कि समस्या को एमएल एल्गोरिदम का उपयोग करके सबसे अच्छा हल किया जा सकता है, तो डेटा विज्ञान टीम एक खोजपूर्ण डेटा विश्लेषण करती है। इस स्तर पर कई अंतर्निहित डेटा पैटर्न उजागर होते हैं, जो इस बात पर प्रकाश डालते हैं कि दिया गया डेटा सिग्नल में समृद्ध है या नहीं। यह एल्गोरिथम की सीखने की प्रक्रिया को तेज़ करने के लिए इंजीनियर्ड सुविधाएँ बनाने में भी मदद करता है।

इसके बाद, टीम पहला बेसलाइन मॉडल बनाती है, अक्सर यह पाते हुए कि यह स्वीकार्य स्तर तक प्रदर्शन नहीं कर रहा है। एक मॉडल जिसका आउटपुट सिक्के के उछाल जितना अच्छा है, कोई मूल्य नहीं जोड़ता है। एमएल मॉडल बनाते समय यह पहली असफलताओं, उर्फ पाठों में से एक है।

संगठन एक व्यावसायिक समस्या से दूसरी व्यावसायिक समस्या की ओर बढ़ सकते हैं, जिससे थकान हो सकती है। फिर भी, यदि अंतर्निहित डेटा में समृद्ध सिग्नल नहीं है, तो कोई भी एआई एल्गोरिदम इस पर निर्माण नहीं कर सकता है। अनदेखी डेटा पर सामान्यीकरण करने के लिए मॉडल को प्रशिक्षण डेटा से सांख्यिकीय संघों को सीखना होगा।

पोस्ट-तैनाती

प्रशिक्षित मॉडल द्वारा सत्यापन सेट पर आशाजनक परिणाम दिखाने के बावजूद, 70% परिशुद्धता जैसे योग्यता वाले व्यावसायिक मानदंडों के अनुरूप, यदि मॉडल उत्पादन वातावरण में पर्याप्त रूप से प्रदर्शन करने में विफल रहता है, तो थकान अभी भी उत्पन्न हो सकती है।

इस प्रकार की एआई थकान को तैनाती के बाद का चरण कहा जाता है।

असंख्य कारणों से प्रदर्शन खराब हो सकता है, जहां खराब डेटा गुणवत्ता मॉडल को परेशान करने वाली सबसे आम समस्या है। यह महत्वपूर्ण विशेषताओं के अभाव में लक्ष्य प्रतिक्रिया की सटीक भविष्यवाणी करने की मॉडल की क्षमता को सीमित करता है।

विचार करें जब आवश्यक सुविधाओं में से एक, जो प्रशिक्षण डेटा में केवल 10% गायब थी, अब उत्पादन डेटा में 50% समय के लिए शून्य हो जाती है, जिससे गलत भविष्यवाणियाँ होती हैं। इस तरह के पुनरावृत्तियों और लगातार प्रदर्शन करने वाले मॉडल को सुनिश्चित करने के प्रयास डेटा वैज्ञानिकों और व्यावसायिक टीमों में थकान पैदा करते हैं, जिससे डेटा पाइपलाइनों में विश्वास कम हो जाता है और परियोजना में किए गए निवेश को जोखिम होता है।

दोनों प्रकार की एआई थकान से निपटने के लिए मजबूत डेटा प्रशासन उपाय महत्वपूर्ण हैं। यह देखते हुए कि डेटा एमएल मॉडल के मूल में है, सिग्नल-समृद्ध, त्रुटि मुक्त और उच्च गुणवत्ता वाला डेटा एमएल प्रोजेक्ट की सफलता के लिए जरूरी है। एआई की थकान को दूर करने के लिए डेटा गवर्नेंस पर विशेष ध्यान देने की आवश्यकता है। इसलिए, हमें सही डेटा गुणवत्ता सुनिश्चित करने, अत्याधुनिक मॉडल बनाने और भरोसेमंद व्यावसायिक अंतर्दृष्टि प्रदान करने के लिए आधार तैयार करने के लिए सख्ती से काम करना चाहिए।

डेटा की गुणवत्ता

डेटा गुणवत्ता, समृद्ध डेटा प्रशासन की कुंजी, मशीन लर्निंग एल्गोरिदम के लिए एक महत्वपूर्ण सफलता कारक है। संगठनों को डेटा गुणवत्ता में निवेश करना चाहिए, जैसे डेटा उपभोक्ताओं के लिए रिपोर्ट प्रकाशित करना। डेटा विज्ञान परियोजनाओं में, सोचें कि क्या होता है जब खराब गुणवत्ता वाला डेटा मॉडलों तक पहुंच जाता है, जिससे प्रदर्शन खराब हो सकता है।

केवल त्रुटि विश्लेषण के दौरान ही टीमों को डेटा गुणवत्ता संबंधी चिंताओं की पहचान करने को मिलेगी, जिसे जब ठीक करने के लिए अपस्ट्रीम में भेजा जाता है, तो टीमों के बीच थकान पैदा हो जाती है।

स्पष्ट रूप से, यह केवल खर्च किया गया प्रयास नहीं है, बल्कि सही डेटा आने तक बहुत समय बर्बाद हो जाता है।

इसलिए, ऐसी समय लेने वाली पुनरावृत्तियों को रोकने के लिए हमेशा स्रोत पर डेटा समस्याओं को ठीक करने की सलाह दी जाती है। अंततः, प्रकाशित डेटा गुणवत्ता रिपोर्ट आने वाले डेटा की स्वीकार्य गुणवत्ता की समझ के साथ डेटा विज्ञान टीम (या, उस मामले के लिए, किसी भी अन्य डाउनस्ट्रीम उपयोगकर्ताओं और डेटा उपभोक्ताओं) की ओर इशारा करती है।

डेटा गुणवत्ता और शासन उपायों के बिना, डेटा वैज्ञानिकों पर डेटा समस्याओं का बोझ बढ़ जाएगा, जिससे असफल मॉडलों में एआई की थकान पैदा होगी।

पोस्ट में उन दो चरणों पर प्रकाश डाला गया है जिन पर एआई की थकान उत्पन्न होती है और प्रस्तुत किया गया है कि कैसे डेटा गुणवत्ता रिपोर्ट जैसे डेटा प्रशासन उपाय भरोसेमंद और मजबूत मॉडल बनाने में सहायक हो सकते हैं।

डेटा गवर्नेंस के माध्यम से एक ठोस आधार स्थापित करके, संगठन उत्साह पैदा करते हुए सफल और निर्बाध एआई विकास और अपनाने के लिए एक रोडमैप बना सकते हैं।

यह सुनिश्चित करने के लिए कि पोस्ट एआई थकान को दूर करने के विभिन्न तरीकों का समग्र अवलोकन देता है, मैं संगठनात्मक संस्कृति की भूमिका पर भी जोर देता हूं, जो डेटा गवर्नेंस जैसी अन्य सर्वोत्तम प्रथाओं के साथ मिलकर डेटा विज्ञान टीमों को जल्द ही सार्थक एआई योगदान बनाने में सक्षम और सशक्त बनाएगा। और तेज।

विधी चुग एक एआई रणनीतिकार और एक डिजिटल परिवर्तन नेता है जो स्केलेबल मशीन लर्निंग सिस्टम बनाने के लिए उत्पाद, विज्ञान और इंजीनियरिंग के चौराहे पर काम कर रहा है। वह एक पुरस्कार विजेता नवाचार नेता, एक लेखक और एक अंतरराष्ट्रीय वक्ता हैं। वह मशीन लर्निंग का लोकतंत्रीकरण करने और इस परिवर्तन का हिस्सा बनने के लिए हर किसी के लिए शब्दजाल को तोड़ने के मिशन पर है।