डर्टी डेटा में दुनिया की भीड़ पर काबू पाना

डर्टी डेटा में दुनिया की भीड़ पर काबू पाना

स्रोत नोड: 2574986

एक अदृश्य वायरस की तरह, "गंदा डेटा" आज के व्यापारिक जगत को परेशान कर रहा है। कहने का तात्पर्य यह है कि, आज की "बड़े डेटा"-केंद्रित दुनिया में गलत, अधूरा और असंगत डेटा तेजी से फैल रहा है।

गंदे डेटा के साथ काम करने से कंपनियों को सालाना लाखों डॉलर का नुकसान होता है। यह उद्यम में फैले विभागों की दक्षता और प्रभावशीलता को कम करता है और विकास और पैमाने के प्रयासों को कम करता है। यह प्रतिस्पर्धात्मकता को बाधित करता है, सुरक्षा जोखिमों को बढ़ाता है और अनुपालन संबंधी समस्याएं प्रस्तुत करता है।

जिनके प्रभारी हैं आँकड़ा प्रबंधन वर्षों से इस चुनौती से जूझ रहे हैं। वर्तमान में उपलब्ध कई उपकरण विभागों के भीतर एकल टीमों के लिए डेटा प्रबंधन मुद्दों का समाधान कर सकते हैं, लेकिन बड़े पैमाने पर कंपनी या व्यापक डेटा पारिस्थितिकी तंत्र के लिए नहीं। इससे भी बदतर, ये उपकरण अक्सर अधिक डेटा बनाते हैं जिसे प्रबंधित किया जाना चाहिए - और वह डेटा भी गंदा हो सकता है, जिससे अधिक सिरदर्द और राजस्व हानि हो सकती है।

डर्टी डेटा को समझना

गंदा डेटा किसी भी डेटा को संदर्भित करता है जो भ्रामक, डुप्लिकेट, गलत या गलत है, अभी तक एकीकृत नहीं है, व्यवसाय-नियम का उल्लंघन कर रहा है, समान प्रारूपण की कमी है, या विराम चिह्न या वर्तनी में त्रुटियां हैं।

यह समझने के लिए कि हाल के दशकों में कितना गंदा डेटा सर्वव्यापी हो गया है, निम्नलिखित परिदृश्य की कल्पना करें: 

एक बड़े बैंक के ऋणदाता तब हैरान हो जाते हैं जब उन्हें पता चलता है कि बैंक के लगभग सभी ग्राहक अंतरिक्ष यात्री हैं। यह मानते हुए कि नासा के पास केवल एक है कुछ दर्जन अंतरिक्ष यात्री, इसका कोई अर्थ नहीं निकलता। 

आगे की खोज पर, ऋण विभाग को पता चला कि नए खाते खोलने वाले बैंक अधिकारी ग्राहक व्यवसाय क्षेत्र में "अंतरिक्ष यात्री" डाल रहे थे। ऋणदाताओं को पता चलता है कि नौकरी का विवरण नए खातों के लिए जिम्मेदार उनके समकक्षों के लिए अप्रासंगिक है। बैंक अधिकारी नए खाते बनाने में अधिक तेजी से आगे बढ़ने के लिए पहला उपलब्ध विकल्प "अंतरिक्ष यात्री" का चयन कर रहे थे।

हालाँकि, उधारदाताओं को अपने वार्षिक बोनस प्राप्त करने के लिए रिकॉर्ड पर अपने ग्राहकों का सही व्यवसाय होना चाहिए। स्थिति का समाधान करने के लिए, ऋण विभाग अपना स्वयं का अलग डेटाबेस विकसित करता है। वे प्रत्येक ग्राहक से संपर्क करते हैं, सही व्यवसाय सीखते हैं और उसे अपने डेटाबेस में डालते हैं।

अब, बैंक के पास एक फ़ील्ड के अलावा अनिवार्य रूप से समान जानकारी वाले दो डेटाबेस हैं। यदि कोई तीसरा विभाग उन डेटाबेस में जानकारी तक पहुँचना चाहता है, तो यह निर्धारित करने के लिए कोई प्रणाली मौजूद नहीं है कि कौन सा डेटाबेस सटीक है। तो, वह तीसरा विभाग भी अपना डेटाबेस बना सकता है।

दशकों से देश भर के संगठनों में इसी तरह के परिदृश्य सामने आते रहे हैं।

बढ़ती डिजिटल-डेटा लैंडफिल

समस्या 1990 के दशक में शुरू हुई डिजिटल परिवर्तन उछाल. कंपनियों ने अपनी व्यावसायिक प्रक्रियाओं को बेहतर बनाने के लिए एंटरप्राइज़ सॉफ़्टवेयर तैनात किया। उदाहरण के लिए, Salesforce के सॉफ़्टवेयर-ए-ए-सर्विस उत्पाद, बिक्री और विपणन प्रणालियों को प्रबंधित करने के बेहतर तरीके सक्षम करते हैं।

लेकिन 30 साल बाद, इस तरह के विरासती बुनियादी ढांचे के परिणामस्वरूप डेटा प्रबंधन एक दुःस्वप्न बन गया है। डुप्लिकेट, अपूर्ण और गलत जानकारी के ढेरों के साथ अलग-अलग डेटा साइलो ने कॉर्पोरेट और सार्वजनिक क्षेत्र के परिदृश्य को खराब कर दिया है। उन साइलो में व्यवसाय, भौगोलिक क्षेत्र और कार्य शामिल हैं जो क्रमशः अपने डेटा स्रोतों के मालिक हैं और उनकी देखरेख करते हैं।

इसके अलावा, पिछले कुछ दशकों में डेटा उत्पादन में तेजी से वृद्धि हुई है। प्रत्येक व्यवसाय प्रक्रिया को अब अपने स्वयं के सॉफ़्टवेयर की आवश्यकता होती है, जो अधिक से अधिक डेटा का उत्पादन करता है। एप्लिकेशन प्रत्येक क्रिया को अपने मूल डेटाबेस में लॉग करते हैं, और नव निर्मित डेटा परिसंपत्तियों के खनन में बाधाएं सामने आई हैं।

पिछले दशकों में, डेटा को परिभाषित करने वाली शब्दावली उस व्यावसायिक प्रक्रिया के लिए विशिष्ट थी जिसने इसे बनाया था। इंजीनियरों को डेटा का उपभोग करने वाले सिस्टम के लिए उन शब्दकोषों को अलग-अलग शब्दकोशों में अनुवाद करना था। गुणवत्ता की गारंटी आम तौर पर मौजूद नहीं थी। जैसा कि ऊपर अंतरिक्ष यात्री के उदाहरण में है, जो डेटा एक व्यावसायिक फ़ंक्शन द्वारा उपयोग करने योग्य था वह दूसरों द्वारा अनुपयोगी था। और मूल व्यावसायिक प्रक्रियाओं से डेटा तक पहुंच उन कार्यों के लिए सीमित थी, जो अन्यथा अनुकूलन प्राप्त कर सकते थे।

प्रतिलिपि पहेली

इस समस्या को हल करने के लिए, इंजीनियरों ने मूल डेटाबेस की प्रतियां बनाना शुरू कर दिया, क्योंकि हाल तक, यह उपलब्ध सबसे अच्छा विकल्प था। फिर उन्होंने उपभोग फ़ंक्शन की आवश्यकताओं को पूरा करने के लिए उन प्रतियों को बदल दिया, डेटा गुणवत्ता नियमों और उपभोग फ़ंक्शन के लिए विशेष रूप से उपचारात्मक तर्क को लागू किया। उन्होंने कई प्रतियां बनाईं और उन्हें कई डेटा वेयरहाउस और एनालिटिक्स सिस्टम में लोड किया।

ये परिणाम? संगठन के कुछ हिस्सों में "गंदी" के रूप में पढ़ी जाने वाली डेटासेट प्रतियों का अतिप्रवाह, जिससे भ्रम पैदा होता है कि कौन सी प्रति सही है। कंपनियों के पास आज परिचालन डेटा स्टोर, डेटाबेस, डेटा वेयरहाउस, डेटा लेक, एनालिटिक्स सैंडबॉक्स और डेटा सेंटर और मल्टीपल क्लाउड के भीतर स्प्रेडशीट में स्रोत डेटा की सैकड़ों प्रतियां हैं। फिर भी, मुख्य सूचना अधिकारियों और मुख्य डेटा अधिकारियों का न तो उत्पन्न प्रतियों की संख्या पर नियंत्रण है और न ही यह ज्ञान है कि कौन सा संस्करण सत्य के वास्तविक स्रोत का प्रतिनिधित्व करता है।

इस गड़बड़ी में कुछ व्यवस्था लाने के लिए कई डेटा गवर्नेंस सॉफ़्टवेयर उत्पाद उपलब्ध हैं। इनमें डेटा कैटलॉग, डेटा गुणवत्ता माप और समस्या समाधान प्रणाली, संदर्भ डेटा प्रबंधन प्रणाली, मास्टर डेटा प्रबंधन प्रणाली, डेटा वंश खोज और प्रबंधन प्रणाली शामिल हैं।

लेकिन वे उपाय महंगे और समय लेने वाले हैं। विभिन्न उत्पाद श्रृंखलाओं से कई डेटा स्रोतों से ग्राहक डेटा को एकीकृत करने के लिए एक विशिष्ट मास्टर डेटा प्रबंधन परियोजना में वर्षों लग सकते हैं और लाखों डॉलर खर्च हो सकते हैं। साथ ही, गंदे डेटा की मात्रा उस गति से बढ़ रही है जो नियंत्रण और शासन स्थापित करने के संगठनात्मक प्रयासों से भी अधिक है।

ये दृष्टिकोण खामियों से भरपूर हैं। वे डेटा की सूची बनाने, मापने और सुधार करने के कार्यों को निष्पादित करने के लिए मैन्युअल प्रक्रियाओं, विकास तर्क या व्यावसायिक नियमों पर भरोसा करते हैं। 

नियंत्रण पुनर्प्राप्त करना

वर्तमान परिस्थिति से निपटने के लिए तीन उभरती प्रौद्योगिकियाँ सबसे उपयुक्त हैं: एआई- और मशीन-लर्निंग-संचालित डेटा गवर्नेंस, सिमेंटिक इंटरऑपरेबिलिटी प्लेटफ़ॉर्म जैसे नॉलेज ग्राफ़, और डेटा वितरण सिस्टम जैसे वितरित लेजर: 

1. एआई- और मशीन-लर्निंग-संचालित डेटा गवर्नेंस समाधान लोगों और कोड पर निर्भरता कम करें। एआई और मशीन लर्निंग ने मैन्युअल काम को उन कार्यों से बदल दिया है जिनमें ऑटो-टैगिंग, व्यवस्थित करना और डेटा के बड़े पैमाने पर पर्यवेक्षण करना शामिल है। डेटा प्रबंधन परिवर्तन और माइग्रेशन से आईटी लागत कम हो जाती है। संगठन अधिक मजबूत और टिकाऊ आर्किटेक्चर भी बना सकते हैं जो बड़े पैमाने पर डेटा गुणवत्ता को प्रोत्साहित करते हैं।

2. ज्ञान रेखांकन अलग-अलग डेटा परिसंपत्तियों की मूल अंतरसंचालनीयता की अनुमति दें ताकि जानकारी को एक सामान्य प्रारूप के तहत संयोजित और समझा जा सके। सिमेंटिक ऑन्कोलॉजी का लाभ उठाकर, संगठन कई हितधारकों द्वारा पुन: उपयोग के लिए संदर्भ और एक सामान्य प्रारूप के साथ डेटा को भविष्य में सुरक्षित कर सकते हैं।

3. वितरित बहीखाता, विभेदक गोपनीयता, और वर्चुअलाइजेशन डेटा को भौतिक रूप से कॉपी करने की आवश्यकता समाप्त करें। वितरित बहीखातों में व्यावसायिक इकाइयों और संगठनों में उपयोग योग्य संघीय और शासित डेटाबेस शामिल होते हैं। विभेदक गोपनीयता अनुपालन आवश्यकताओं का पालन करने के लिए डेटा को छिपाना संभव बनाती है, साथ ही इसे हितधारकों के साथ साझा करना भी संभव बनाती है। वर्चुअलाइजेशन भौतिक वातावरण के बजाय आभासी वातावरण में डेटा को घुमाने की अनुमति देता है।

एक बार जब सीआईओ और सीडीओ समझ जाते हैं कि समस्या की जड़ विरासती बुनियादी ढांचा है जो डेटा साइलो बनाता है, तो वे अंतर्निहित आर्किटेक्चर और डेटा बुनियादी ढांचे की रणनीतियों में सुधार कर सकते हैं।

गंदा डेटा किसी संगठन की सूचित निर्णय लेने और सटीकता और चपलता के साथ काम करने की क्षमता को सीमित कर देता है। संगठनों को अपने डेटा पर नियंत्रण रखना चाहिए और डेटा अंतरसंचालनीयता, गुणवत्ता और पहुंच को प्रोत्साहित करना चाहिए। ऐसा करने से प्रतिस्पर्धात्मक लाभ मिलेगा और सुरक्षा एवं अनुपालन संबंधी कमजोरियां मिट जाएंगी।

समय टिकट:

से अधिक डेटावर्सिटी