एक अदृश्य वायरस की तरह, "गंदा डेटा" आज के व्यापारिक जगत को परेशान कर रहा है। कहने का तात्पर्य यह है कि, आज की "बड़े डेटा"-केंद्रित दुनिया में गलत, अधूरा और असंगत डेटा तेजी से फैल रहा है।
गंदे डेटा के साथ काम करने से कंपनियों को सालाना लाखों डॉलर का नुकसान होता है। यह उद्यम में फैले विभागों की दक्षता और प्रभावशीलता को कम करता है और विकास और पैमाने के प्रयासों को कम करता है। यह प्रतिस्पर्धात्मकता को बाधित करता है, सुरक्षा जोखिमों को बढ़ाता है और अनुपालन संबंधी समस्याएं प्रस्तुत करता है।
जिनके प्रभारी हैं आँकड़ा प्रबंधन वर्षों से इस चुनौती से जूझ रहे हैं। वर्तमान में उपलब्ध कई उपकरण विभागों के भीतर एकल टीमों के लिए डेटा प्रबंधन मुद्दों का समाधान कर सकते हैं, लेकिन बड़े पैमाने पर कंपनी या व्यापक डेटा पारिस्थितिकी तंत्र के लिए नहीं। इससे भी बदतर, ये उपकरण अक्सर अधिक डेटा बनाते हैं जिसे प्रबंधित किया जाना चाहिए - और वह डेटा भी गंदा हो सकता है, जिससे अधिक सिरदर्द और राजस्व हानि हो सकती है।
डर्टी डेटा को समझना
गंदा डेटा किसी भी डेटा को संदर्भित करता है जो भ्रामक, डुप्लिकेट, गलत या गलत है, अभी तक एकीकृत नहीं है, व्यवसाय-नियम का उल्लंघन कर रहा है, समान प्रारूपण की कमी है, या विराम चिह्न या वर्तनी में त्रुटियां हैं।
यह समझने के लिए कि हाल के दशकों में कितना गंदा डेटा सर्वव्यापी हो गया है, निम्नलिखित परिदृश्य की कल्पना करें:
एक बड़े बैंक के ऋणदाता तब हैरान हो जाते हैं जब उन्हें पता चलता है कि बैंक के लगभग सभी ग्राहक अंतरिक्ष यात्री हैं। यह मानते हुए कि नासा के पास केवल एक है कुछ दर्जन अंतरिक्ष यात्री, इसका कोई अर्थ नहीं निकलता।
आगे की खोज पर, ऋण विभाग को पता चला कि नए खाते खोलने वाले बैंक अधिकारी ग्राहक व्यवसाय क्षेत्र में "अंतरिक्ष यात्री" डाल रहे थे। ऋणदाताओं को पता चलता है कि नौकरी का विवरण नए खातों के लिए जिम्मेदार उनके समकक्षों के लिए अप्रासंगिक है। बैंक अधिकारी नए खाते बनाने में अधिक तेजी से आगे बढ़ने के लिए पहला उपलब्ध विकल्प "अंतरिक्ष यात्री" का चयन कर रहे थे।
हालाँकि, उधारदाताओं को अपने वार्षिक बोनस प्राप्त करने के लिए रिकॉर्ड पर अपने ग्राहकों का सही व्यवसाय होना चाहिए। स्थिति का समाधान करने के लिए, ऋण विभाग अपना स्वयं का अलग डेटाबेस विकसित करता है। वे प्रत्येक ग्राहक से संपर्क करते हैं, सही व्यवसाय सीखते हैं और उसे अपने डेटाबेस में डालते हैं।
अब, बैंक के पास एक फ़ील्ड के अलावा अनिवार्य रूप से समान जानकारी वाले दो डेटाबेस हैं। यदि कोई तीसरा विभाग उन डेटाबेस में जानकारी तक पहुँचना चाहता है, तो यह निर्धारित करने के लिए कोई प्रणाली मौजूद नहीं है कि कौन सा डेटाबेस सटीक है। तो, वह तीसरा विभाग भी अपना डेटाबेस बना सकता है।
दशकों से देश भर के संगठनों में इसी तरह के परिदृश्य सामने आते रहे हैं।
बढ़ती डिजिटल-डेटा लैंडफिल
समस्या 1990 के दशक में शुरू हुई डिजिटल परिवर्तन उछाल. कंपनियों ने अपनी व्यावसायिक प्रक्रियाओं को बेहतर बनाने के लिए एंटरप्राइज़ सॉफ़्टवेयर तैनात किया। उदाहरण के लिए, Salesforce के सॉफ़्टवेयर-ए-ए-सर्विस उत्पाद, बिक्री और विपणन प्रणालियों को प्रबंधित करने के बेहतर तरीके सक्षम करते हैं।
लेकिन 30 साल बाद, इस तरह के विरासती बुनियादी ढांचे के परिणामस्वरूप डेटा प्रबंधन एक दुःस्वप्न बन गया है। डुप्लिकेट, अपूर्ण और गलत जानकारी के ढेरों के साथ अलग-अलग डेटा साइलो ने कॉर्पोरेट और सार्वजनिक क्षेत्र के परिदृश्य को खराब कर दिया है। उन साइलो में व्यवसाय, भौगोलिक क्षेत्र और कार्य शामिल हैं जो क्रमशः अपने डेटा स्रोतों के मालिक हैं और उनकी देखरेख करते हैं।
इसके अलावा, पिछले कुछ दशकों में डेटा उत्पादन में तेजी से वृद्धि हुई है। प्रत्येक व्यवसाय प्रक्रिया को अब अपने स्वयं के सॉफ़्टवेयर की आवश्यकता होती है, जो अधिक से अधिक डेटा का उत्पादन करता है। एप्लिकेशन प्रत्येक क्रिया को अपने मूल डेटाबेस में लॉग करते हैं, और नव निर्मित डेटा परिसंपत्तियों के खनन में बाधाएं सामने आई हैं।
पिछले दशकों में, डेटा को परिभाषित करने वाली शब्दावली उस व्यावसायिक प्रक्रिया के लिए विशिष्ट थी जिसने इसे बनाया था। इंजीनियरों को डेटा का उपभोग करने वाले सिस्टम के लिए उन शब्दकोषों को अलग-अलग शब्दकोशों में अनुवाद करना था। गुणवत्ता की गारंटी आम तौर पर मौजूद नहीं थी। जैसा कि ऊपर अंतरिक्ष यात्री के उदाहरण में है, जो डेटा एक व्यावसायिक फ़ंक्शन द्वारा उपयोग करने योग्य था वह दूसरों द्वारा अनुपयोगी था। और मूल व्यावसायिक प्रक्रियाओं से डेटा तक पहुंच उन कार्यों के लिए सीमित थी, जो अन्यथा अनुकूलन प्राप्त कर सकते थे।
प्रतिलिपि पहेली
इस समस्या को हल करने के लिए, इंजीनियरों ने मूल डेटाबेस की प्रतियां बनाना शुरू कर दिया, क्योंकि हाल तक, यह उपलब्ध सबसे अच्छा विकल्प था। फिर उन्होंने उपभोग फ़ंक्शन की आवश्यकताओं को पूरा करने के लिए उन प्रतियों को बदल दिया, डेटा गुणवत्ता नियमों और उपभोग फ़ंक्शन के लिए विशेष रूप से उपचारात्मक तर्क को लागू किया। उन्होंने कई प्रतियां बनाईं और उन्हें कई डेटा वेयरहाउस और एनालिटिक्स सिस्टम में लोड किया।
ये परिणाम? संगठन के कुछ हिस्सों में "गंदी" के रूप में पढ़ी जाने वाली डेटासेट प्रतियों का अतिप्रवाह, जिससे भ्रम पैदा होता है कि कौन सी प्रति सही है। कंपनियों के पास आज परिचालन डेटा स्टोर, डेटाबेस, डेटा वेयरहाउस, डेटा लेक, एनालिटिक्स सैंडबॉक्स और डेटा सेंटर और मल्टीपल क्लाउड के भीतर स्प्रेडशीट में स्रोत डेटा की सैकड़ों प्रतियां हैं। फिर भी, मुख्य सूचना अधिकारियों और मुख्य डेटा अधिकारियों का न तो उत्पन्न प्रतियों की संख्या पर नियंत्रण है और न ही यह ज्ञान है कि कौन सा संस्करण सत्य के वास्तविक स्रोत का प्रतिनिधित्व करता है।
इस गड़बड़ी में कुछ व्यवस्था लाने के लिए कई डेटा गवर्नेंस सॉफ़्टवेयर उत्पाद उपलब्ध हैं। इनमें डेटा कैटलॉग, डेटा गुणवत्ता माप और समस्या समाधान प्रणाली, संदर्भ डेटा प्रबंधन प्रणाली, मास्टर डेटा प्रबंधन प्रणाली, डेटा वंश खोज और प्रबंधन प्रणाली शामिल हैं।
लेकिन वे उपाय महंगे और समय लेने वाले हैं। विभिन्न उत्पाद श्रृंखलाओं से कई डेटा स्रोतों से ग्राहक डेटा को एकीकृत करने के लिए एक विशिष्ट मास्टर डेटा प्रबंधन परियोजना में वर्षों लग सकते हैं और लाखों डॉलर खर्च हो सकते हैं। साथ ही, गंदे डेटा की मात्रा उस गति से बढ़ रही है जो नियंत्रण और शासन स्थापित करने के संगठनात्मक प्रयासों से भी अधिक है।
ये दृष्टिकोण खामियों से भरपूर हैं। वे डेटा की सूची बनाने, मापने और सुधार करने के कार्यों को निष्पादित करने के लिए मैन्युअल प्रक्रियाओं, विकास तर्क या व्यावसायिक नियमों पर भरोसा करते हैं।
नियंत्रण पुनर्प्राप्त करना
वर्तमान परिस्थिति से निपटने के लिए तीन उभरती प्रौद्योगिकियाँ सबसे उपयुक्त हैं: एआई- और मशीन-लर्निंग-संचालित डेटा गवर्नेंस, सिमेंटिक इंटरऑपरेबिलिटी प्लेटफ़ॉर्म जैसे नॉलेज ग्राफ़, और डेटा वितरण सिस्टम जैसे वितरित लेजर:
1. एआई- और मशीन-लर्निंग-संचालित डेटा गवर्नेंस समाधान लोगों और कोड पर निर्भरता कम करें। एआई और मशीन लर्निंग ने मैन्युअल काम को उन कार्यों से बदल दिया है जिनमें ऑटो-टैगिंग, व्यवस्थित करना और डेटा के बड़े पैमाने पर पर्यवेक्षण करना शामिल है। डेटा प्रबंधन परिवर्तन और माइग्रेशन से आईटी लागत कम हो जाती है। संगठन अधिक मजबूत और टिकाऊ आर्किटेक्चर भी बना सकते हैं जो बड़े पैमाने पर डेटा गुणवत्ता को प्रोत्साहित करते हैं।
2. ज्ञान रेखांकन अलग-अलग डेटा परिसंपत्तियों की मूल अंतरसंचालनीयता की अनुमति दें ताकि जानकारी को एक सामान्य प्रारूप के तहत संयोजित और समझा जा सके। सिमेंटिक ऑन्कोलॉजी का लाभ उठाकर, संगठन कई हितधारकों द्वारा पुन: उपयोग के लिए संदर्भ और एक सामान्य प्रारूप के साथ डेटा को भविष्य में सुरक्षित कर सकते हैं।
3. वितरित बहीखाता, विभेदक गोपनीयता, और वर्चुअलाइजेशन डेटा को भौतिक रूप से कॉपी करने की आवश्यकता समाप्त करें। वितरित बहीखातों में व्यावसायिक इकाइयों और संगठनों में उपयोग योग्य संघीय और शासित डेटाबेस शामिल होते हैं। विभेदक गोपनीयता अनुपालन आवश्यकताओं का पालन करने के लिए डेटा को छिपाना संभव बनाती है, साथ ही इसे हितधारकों के साथ साझा करना भी संभव बनाती है। वर्चुअलाइजेशन भौतिक वातावरण के बजाय आभासी वातावरण में डेटा को घुमाने की अनुमति देता है।
एक बार जब सीआईओ और सीडीओ समझ जाते हैं कि समस्या की जड़ विरासती बुनियादी ढांचा है जो डेटा साइलो बनाता है, तो वे अंतर्निहित आर्किटेक्चर और डेटा बुनियादी ढांचे की रणनीतियों में सुधार कर सकते हैं।
गंदा डेटा किसी संगठन की सूचित निर्णय लेने और सटीकता और चपलता के साथ काम करने की क्षमता को सीमित कर देता है। संगठनों को अपने डेटा पर नियंत्रण रखना चाहिए और डेटा अंतरसंचालनीयता, गुणवत्ता और पहुंच को प्रोत्साहित करना चाहिए। ऐसा करने से प्रतिस्पर्धात्मक लाभ मिलेगा और सुरक्षा एवं अनुपालन संबंधी कमजोरियां मिट जाएंगी।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- स्रोत: https://www.dataversity.net/overcoming-a-world-awash-in-dirty-data/
- :है
- $यूपी
- a
- क्षमता
- About
- ऊपर
- पहुँच
- एक्सेसिबिलिटी
- अकौन्टस(लेखा)
- सही
- हासिल
- के पार
- कार्य
- कार्रवाई
- पता
- स्वीकार कर लिया
- फायदे
- AI
- सब
- विश्लेषिकी
- और
- वार्षिक
- प्रतिवर्ष
- अलग
- अनुप्रयोगों
- लागू
- दृष्टिकोण
- हैं
- AS
- संपत्ति
- अंतरिक्ष यात्री
- At
- उपलब्ध
- बैंक
- BE
- क्योंकि
- बन
- शुरू किया
- BEST
- बेहतर
- बोनस
- उछाल
- लाना
- व्यापक
- निर्माण
- व्यापार
- व्यापार प्रक्रिया
- व्यापार प्रक्रिया
- by
- कर सकते हैं
- कैटलॉग
- के कारण
- केंद्र
- चुनौती
- प्रभार
- प्रमुख
- कोड
- संयुक्त
- सामान्य
- कंपनियों
- कंपनी
- प्रतियोगी
- प्रतिस्पर्धा
- अनुपालन
- भ्रम
- पर विचार
- संपर्क करें
- प्रसंग
- नियंत्रण
- नियंत्रण
- प्रतियां
- कॉर्पोरेट
- लागत
- लागत
- बनाना
- बनाया
- बनाता है
- बनाना
- वर्तमान
- वर्तमान में
- ग्राहक
- ग्राहक डेटा
- ग्राहक
- तिथि
- डेटा केन्द्रों
- डेटा अवसंरचना
- आँकड़ा प्रबंधन
- आँकड़े की गुणवत्ता
- डेटा वेयरहाउस
- डाटाबेस
- डेटाबेस
- डेटावर्सिटी
- दशकों
- निर्णय
- परिभाषित करने
- विभाग
- विभागों
- निर्भरता
- तैनात
- विवरण
- निर्धारित करना
- विकास
- विकसित
- विभिन्न
- अन्य वायरल पोस्ट से
- पता चलता है
- खोज
- मूर्खता
- वितरित
- बंटवारे का नेतृत्व किया
- वितरण
- कर
- डॉलर
- दर्जन
- से प्रत्येक
- पारिस्थितिकी प्रणालियों
- प्रभावशीलता
- दक्षता
- प्रयासों
- कस्र्न पत्थर
- उभरती तकनीकी
- सक्षम
- प्रोत्साहित करना
- इंजीनियर्स
- उद्यम
- उपक्रम सॉफ्टवेयर
- वातावरण
- त्रुटियाँ
- अनिवार्य
- और भी
- प्रत्येक
- उदाहरण
- अनन्य
- निष्पादित
- मौजूद
- महंगा
- अन्वेषण
- तेजी
- खेत
- प्रथम
- खामियां
- निम्नलिखित
- के लिए
- प्रारूप
- अक्सर
- से
- समारोह
- कार्यों
- आगे
- उत्पन्न
- पीढ़ी
- भौगोलिक
- शासन
- रेखांकन
- मुट्ठी
- आगे बढ़ें
- गारंटी देता है
- है
- सिर दर्द
- मेजबान
- कैसे
- तथापि
- HTTPS
- सैकड़ों
- में सुधार
- in
- ग़लत
- शामिल
- वृद्धि हुई
- बढ़ती
- करें-
- सूचना अधिकारी
- सूचित
- इंफ्रास्ट्रक्चर
- स्थापित
- उदाहरण
- एकीकृत
- एकीकृत
- इंटरोऑपरेबिलिटी
- मुद्दा
- मुद्दों
- IT
- आईटी इस
- काम
- ज्ञान
- बड़ा
- जानें
- सीख रहा हूँ
- खातों
- विरासत
- उधारदाताओं
- उधार
- लाभ
- सीमित
- सीमाएं
- पंक्तियां
- बंद
- मशीन
- यंत्र अधिगम
- बनाया गया
- बनाना
- बनाता है
- प्रबंधन
- कामयाब
- प्रबंध
- गाइड
- मैनुअल काम
- बहुत
- विपणन (मार्केटिंग)
- मुखौटा
- विशाल
- मास्टर
- मई..
- मापने
- हो सकता है
- प्रवास
- लाखों
- खनिज
- अधिक
- चाल
- विभिन्न
- नासा
- राष्ट्रव्यापी
- देशी
- आवश्यकता
- न
- नया
- संख्या
- बाधाएं
- प्राप्त
- व्यवसाय
- of
- अधिकारियों
- on
- ONE
- उद्घाटन
- संचालित
- परिचालन
- इष्टतमीकरण
- विकल्प
- आदेश
- संगठन
- संगठनात्मक
- संगठनों
- आयोजन
- मूल
- अन्य
- अन्यथा
- परिणाम
- अपना
- भागों
- स्टाफ़
- भौतिक
- शारीरिक रूप से
- विपत्तियों
- प्लेटफार्म
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- खेला
- संभव
- शुद्धता
- प्रस्तुत
- पिछला
- एकांत
- मुसीबत
- समस्याओं
- प्रक्रिया
- प्रक्रियाओं
- एस्ट्रो मॉल
- उत्पाद
- परियोजना
- सार्वजनिक क्षेत्र
- गुणवत्ता
- बल्कि
- पढ़ना
- हाल
- हाल ही में
- रिकॉर्ड
- को कम करने
- की जगह
- का प्रतिनिधित्व करता है
- आवश्यकताएँ
- संकल्प
- क्रमश
- जिम्मेदार
- पुनः प्रयोग
- राजस्व
- जोखिम
- मजबूत
- जड़
- नियम
- विक्रय
- बिक्री और विपणन
- salesforce
- वही
- सैंडबॉक्स
- स्केल
- परिदृश्य
- परिदृश्यों
- सुरक्षा
- सुरक्षा जोखिम
- का चयन
- भावना
- अलग
- बांटने
- केवल
- एक साथ
- स्थिति
- So
- सॉफ्टवेयर
- हल
- कुछ
- स्रोत
- सूत्रों का कहना है
- विशिष्ट
- गति
- हितधारकों
- भंडार
- रणनीतियों
- ऐसा
- स्थायी
- प्रणाली
- सिस्टम
- लेना
- कार्य
- टीमों
- टेक्नोलॉजीज
- कि
- RSI
- जानकारी
- लेकिन हाल ही
- उन
- इन
- तीसरा
- पहर
- सेवा मेरे
- आज
- आज का दि
- भी
- उपकरण
- परिवर्तन
- तब्दील
- अनुवाद करना
- मुसीबत
- सच
- ठेठ
- आम तौर पर
- देशव्यापी
- के अंतर्गत
- आधारभूत
- समझना
- समझ लिया
- इकाइयों
- प्रयोग करने योग्य
- संस्करण
- वास्तविक
- वाइरस
- आयतन
- कमजोरियों
- तरीके
- कौन कौन से
- जब
- मर्जी
- साथ में
- अंदर
- काम
- विश्व
- साल
- जेफिरनेट