4 उच्च प्रभाव वाली डेटा गुणवत्ता संबंधी समस्याएं जिनसे आसानी से बचा जा सकता है

4 उच्च प्रभाव वाली डेटा गुणवत्ता संबंधी समस्याएं जिनसे आसानी से बचा जा सकता है

स्रोत नोड: 1897409

जब हम संभावित ग्राहकों से बात करते हैं, तो उनके पहले प्रश्न आम तौर पर डेटा गुणवत्ता के बुनियादी सिद्धांतों के आसपास होते हैं, जिसमें यह क्या है, हम इसे कैसे मापते हैं, जब यह दक्षिण की ओर जाता है तो क्या होता है, और डेटा गुणवत्ता के मुद्दों को कैसे रोका जा सकता है।

हमारे उत्तर हमेशा उस मूल बिंदु पर वापस आते हैं जो हमारे मिशन को संचालित करता है: डेटा आधुनिक उद्यम की जीवनधारा है, और डेटा के आधार पर व्यावसायिक निर्णय लेने का आत्मविश्वास होना महत्वपूर्ण है। तो फिर, डेटा गुणवत्ता उस जीवनधारा की गुणवत्ता है। आपके व्यवसाय इंजन को सही ढंग से शक्ति प्रदान करने के लिए, लगातार सटीक और व्यापक डेटा गुणवत्ता जांच करना महत्वपूर्ण है। इन जांचों को उस डेटा पर केंद्रित करना भी महत्वपूर्ण है जो व्यावसायिक निर्णय लेने पर सबसे अधिक प्रभाव डालने की क्षमता रखता है - खासकर जब आप बड़े पैमाने पर डेटा गुणवत्ता की निगरानी करने की कोशिश कर रहे हों।

बड़े पैमाने पर डेटा गुणवत्ता की निगरानी के बारे में क्या कठिन है?

"डेटा गुणवत्ता" का कोई भी उल्लेख एक डोमेन विशेषज्ञ की तस्वीर को चित्रित करता है जो एक समय में एक हाथ से डेटा के रिकॉर्ड का निरीक्षण और व्याख्या करता है। ऐसा लगता है कि यह एक विश्लेषण अभ्यास है जो वर्षों से संचित संदर्भ और जनजातीय ज्ञान के भंडार में मैन्युअल निर्णय से भरा हुआ है। और यह एक ऐसी प्रक्रिया की तरह महसूस होता है जिसे मापना असंभव है।

बड़े पैमाने पर डेटा गुणवत्ता जांच के निर्माण को लेकर संदेह उचित है। परंपरागत रूप से, डेटा गुणवत्ता के मुद्दे व्यवसाय के करीब रहे हैं। ऐसे मुद्दे डेटा के साथ सूक्ष्म त्रुटियां हो सकती हैं, जैसे ईंट-और-मोर्टार स्टोर स्थान के लिए गलत परिचालन घंटे ऑनलाइन प्रदर्शित किए जा रहे हैं, जो विपणन अभियान के ग्राहक जुड़ाव को प्रभावित कर सकता है; या, किसी नए डिज़ाइन किए गए कपड़े पर गलत तरीके से टैग लगाया गया हो; या, बिक्री के स्थान पर गलत आकार इनपुट किया जा रहा है, जो किसी दिए गए बाजार के लिए इन्वेंट्री रिपोर्टिंग या बिक्री पूर्वानुमानों में अनुचित डेटा फीड करेगा।

डेटा गुणवत्ता आज स्केल-आउट आधुनिक डेटा स्टैक में बहुत व्यापक स्पेक्ट्रम है। विशेष रूप से, बड़े पैमाने पर डेटा संचालन से पैदा होने वाले मुद्दे व्यक्तिपरक लाइन-ऑफ-बिजनेस डेटा गुणवत्ता के मुद्दों से अलग होते हैं। इसलिए, जबकि व्यक्तिपरक जांच को मापना कठिन है, हो सकता है कि जिस समस्या को वास्तव में बड़े पैमाने पर हल करने की आवश्यकता है वह उतनी व्यक्तिपरक नहीं है।

सभी डेटा गुणवत्ता मुद्दे व्यक्तिपरक नहीं हैं

आधुनिक डेटा स्टैक में, डेटा गुणवत्ता के मुद्दे शब्दार्थ और व्यक्तिपरक से लेकर हो सकते हैं - जिन्हें परिभाषित करना कठिन है - परिचालन और उद्देश्य तक, जिन्हें परिभाषित करना आसान है। उदाहरण के लिए, उद्देश्यपूर्ण और परिभाषित करने में आसान मुद्दों में डेटा का खाली फ़ील्ड के साथ दिखना, डुप्लिकेट लेन-देन रिकॉर्ड किया जाना, या यहां तक ​​कि गुम लेन-देन शामिल होंगे। अधिक ठोस, परिचालनात्मक मुद्दे हो सकते हैं महत्वपूर्ण रिपोर्टिंग के लिए डेटा अपलोड समय पर नहीं होना, या डेटा स्कीमा परिवर्तन जो एक महत्वपूर्ण फ़ील्ड को हटा देता है।

डेटा गुणवत्ता का मुद्दा अत्यधिक व्यक्तिपरक है या स्पष्ट रूप से उद्देश्यपूर्ण, यह डेटा स्टैक की उस परत पर निर्भर करता है जहां से यह उत्पन्न होता है। एक आधुनिक डेटा स्टैक और इसका समर्थन करने वाली टीमें आमतौर पर दो व्यापक परतों में संरचित होती हैं: 1) डेटा प्लेटफ़ॉर्म या बुनियादी ढाँचा परत; और, 2) विश्लेषणात्मक और रिपोर्टिंग परत। प्लेटफ़ॉर्म टीम, से बनी डेटा इंजीनियर, डेटा बुनियादी ढांचे को बनाए रखता है और डेटा के निर्माता के रूप में कार्य करता है। यह टीम एनालिटिक्स इंजीनियरों, डेटा विश्लेषकों और व्यावसायिक हितधारकों से लेकर विश्लेषणात्मक स्तर पर उपभोक्ताओं को सेवा प्रदान करती है।

स्टैक की उच्चतम परतों पर, समस्याएँ डोमेन-विशिष्ट, व्यक्तिपरक और स्वचालित रूप से पता लगाने में कठिन होती हैं। प्लेटफ़ॉर्म स्तर पर, डेटा गुणवत्ता संबंधी समस्याएं डेटा संचालन में विफलताओं से उत्पन्न होती हैं। और जबकि उन प्लेटफ़ॉर्म-लेयर मुद्दों को अक्सर व्यक्तिपरक और निगरानी के लिए जटिल माना जाता है, वे आम तौर पर कट-एंड-ड्राई मुद्दे होते हैं।

परिचालन संबंधी डेटा गुणवत्ता संबंधी मुद्दे एसएलआई/एसएलओ/एसएलए के विनिर्देशों के आधार पर वस्तुनिष्ठ मानदंडों के अनुलग्नक का समर्थन करते हैं, व्यक्तिपरक मुद्दों के विपरीत जिनके लिए एक विश्लेषक जैसे व्यावसायिक हितधारक से मैन्युअल निर्णय की आवश्यकता होती है। और वे मुद्दे विभिन्न प्रकार के व्यवसायों और डेटा स्टैक में सामान्य श्रेणियों के एक छोटे समूह में एकत्रित हो जाते हैं। इससे सही टूल के लिए ऐसे मुद्दों का पता लगाने के लिए आउट-ऑफ़-द-बॉक्स प्रिमिटिव प्रदान करना संभव हो जाता है और पूरे उद्यम में स्केल किए जाने वाले वर्कफ़्लो का आसानी से समर्थन करना संभव हो जाता है।

तो, वास्तव में सामान्य ऑपरेशन डेटा गुणवत्ता समस्याओं का समूह क्या है जिनसे आसानी से बचा जा सकता है?

सामान्य परिचालन डेटा गुणवत्ता संबंधी कठिनाइयाँ

स्पष्ट कारणों से, परिचालन डेटा गुणवत्ता संबंधी समस्याएं किसी व्यवसाय पर भारी प्रभाव डाल सकती हैं और आम तौर पर चार श्रेणियों में से एक में आ सकती हैं।

1. डेटा उपलब्धता मुद्दे: डेटा बहुत देर से दिखाई देता है, भविष्य में, या बिल्कुल नहीं; डेटा की मात्रा में गिरावट; डेटा डुप्लिकेट में दिखाई देता है.

2. डेटा अनुरूपता मुद्दे: डेटा ग़लत स्कीमा या ग़लत डेटा प्रकारों के साथ दिखाई देता है; डेटा अपेक्षित नियमित अभिव्यक्ति से मेल नहीं खाता (उदाहरण के लिए, क्रेडिट कार्ड अंकों की गलत संख्या); अंकों के स्थान पर अक्षरांकीय तार।

3. डेटा वैधता मुद्दे: डेटा अप्रत्याशित मानों के साथ दिखाई देता है, भले ही वह सही समय पर और सही प्रारूप में सही मात्रा में उपलब्ध हो। उदाहरण के लिए, यदि आप वित्तीय डेटा देख रहे हैं, तो यह डॉलर के बजाय सेंट में दिखाई दे सकता है, जिसका अर्थ यह है कि यह सामान्य रूप से जैसा दिखता है, उसकी तुलना में यह 100 गुना कम है।

4. डेटा मिलान मुद्दे: डेटा पाइपलाइन में दो अलग-अलग बिंदुओं पर डेटा असंगत है। ऐसा लग सकता है कि लैंडिंग तालिका में कई बिक्री लेनदेन शामिल हैं जो बीआई डैशबोर्ड को खिलाने वाली संसाधित तालिका से मेल नहीं खाते हैं, या किसी व्यापारी के लिए भुगतान लेनदेन की राशि जो बैंक द्वारा वितरित पूर्ति से मेल नहीं खाती है।

हालांकि ये परिचालन डेटा गुणवत्ता समस्याएं काफी सामान्य हैं, स्वचालित, सक्रिय निगरानी से इन्हें आसानी से टाला जा सकता है।

ऑपरेशनल डेटा गुणवत्ता संबंधी समस्याओं से कैसे बचें

प्रत्येक डेटा मुद्दे को समय श्रृंखला मेट्रिक्स निर्दिष्ट किया जा सकता है जिसे डेटा गुणवत्ता संकेतक (डीक्यूआई) कहा जाता है जिसकी लगातार गणना की जा सकती है और सक्रिय रूप से निगरानी की जा सकती है। डीक्यूआई प्रभावी रूप से डेटा परत से जुड़े एसएलआई हैं। DQI को असंगत मानने के मानदंड व्यवसाय और डेटा स्वामियों द्वारा स्थापित सेवा स्तर के उद्देश्यों (SLO) और सेवा स्तर के समझौतों (SLAs) से प्राप्त होते हैं।

परिचालन डेटा गुणवत्ता के मुद्दे और डेटा पाइपलाइन के संचालन से संबंधित संबंधित डीक्यूआई सार्वभौमिक हैं। उदाहरण के लिए, एक DQI किसी तालिका की डेटा ताज़ाता (नवीनतम पंक्ति की आयु) हो सकती है। इस डीक्यूआई की अपेक्षा उस ताल का एक विनिर्देश है जिस पर डेटा पाइपलाइन चलनी चाहिए और तालिका को ताज़ा करना चाहिए। यह प्रति घंटा, दैनिक या हर मिनट हो सकता है। KPI के विपरीत, जो व्यवसाय के स्वास्थ्य को मापते हैं और अक्सर व्यक्तिपरक होते हैं, DQI डेटा संचालन के स्वास्थ्य को मापते हैं और डेटा पाइपलाइन के विनिर्देश के आधार पर स्पष्ट रूप से मूल्यांकन किया जाता है। इसके अलावा, पहले बताए गए परिचालन डेटा गुणवत्ता मुद्दों को ट्रैक करने के लिए आवश्यक डीक्यूआई का सेट सार्वभौमिक है - जिसका अर्थ है कि वे व्यवसाय के ऊर्ध्वाधर या विशिष्टताओं की परवाह किए बिना डेटा पाइपलाइन पर लागू होते हैं।

क्योंकि DQI सार्वभौमिक हैं, प्लेटफ़ॉर्म अंतर्निहित DQI प्रदान कर सकते हैं जिन्हें कम या बिना किसी कॉन्फ़िगरेशन के सभी डेटा संपत्तियों (तालिकाओं, दृश्यों और कॉलम) में डेटा पाइपलाइन पर जलाया जा सकता है। वे आपके संपूर्ण डेटा परिदृश्य में तेजी से गुणवत्ता जांच तैनात कर सकते हैं, डेटा विसंगतियों और डेटा गुणवत्ता खुफिया में तत्काल दृश्यता प्रदान करते हैं जो डेटा स्वास्थ्य के उच्चतम स्तर को सुनिश्चित करता है। इसने डेटा टीमों को अपने डेटा गुणवत्ता कवरेज लक्ष्यों को पुराने डेटा गुणवत्ता समाधानों की तुलना में 10 गुना तेजी से हासिल करने की अनुमति दी है। डीक्यूआई का कस्टम कॉन्फ़िगरेशन आसानी से संकेतकों को ठीक करने में सक्षम बनाता है ताकि आपके डेटा स्केल के रूप में, किसी भी गैर-अनुपालक डेटा या विसंगतियों का तत्काल विश्लेषण के लिए एआई तकनीक द्वारा पता लगाया जा सके, अंततः इष्टतम निर्णय लेने का रास्ता साफ हो जाता है जो व्यवसाय को आगे बढ़ाता है। .

मूल रूप से प्रकाशित लाइटअप ब्लॉग.

समय टिकट:

से अधिक डेटावर्सिटी