4 مشکل کیفیت داده با تاثیر بالا که به راحتی قابل اجتناب هستند

4 مشکل کیفیت داده با تاثیر بالا که به راحتی قابل اجتناب هستند

گره منبع: 1897409

وقتی با مشتریان احتمالی صحبت می کنیم، اولین سؤالات آنها معمولاً در مورد اصول اولیه کیفیت داده است، از جمله اینکه چیست، چگونه آن را اندازه گیری می کنیم، وقتی به سمت جنوب می رود چه اتفاقی می افتد و چگونه می توان از مشکلات کیفیت داده جلوگیری کرد.

پاسخ‌های ما همیشه به هسته‌ای بازمی‌گردد که مأموریت ما را هدایت می‌کند: داده‌ها شریان حیات شرکت مدرن هستند و داشتن اعتماد به نفس برای تصمیم‌گیری تجاری بر اساس داده‌ها بسیار مهم است. بنابراین، کیفیت داده، کیفیت آن منبع حیاتی است. برای اینکه موتور کسب و کار شما به درستی کار کند، مهم است که به طور مداوم بررسی های دقیق و جامع کیفیت داده ها را انجام دهید. همچنین مهم است که این بررسی‌ها را بر روی داده‌هایی متمرکز کنید که بیشترین تأثیر را بر تصمیم‌گیری کسب‌وکار دارند - به‌ویژه زمانی که می‌خواهید کیفیت داده‌ها را در مقیاس نظارت کنید.

چه چیزی در مورد نظارت بر کیفیت داده در مقیاس سخت است؟

هر گونه اشاره ای به "کیفیت داده" تصویری از یک متخصص دامنه را نشان می دهد که به طور خسته کننده ای سوابق داده ها را به صورت دستی بازرسی و تفسیر می کند. شبیه یک تمرین تحلیلی مملو از ترسیم قضاوت دستی در مجموعه ای از زمینه و دانش قبیله ای است که در طول سال ها انباشته شده است. و به نظر فرآیندی است که مقیاس‌پذیری آن غیرممکن است.

شک و تردید در مورد ایجاد بررسی کیفیت داده در مقیاس منصفانه است. به طور سنتی، مسائل مربوط به کیفیت داده ها نزدیک به خط کسب و کار بوده است. چنین مسائلی از آنجایی که داده‌ها در نهایت به خطاهای ظریفی تبدیل می‌شوند مانند ساعت‌های کاری نادرست که به صورت آنلاین برای یک مکان فروشگاه نمایش داده می‌شوند، که می‌تواند بر مشارکت مشتری در یک کمپین بازاریابی تأثیر بگذارد. یا، یک تکه لباس جدید طراحی شده به اشتباه برچسب گذاری شده است. یا اینکه اندازه نادرست ورودی در نقطه فروش، که داده های نادرست را به گزارش موجودی یا پیش بینی های فروش برای یک بازار معین وارد می کند.

کیفیت داده امروزه طیف بسیار گسترده تری در پشته داده های مدرن کوچک شده است. به طور خاص، مسائلی که از عملیات داده در مقیاس به وجود می‌آیند، از مسائل کیفی داده‌های خط کسب و کار ذهنی متمایز هستند. بنابراین، در حالی که مقیاس بندی بررسی های ذهنی دشوار است، شاید مشکلی که واقعاً نیاز به حل در مقیاس دارد، در نهایت ذهنی نباشد.

همه مسائل مربوط به کیفیت داده ها ذهنی نیستند

در پشته داده های مدرن، مسائل مربوط به کیفیت داده ها می تواند از معنایی و ذهنی - که تعریف آنها دشوار است - تا عملیاتی و عینی که به راحتی قابل تعریف هستند، متغیر باشد. به عنوان مثال، مسائل عینی و آسان‌تر برای تعریف، نمایش داده‌ها با فیلدهای خالی، ثبت تراکنش‌های تکراری یا حتی تراکنش‌های گمشده است. مسائل عملیاتی دقیق‌تر می‌تواند آپلود داده‌ها به موقع برای گزارش‌های مهم انجام نشود، یا تغییر طرح داده‌ای که یک زمینه مهم را حذف می‌کند.

اینکه یک موضوع کیفیت داده بسیار ذهنی یا بدون ابهام عینی است بستگی به لایه پشته داده ای دارد که از آن سرچشمه می گیرد. یک پشته داده مدرن و تیم هایی که از آن پشتیبانی می کنند معمولاً در دو لایه گسترده ساخته می شوند: 1) بستر داده یا لایه زیرساخت. و 2) لایه تحلیلی و گزارشی. تیم پلت فرم، متشکل از مهندسین داده، زیرساخت داده را حفظ می کند و به عنوان تولید کننده داده عمل می کند. این تیم به مصرف کنندگان در لایه تحلیلی اعم از مهندسین تجزیه و تحلیل، تحلیلگران داده و سهامداران تجاری خدمات می دهد.

در بالاترین لایه‌های پشته، مسائل مربوط به دامنه خاص، ذهنی و به سختی قابل تشخیص هستند. در لایه پلت فرم، مسائل مربوط به کیفیت داده ها از شکست در عملیات داده ها ناشی می شود. و در حالی که آن مسائل لایه پلت فرم اغلب ذهنی و پیچیده برای نظارت فرض می شوند، آنها معمولاً مسائل قطعی و خشک هستند.

مسائل مربوط به کیفیت داده‌های عملیاتی از پیوست معیارهای عینی بر اساس مشخصات SLIs/SLOs/SLA پشتیبانی می‌کنند، بر خلاف مسائل ذهنی که نیاز به قضاوت دستی از سوی ذینفعان کسب‌وکار، مانند یک تحلیل‌گر دارند. و این مسائل معمولاً در مجموعه کوچکی از دسته‌های مشترک در انواع مشاغل و پشته‌های داده جمع می‌شوند. این امکان را برای ابزار مناسب فراهم می‌آورد تا موارد اولیه را برای شناسایی چنین مسائلی فراهم کند و به راحتی از جریان کاری که در سطح سازمانی گسترده می‌شود پشتیبانی کند.

بنابراین، مجموعه مشکلات رایج کیفیت داده عملیات دقیقاً چیست که می توان به راحتی از آنها اجتناب کرد؟

مشکلات رایج کیفیت داده های عملیاتی

به دلایل واضح، مسائل مربوط به کیفیت داده های عملیاتی می تواند تأثیر زیادی بر یک تجارت داشته باشد و معمولاً در یکی از چهار سطل قرار می گیرد.

1. مسائل در دسترس بودن داده ها: داده ها خیلی دیر، در آینده یا اصلاً نشان داده نمی شوند. کاهش حجم داده ها؛ داده ها به صورت تکراری نشان داده می شوند.

2. مسائل مربوط به انطباق داده ها: داده ها با طرحواره اشتباه یا انواع داده های اشتباه نشان داده می شوند. داده ها با عبارت منظم مورد انتظار مطابقت ندارند (به عنوان مثال، تعداد نادرست ارقام کارت اعتباری). رشته های الفبایی به جای اعداد

3. مسائل مربوط به اعتبار داده ها: داده ها با مقادیر غیرمنتظره نشان داده می شوند، حتی اگر با حجم مناسب در زمان مناسب و در قالب مناسب در دسترس باشند. برای مثال، اگر به داده‌های مالی نگاه می‌کنید، می‌تواند به جای دلار به سنت نشان داده شود، که به این معنی است که نسبت به آنچه که معمولاً به نظر می‌رسد، ضریب 100 کاهش می‌یابد.

4. مسائل مربوط به تطبیق داده ها: داده ها در دو نقطه مختلف در خط لوله داده ناهماهنگ هستند. این ممکن است مانند تعدادی از تراکنش‌های فروش وارد شده در جدول فرود به نظر برسد که با جدول پردازش شده تغذیه‌کننده داشبورد BI مطابقت ندارد، یا مجموع تراکنش‌های پرداختی برای یک تاجر که با پرداخت‌های پرداخت شده توسط بانک مطابقت ندارد.

در حالی که این مسائل مربوط به کیفیت داده های عملیاتی بسیار رایج هستند، می توان به راحتی با نظارت خودکار و فعال از آنها اجتناب کرد.

چگونه از مشکلات کیفیت داده های عملیاتی جلوگیری کنیم

به هر مسئله داده می توان معیارهای سری زمانی به نام شاخص های کیفیت داده (DQIs) اختصاص داد که می توانند به طور مداوم محاسبه و به طور فعال نظارت شوند. DQI ها به طور موثر SLI های متصل به لایه داده هستند. معیارهای غیرعادی در نظر گرفتن یک DQI از اهداف سطح خدمات (SLO) و قراردادهای سطح خدمات (SLA) که توسط کسب و کار و صاحبان داده ایجاد شده است، ناشی می شود.

مسائل مربوط به کیفیت داده های عملیاتی و DQI های مرتبط با عملکرد خط لوله داده جهانی هستند. به عنوان مثال، یک DQI می تواند تازه بودن داده های یک جدول (سن جدیدترین ردیف) باشد. انتظار این DQI مشخصه سرعتی است که خط لوله داده باید در آن اجرا شود و جدول را تازه کند. ممکن است ساعتی، روزانه یا هر دقیقه باشد. بر خلاف KPI ها که سلامت کسب و کار را اندازه گیری می کنند و اغلب تمایل به ذهنی دارند، DQI ها سلامت عملیات داده را اندازه گیری می کنند و به طور واضح بر اساس مشخصات خط لوله داده ارزیابی می شوند. علاوه بر این، مجموعه DQI های مورد نیاز برای ردیابی مسائل مربوط به کیفیت داده های عملیاتی که قبلاً ذکر شد، جهانی هستند - به این معنی که بدون توجه به عمودی یا ویژگی های کسب و کار، برای خط لوله داده اعمال می شوند.

از آنجایی که DQI ها جهانی هستند، پلتفرم ها می توانند DQI های داخلی را ارائه دهند که می توانند روی خط لوله داده در تمام دارایی های داده (جدول، نماها و ستون ها) با پیکربندی کم یا بدون پیکربندی روشن شوند. آن‌ها می‌توانند به سرعت بررسی‌های کیفیت را در کل چشم‌انداز داده‌های شما اجرا کنند، و مشاهده فوری ناهنجاری‌های داده‌ها و هوشمندی کیفیت داده‌ها را فراهم کنند که بالاترین سطح سلامت داده‌ها را تضمین می‌کند. این به تیم های داده اجازه می دهد تا به اهداف پوشش کیفیت داده خود 10 برابر سریعتر از راه حل های قدیمی کیفیت داده دست یابند. پیکربندی سفارشی DQI به راحتی تنظیم دقیق شاخص ها را امکان پذیر می کند به طوری که با مقیاس داده های شما، هر گونه داده یا ناهنجاری غیرمنطبق توسط فناوری هوش مصنوعی برای تجزیه و تحلیل فوری شناسایی می شود و در نهایت راه را برای تصمیم گیری بهینه که کسب و کار را به جلو سوق می دهد، باز می کند. .

در اصل منتشر شده در وبلاگ لایت آپ.

تمبر زمان:

بیشتر از DATAVERSITY