التغلب على العالم الغارق في البيانات القذرة

التغلب على العالم الغارق في البيانات القذرة

عقدة المصدر: 2574986

مثل الفيروس غير المرئي، ابتليت "البيانات القذرة" بعالم الأعمال اليوم. وهذا يعني أن البيانات غير الدقيقة وغير الكاملة وغير المتسقة تتكاثر في عالم اليوم الذي يتمحور حول "البيانات الضخمة".

إن العمل مع البيانات القذرة يكلف الشركات ملايين الدولارات سنويًا. فهو يقلل من كفاءة وفعالية الإدارات التي تشمل المؤسسة ويحد من الجهود المبذولة للنمو والتوسع. فهو يعيق القدرة التنافسية، ويزيد من المخاطر الأمنية، ويطرح مشاكل في الامتثال.

أولئك المسؤولين عن إدارة البيانات لقد واجهوا هذا التحدي لسنوات. يمكن للعديد من الأدوات المتاحة حاليًا معالجة مشكلات إدارة البيانات للفرق المعزولة داخل الأقسام، ولكن ليس للشركة ككل أو للأنظمة البيئية الأوسع للبيانات. والأسوأ من ذلك أن هذه الأدوات تنتهي في كثير من الأحيان إلى إنشاء المزيد من البيانات التي يجب إدارتها ــ وهذه البيانات أيضا يمكن أن تصبح قذرة، مما يؤدي إلى المزيد من المتاعب وخسارة الإيرادات.

فهم البيانات القذرة

البيانات القذرة يشير إلى أي بيانات مضللة أو مكررة أو غير صحيحة أو غير دقيقة، أو لم يتم دمجها بعد، أو تنتهك قواعد العمل، أو تفتقر إلى التنسيق الموحد، أو تحتوي على أخطاء في علامات الترقيم أو الإملاء.

لفهم كيف أصبحت البيانات القذرة منتشرة في كل مكان في العقود الأخيرة، تخيل السيناريو التالي: 

يصاب المقرضون في أحد البنوك الكبيرة بالحيرة عندما يكتشفون أن جميع عملاء البنك تقريبًا هم رواد فضاء. مع الأخذ في الاعتبار أن وكالة ناسا لديها فقط بضع عشرات من رواد الفضاءهذا لا معنى له. 

بعد مزيد من الاستكشاف، اكتشف قسم الإقراض أن مسؤولي البنك الذين فتحوا حسابات جديدة كانوا يُدخلون "رائد فضاء" في مجال مهنة العميل. يتعلم المقرضون أن الوصف الوظيفي لا علاقة له بنظرائهم المسؤولين عن الحسابات الجديدة. كان مسؤولو البنك يختارون "رائد الفضاء"، وهو الخيار الأول المتاح، وذلك ببساطة للتحرك بسرعة أكبر في إنشاء حسابات جديدة.

ومع ذلك، يجب على المقرضين تسجيل المهن الصحيحة لعملائهم للحصول على مكافآتهم السنوية. ولمعالجة هذا الوضع، يقوم قسم الإقراض بتطوير قاعدة بيانات منفصلة خاصة به. يقومون بالاتصال بكل عميل ومعرفة المهنة الصحيحة وإدراجها في قاعدة البيانات الخاصة بهم.

الآن، لدى البنك قاعدتي بيانات تحتويان على نفس المعلومات بشكل أساسي، باستثناء حقل واحد. إذا أراد قسم ثالث الوصول إلى المعلومات الموجودة في قواعد البيانات هذه، فلا يوجد نظام لتحديد قاعدة البيانات الدقيقة. لذا، قد يقوم هذا القسم الثالث أيضًا بإنشاء قاعدة بيانات خاصة به.

وقد حدثت سيناريوهات مماثلة في المنظمات على الصعيد الوطني لعقود من الزمن.

مدافن البيانات الرقمية المزدهرة

بدأت المشكلة في التسعينيات مع التحول الرقمي فقاعة. قامت الشركات بنشر برامج المؤسسة لتحسين عملياتها التجارية. على سبيل المثال، أتاحت منتجات البرمجيات كخدمة من Salesforce طرقًا أفضل لإدارة أنظمة المبيعات والتسويق.

ولكن بعد مرور 30 ​​عامًا، أدت هذه البنية التحتية القديمة إلى كابوس إدارة البيانات. وتنتشر صوامع البيانات المتباينة التي تحتوي على كميات كبيرة من المعلومات المكررة وغير الكاملة وغير الصحيحة في مشهد الشركات والقطاع العام. تشتمل هذه الصوامع على خطوط الأعمال والمناطق الجغرافية والوظائف التي تمتلك مصادر البيانات الخاصة بها وتشرف عليها على التوالي.

علاوة على ذلك، زاد توليد البيانات بشكل كبير على مر العقود. تتطلب كل عملية تجارية الآن برنامجًا خاصًا بها، مما يؤدي إلى إنتاج المزيد من البيانات. تسجل التطبيقات كل إجراء في قواعد بياناتها الأصلية، وظهرت عقبات أمام التنقيب في أصول البيانات المنشأة حديثًا.

في العقود السابقة، كانت البيانات التي تحدد المفردات خاصة بالعملية التجارية التي أنشأتها. كان على المهندسين ترجمة تلك القواميس إلى قواميس منفصلة للأنظمة التي تستهلك البيانات. ضمانات الجودة لم تكن موجودة عادة. كما هو الحال في مثال رائد الفضاء أعلاه، فإن البيانات التي كانت قابلة للاستخدام من قبل إحدى وظائف العمل كانت غير قابلة للاستخدام من قبل الآخرين. وكانت إمكانية الوصول إلى البيانات من العمليات التجارية الأصلية محدودة، في أحسن الأحوال، بالنسبة للوظائف التي كان من الممكن أن تحقق التحسين.

لغز النسخ

ولحل هذه المشكلة، بدأ المهندسون في عمل نسخ من قواعد البيانات الأصلية، لأنها كانت، حتى وقت قريب، أفضل خيار متاح. ثم قاموا بتحويل تلك النسخ لتلبية متطلبات وظيفة الاستهلاك، وتطبيق قواعد جودة البيانات ومنطق المعالجة الحصري لوظيفة الاستهلاك. لقد قاموا بعمل العديد من النسخ وتحميلها في مستودعات بيانات وأنظمة تحليلات متعددة.

النتيجة؟ فائض من نسخ مجموعة البيانات التي تعتبر "قذرة" لبعض أجزاء المؤسسة، مما يسبب ارتباكًا حول النسخة الصحيحة. تمتلك الشركات اليوم مئات النسخ من البيانات المصدر عبر مخازن البيانات التشغيلية، وقواعد البيانات، ومستودعات البيانات، وبحيرات البيانات، وبيئات الحماية التحليلية، وجداول البيانات داخل مراكز البيانات والسحابات المتعددة. ومع ذلك، لا يملك كبار مسؤولي المعلومات وكبار مسؤولي البيانات السيطرة على عدد النسخ التي يتم إنشاؤها ولا معرفة النسخة التي تمثل مصدرًا حقيقيًا للحقيقة.

تتوفر مجموعة من منتجات برامج إدارة البيانات لإضفاء بعض النظام على هذه الفوضى. وتشمل هذه كتالوجات البيانات، وأنظمة قياس جودة البيانات وحل المشكلات، وأنظمة إدارة البيانات المرجعية، وأنظمة إدارة البيانات الرئيسية، واكتشاف نسب البيانات، وأنظمة الإدارة.

لكن هذه العلاجات باهظة الثمن وتستغرق وقتًا طويلاً. قد يستغرق مشروع إدارة البيانات الرئيسية النموذجي لدمج بيانات العملاء من مصادر بيانات متعددة من خطوط منتجات مختلفة سنوات ويكلف ملايين الدولارات. وفي الوقت نفسه، يتزايد حجم البيانات القذرة بسرعات تفوق الجهود التنظيمية الرامية إلى تثبيت الضوابط والحوكمة.

هذه الأساليب مليئة بالعيوب. إنهم يعتمدون على العمليات اليدوية أو منطق التطوير أو قواعد العمل لتنفيذ مهام جرد البيانات وقياسها ومعالجتها. 

استعادة السيطرة

هناك ثلاث تقنيات ناشئة هي الأنسب لمعالجة المأزق الحالي: إدارة البيانات القائمة على الذكاء الاصطناعي والتعلم الآلي، ومنصات قابلية التشغيل البيني الدلالي مثل الرسوم البيانية المعرفية، وأنظمة توزيع البيانات مثل دفاتر الأستاذ الموزعة: 

1. حلول إدارة البيانات المعتمدة على الذكاء الاصطناعي والتعلم الآلي تقليل الاعتماد على الأشخاص والتعليمات البرمجية. يستبدل الذكاء الاصطناعي والتعلم الآلي العمل اليدوي بإجراءات تتضمن وضع العلامات التلقائي على مجموعات ضخمة من البيانات وتنظيمها والإشراف عليها. يؤدي تحويل إدارة البيانات وترحيلها إلى تقليل تكاليف تكنولوجيا المعلومات. يمكن للمؤسسات أيضًا إنشاء بنيات أكثر قوة واستدامة تشجع جودة البيانات على نطاق واسع.

2. الرسوم البيانية المعرفية السماح بإمكانية التشغيل البيني الأصلي لأصول البيانات المتباينة بحيث يمكن دمج المعلومات وفهمها ضمن تنسيق مشترك. من خلال الاستفادة من الأنطولوجيا الدلالية، يمكن للمؤسسات إثبات البيانات في المستقبل من خلال السياق والتنسيق المشترك لإعادة الاستخدام من قبل العديد من أصحاب المصلحة.

3. الدفاتر الموزعة، الخصوصية التفاضلية، والمحاكاة الافتراضية القضاء على الحاجة إلى نسخ البيانات فعليا. تشتمل دفاتر الأستاذ الموزعة على قواعد بيانات موحدة ومحكومة يمكن استخدامها عبر وحدات الأعمال والمؤسسات. تتيح الخصوصية التفاضلية إخفاء البيانات للالتزام بمتطلبات الامتثال، مع مشاركتها في الوقت نفسه مع أصحاب المصلحة. تسمح المحاكاة الافتراضية بتدوير البيانات في بيئة افتراضية وليست مادية.

بمجرد أن يفهم مدراء تكنولوجيا المعلومات والرؤساء التنفيذيين للبيانات أن جذر المشكلة هو البنية التحتية القديمة التي تنشئ صوامع البيانات، فقد يقومون بتحسين البنى الأساسية واستراتيجيات البنية التحتية للبيانات.

وتحد البيانات القذرة من قدرة المؤسسة على اتخاذ قرارات مستنيرة والعمل بدقة وسرعة. يجب على المؤسسات التحكم في بياناتها وتشجيع قابلية التشغيل البيني للبيانات وجودتها وإمكانية الوصول إليها. سيؤدي القيام بذلك إلى توفير مزايا تنافسية ومحو نقاط الضعف الأمنية والامتثال.

الطابع الزمني:

اكثر من البيانات