گندے ڈیٹا میں ورلڈ واش پر قابو پانا

گندے ڈیٹا میں ورلڈ واش پر قابو پانا

ماخذ نوڈ: 2574986

ایک غیر مرئی وائرس کی طرح، "گندہ ڈیٹا" آج کی کاروباری دنیا کو متاثر کرتا ہے۔ کہنے کا مطلب یہ ہے کہ آج کی "بگ ڈیٹا" پر مبنی دنیا میں غلط، نامکمل اور متضاد ڈیٹا پھیل رہا ہے۔

گندے ڈیٹا کے ساتھ کام کرنے سے کمپنیوں کو سالانہ لاکھوں ڈالر کا نقصان ہوتا ہے۔ یہ انٹرپرائز پر محیط محکموں کی کارکردگی اور تاثیر کو کم کرتا ہے اور ترقی اور پیمانے کی کوششوں کو کم کرتا ہے۔ یہ مسابقت کو روکتا ہے، سیکورٹی کے خطرات کو بڑھاتا ہے، اور تعمیل کے مسائل پیش کرتا ہے۔

جو انچارج ہیں۔ ڈیٹا مینجمنٹ برسوں سے اس چیلنج کا مقابلہ کیا ہے۔ فی الحال دستیاب ٹولز میں سے بہت سے محکموں کے اندر خاموش ٹیموں کے لیے ڈیٹا مینجمنٹ کے مسائل کو حل کر سکتے ہیں، لیکن بڑے پیمانے پر کمپنی کے لیے یا وسیع ڈیٹا ایکو سسٹم کے لیے نہیں۔ اس سے بھی بدتر بات یہ ہے کہ یہ ٹولز کثرت سے اور بھی زیادہ ڈیٹا بناتے ہیں جس کا نظم کرنا ضروری ہے – اور وہ ڈیٹا بھی گندا ہو سکتا ہے، جس سے مزید سر درد اور آمدنی میں نقصان ہو سکتا ہے۔

گندے ڈیٹا کو سمجھنا

گندا ڈیٹا کسی بھی ڈیٹا سے مراد ہے۔ جو گمراہ کن، نقل، غلط یا غلط، ابھی تک مربوط نہیں، کاروباری اصول کی خلاف ورزی کرنے والا، یکساں فارمیٹنگ کا فقدان، یا رموز یا ہجے میں غلطیاں رکھتا ہے۔

یہ سمجھنے کے لیے کہ حالیہ دہائیوں میں کس طرح گندا ڈیٹا ہر جگہ عام ہو گیا ہے، درج ذیل منظر نامے کا تصور کریں: 

ایک بڑے بینک میں قرض دہندگان اس وقت پریشان ہو جاتے ہیں جب انہیں پتہ چلتا ہے کہ بینک کے تقریباً سبھی صارفین خلاباز ہیں۔ اس بات پر غور کرتے ہوئے کہ ناسا کے پاس صرف ایک ہے۔ چند درجن خلاباز، یہ کوئی معنی نہیں رکھتا۔ 

مزید تحقیق کرنے پر، قرض دینے والے محکمے کو پتہ چلتا ہے کہ نئے اکاؤنٹس کھولنے والے بینک افسران "خلائی مسافر" کو کسٹمر کے قبضے کے میدان میں داخل کر رہے تھے۔ قرض دہندگان کو معلوم ہوتا ہے کہ ملازمت کی تفصیل نئے اکاؤنٹس کے ذمہ دار ان کے ہم منصبوں سے غیر متعلق ہے۔ بینک افسران "خلائی مسافر" کا انتخاب کر رہے تھے، پہلا دستیاب آپشن، بس نئے اکاؤنٹس بنانے میں تیزی سے آگے بڑھنے کے لیے۔

تاہم، قرض دہندگان کے پاس اپنے سالانہ بونس حاصل کرنے کے لیے اپنے صارفین کے درست پیشوں کو ریکارڈ میں رکھنا چاہیے۔ صورت حال کے تدارک کے لیے، قرض دینے والا محکمہ اپنا الگ ڈیٹا بیس تیار کرتا ہے۔ وہ ہر صارف سے رابطہ کرتے ہیں، صحیح پیشہ سیکھتے ہیں، اور اسے اپنے ڈیٹا بیس میں داخل کرتے ہیں۔

اب، بینک کے پاس ایک فیلڈ کے علاوہ بنیادی طور پر ایک جیسی معلومات کے ساتھ دو ڈیٹا بیس ہیں۔ اگر کوئی تیسرا محکمہ ان ڈیٹا بیس میں موجود معلومات تک رسائی حاصل کرنا چاہتا ہے، تو یہ تعین کرنے کے لیے کوئی نظام موجود نہیں ہے کہ کون سا ڈیٹا بیس درست ہے۔ لہذا، وہ تیسرا محکمہ اپنا ڈیٹا بیس بھی بنا سکتا ہے۔

اسی طرح کے منظر نامے کئی دہائیوں سے ملک بھر میں تنظیموں میں چل رہے ہیں۔

ڈیجیٹل ڈیٹا لینڈ فلز میں اضافہ

پریشانی 1990 کی دہائی میں شروع ہوئی۔ ڈیجیٹل تبدیلی تیزی کمپنیوں نے اپنے کاروباری عمل کو بہتر بنانے کے لیے انٹرپرائز سافٹ ویئر تعینات کیا۔ مثال کے طور پر سیلز فورس کی جانب سے بطور سروس پروڈکٹس، سیلز اور مارکیٹنگ کے نظام کو منظم کرنے کے بہتر طریقے فعال کرتے ہیں۔

لیکن 30 سال بعد، اس طرح کے میراثی انفراسٹرکچر کے نتیجے میں ڈیٹا مینجمنٹ ڈراؤنا خواب بن گیا ہے۔ ڈپلیکیٹ، نامکمل، اور غلط معلومات کے ساتھ مختلف ڈیٹا سائلوز کارپوریٹ اور پبلک سیکٹر لینڈ سکیپس پر کالی مرچ ڈالتے ہیں۔ ان سائلوز میں کاروبار، جغرافیے، اور فنکشنز کی لائنیں شامل ہیں جو بالترتیب اپنے ڈیٹا کے ذرائع کے مالک ہیں اور ان کی نگرانی کرتے ہیں۔

اس کے علاوہ، دہائیوں کے دوران ڈیٹا کی پیداوار میں تیزی سے اضافہ ہوا ہے۔ ہر کاروباری عمل کو اب اس کے اپنے سافٹ ویئر کی ضرورت ہوتی ہے، جو ہمیشہ سے ڈیٹا تیار کرتا ہے۔ ایپلی کیشنز اپنے مقامی ڈیٹا بیس میں ہر عمل کو لاگ کرتی ہیں، اور نئے بنائے گئے ڈیٹا اثاثوں کی کان کنی میں رکاوٹیں سامنے آ گئی ہیں۔

پچھلی دہائیوں میں، الفاظ کی وضاحت کرنے والا ڈیٹا اس کاروباری عمل کے لیے مخصوص تھا جس نے اسے تخلیق کیا۔ انجینئرز کو ڈیٹا استعمال کرنے والے سسٹمز کے لیے ان لغتوں کو مجرد لغات میں ترجمہ کرنا تھا۔ معیار کی ضمانتیں عام طور پر موجود نہیں تھیں۔ جیسا کہ اوپر دی گئی خلاباز کی مثال میں، وہ ڈیٹا جو ایک کاروباری فنکشن کے ذریعے قابل استعمال تھا دوسروں کے لیے ناقابل استعمال تھا۔ اور اصل کاروباری عمل سے ڈیٹا تک رسائی محدود تھی، بہترین طور پر، ایسے فنکشنز کے لیے جو بصورت دیگر اصلاح حاصل کر سکتے تھے۔

کاپی کننڈرم

اس مسئلے کو حل کرنے کے لیے، انجینئرز نے اصل ڈیٹا بیس کی کاپیاں بنانا شروع کیں کیونکہ، حال ہی میں، یہ دستیاب بہترین آپشن تھا۔ اس کے بعد انہوں نے ان کاپیوں کو استعمال کرنے والے فنکشن کے تقاضوں کو پورا کرنے کے لیے تبدیل کر دیا، ڈیٹا کوالٹی کے قوانین اور تدارک کی منطق کو صرف استعمال کرنے والے فنکشن کے لیے لاگو کیا۔ انہوں نے بہت سی کاپیاں بنائیں اور انہیں متعدد ڈیٹا گوداموں اور تجزیاتی نظاموں میں لوڈ کر دیا۔

نتیجہ؟ ڈیٹاسیٹ کی کاپیوں کا بہت زیادہ بہاؤ جو تنظیم کے کچھ حصوں کو "گندی" کے طور پر پڑھتا ہے، اس بارے میں الجھن پیدا کرتا ہے کہ کون سی کاپی صحیح ہے۔ آج کمپنیوں کے پاس آپریشنل ڈیٹا اسٹورز، ڈیٹا بیس، ڈیٹا گودام، ڈیٹا لیکس، اینالیٹکس سینڈ باکسز، اور ڈیٹا سینٹرز اور متعدد کلاؤڈز کے اندر اسپریڈ شیٹس میں سورس ڈیٹا کی سینکڑوں کاپیاں موجود ہیں۔ اس کے باوجود، چیف انفارمیشن آفیسرز اور چیف ڈیٹا آفیسرز کے پاس نہ تو پیدا ہونے والی کاپیوں کی تعداد پر کنٹرول ہے اور نہ ہی یہ علم ہے کہ کون سا ورژن سچائی کے حقیقی ذریعہ کی نمائندگی کرتا ہے۔

اس گندگی کو کچھ ترتیب دینے کے لیے ڈیٹا گورننس سافٹ ویئر پروڈکٹس کا ایک میزبان دستیاب ہے۔ ان میں ڈیٹا کیٹلاگ، ڈیٹا کوالٹی کی پیمائش اور ایشو ریزولوشن سسٹم، ریفرنس ڈیٹا مینجمنٹ سسٹم، ماسٹر ڈیٹا مینجمنٹ سسٹم، ڈیٹا نسب کی دریافت، اور مینجمنٹ سسٹم شامل ہیں۔

لیکن یہ علاج مہنگے اور وقت کی ضرورت ہے۔ مختلف پروڈکٹ لائنوں کے متعدد ڈیٹا ذرائع سے کسٹمر ڈیٹا کو ضم کرنے کے لیے ایک عام ماسٹر ڈیٹا مینجمنٹ پروجیکٹ میں سال لگ سکتے ہیں اور لاکھوں ڈالر لاگت آ سکتی ہے۔ ایک ہی وقت میں، گندے ڈیٹا کا حجم اس رفتار سے بڑھ رہا ہے جو کنٹرول اور گورننس کو انسٹال کرنے کی تنظیمی کوششوں کو پیچھے چھوڑ دیتا ہے۔

یہ نقطہ نظر خامیوں سے بھرے ہوئے ہیں۔ وہ اعداد و شمار کی فہرست سازی، پیمائش اور تدارک کے کاموں کو انجام دینے کے لیے دستی عمل، ترقیاتی منطق، یا کاروباری قواعد پر انحصار کرتے ہیں۔ 

بازیافت کنٹرول

موجودہ مشکل سے نمٹنے کے لیے تین ابھرتی ہوئی ٹیکنالوجیز بہترین ہیں: AI- اور مشین لرننگ پر مبنی ڈیٹا گورننس، سیمنٹک انٹرآپریبلٹی پلیٹ فارمز جیسے نالج گرافس، اور ڈیٹا ڈسٹری بیوشن سسٹم جیسے کہ تقسیم شدہ لیجرز: 

1. AI- اور مشین لرننگ سے چلنے والے ڈیٹا گورننس کے حل لوگوں اور کوڈ پر انحصار کم کریں۔ AI اور مشین لرننگ دستی کام کی جگہ ایسے کام کرتے ہیں جن میں آٹو ٹیگنگ، منظم کرنا اور ڈیٹا کے بڑے پیمانے پر نگرانی شامل ہے۔ ڈیٹا مینجمنٹ کی تبدیلی اور منتقلی آئی ٹی کے اخراجات کو کم کرتی ہے۔ تنظیمیں زیادہ مضبوط اور پائیدار فن تعمیر بھی بنا سکتی ہیں جو ڈیٹا کے معیار کو بڑے پیمانے پر فروغ دیتی ہیں۔

2. علمی گراف مختلف ڈیٹا اثاثوں کی مقامی انٹرآپریبلٹی کی اجازت دیں تاکہ معلومات کو ایک مشترکہ فارمیٹ کے تحت یکجا اور سمجھا جا سکے۔ سیمنٹک آنٹولوجیز کا فائدہ اٹھا کر، تنظیمیں سیاق و سباق کے ساتھ مستقبل کا ثبوت اور متعدد اسٹیک ہولڈرز کے دوبارہ استعمال کے لیے ایک مشترکہ فارمیٹ بنا سکتی ہیں۔

3. تقسیم شدہ لیجرز، تفریق رازداری، اور ورچوئلائزیشن جسمانی طور پر ڈیٹا کاپی کرنے کی ضرورت کو ختم کریں۔ تقسیم شدہ لیجرز وفاق اور زیر انتظام ڈیٹا بیس پر مشتمل ہوتے ہیں جو کاروباری اکائیوں اور تنظیموں میں قابل استعمال ہوتے ہیں۔ تفریق پرائیویسی ڈیٹا کو اسٹیک ہولڈرز کے ساتھ بانٹتے ہوئے، تعمیل کی ضروریات پر عمل کرنے کے لیے ماسک لگانا ممکن بناتی ہے۔ ورچوئلائزیشن جسمانی ماحول کے بجائے ورچوئل میں ڈیٹا کو گھمانے کی اجازت دیتی ہے۔

ایک بار جب CIOs اور CDOs کو سمجھ آ جائے کہ مسئلہ کی جڑ میراثی انفراسٹرکچر ہے جو ڈیٹا سائلوز بناتا ہے، تو وہ بنیادی فن تعمیر اور ڈیٹا انفراسٹرکچر کی حکمت عملیوں کو بہتر بنا سکتے ہیں۔

گندا ڈیٹا کسی تنظیم کی باخبر فیصلے کرنے اور درستگی اور چستی کے ساتھ کام کرنے کی صلاحیت کو محدود کرتا ہے۔ تنظیموں کو اپنے ڈیٹا کو کنٹرول کرنا چاہیے اور ڈیٹا انٹرآپریبلٹی، کوالٹی اور رسائی کی حوصلہ افزائی کرنی چاہیے۔ ایسا کرنے سے مسابقتی فوائد حاصل ہوں گے اور سیکیورٹی اور تعمیل کے خطرات مٹ جائیں گے۔

ٹائم اسٹیمپ:

سے زیادہ ڈیٹاورسٹی