غلبه بر جهانی غرق در داده های کثیف

غلبه بر جهانی غرق در داده های کثیف

گره منبع: 2574986

مانند یک ویروس نامرئی، "داده های کثیف" دنیای تجارت امروز را آزار می دهد. به این معنا که داده‌های نادرست، ناقص و متناقض در دنیای «داده‌های بزرگ» امروزی در حال گسترش هستند.

کار با داده های کثیف سالانه میلیون ها دلار برای شرکت ها هزینه دارد. این امر کارایی و اثربخشی بخش‌هایی را که سازمان را پوشش می‌دهند کاهش می‌دهد و تلاش‌ها برای رشد و مقیاس را محدود می‌کند. مانع رقابت می شود، خطرات امنیتی را افزایش می دهد و مشکلات مربوط به انطباق را ایجاد می کند.

کسانی که مسئول هستند مدیریت اطلاعات سال ها با این چالش دست و پنجه نرم کرده اند. بسیاری از ابزارهای موجود در حال حاضر می‌توانند مسائل مربوط به مدیریت داده را برای تیم‌های مستقل در بخش‌ها بررسی کنند، اما نه برای شرکت در کل یا برای اکوسیستم‌های داده گسترده‌تر. بدتر از آن، این ابزارها اغلب منجر به ایجاد داده های بیشتری می شوند که باید مدیریت شوند – و این داده ها نیز می توانند کثیف شوند و باعث سردرد و از دست دادن درآمد بیشتر شوند.

درک اطلاعات کثیف

داده های کثیف به هر داده ای اشاره دارد که گمراه کننده، تکراری، نادرست یا نادرست، هنوز یکپارچه نشده است، قوانین تجاری را نقض می کند، قالب بندی یکسانی ندارد، یا حاوی اشتباهاتی در علائم نگارشی یا املایی است.

برای درک اینکه چگونه داده های کثیف در دهه های اخیر همه جا حاضر شده اند، سناریوی زیر را تصور کنید: 

وام دهندگان یک بانک بزرگ وقتی متوجه می شوند که تقریباً همه مشتریان بانک فضانورد هستند، گیج می شوند. با توجه به اینکه ناسا فقط یک چند ده فضانورد، این معنی ندارد. 

پس از کاوش بیشتر، بخش وام‌دهی متوجه می‌شود که افسران بانکی که حساب‌های جدیدی را باز کرده‌اند، «فضانورد» را در زمینه شغل مشتری وارد کرده‌اند. وام دهندگان یاد می گیرند که شرح شغل به همتایان خود که مسئول حساب های جدید هستند بی ربط است. افسران بانک "فضانورد" را انتخاب می کردند، اولین گزینه موجود، صرفا برای حرکت سریعتر در ایجاد حساب های جدید.

اما وام دهندگان باید مشاغل صحیح مشتریان خود را برای دریافت پاداش سالانه خود ثبت کنند. برای اصلاح این وضعیت، بخش وام دهی پایگاه داده جداگانه خود را توسعه می دهد. آنها با هر مشتری تماس می گیرند، شغل صحیح را یاد می گیرند و آن را در پایگاه داده خود وارد می کنند.

در حال حاضر، بانک دارای دو پایگاه داده است که اساساً اطلاعات مشابهی دارند، جدا از یک زمینه. اگر بخش سومی بخواهد به اطلاعات موجود در آن پایگاه داده دسترسی پیدا کند، هیچ سیستمی برای تعیین اینکه کدام پایگاه داده دقیق است وجود ندارد. بنابراین، آن بخش سوم نیز ممکن است پایگاه داده خود را ایجاد کند.

سناریوهای مشابهی برای دهه ها در سازمان ها در سراسر کشور اجرا شده است.

دفن زباله های دیجیتالی رو به رشد

مشکل در دهه 1990 با شروع شد دگرگونی های دیجیتال رونق. شرکت ها از نرم افزارهای سازمانی برای بهبود فرآیندهای تجاری خود استفاده کردند. به عنوان مثال، محصولات نرم افزاری به عنوان سرویس از Salesforce، راه های بهتری را برای مدیریت فروش و سیستم های بازاریابی فعال می کنند.

اما 30 سال بعد، چنین زیرساخت های قدیمی به یک کابوس مدیریت داده منجر شده است. سیلوهای داده های متفاوت با مجموعه ای از اطلاعات تکراری، ناقص و نادرست، چشم اندازهای شرکت ها و بخش عمومی را ایجاد می کند. این سیلوها شامل خطوط تجاری، جغرافیایی، و عملکردهایی هستند که به ترتیب مالک و بر منابع داده خود نظارت می کنند.

فراتر از آن، تولید داده در طول دهه ها به طور تصاعدی افزایش یافته است. هر فرآیند کسب و کار اکنون به نرم افزار خاص خود نیاز دارد که داده های دائمی تولید می کند. برنامه‌ها هر اقدامی را در پایگاه داده‌های اصلی خود ثبت می‌کنند و موانعی برای استخراج دارایی‌های داده جدید ایجاد شده ظاهر شده‌اند.

در دهه‌های گذشته، داده‌های تعریف‌کننده واژگان مختص فرآیند کسب‌وکار بود که آن‌ها را ایجاد کرد. مهندسان باید آن واژگان را به دیکشنری های مجزا برای سیستم های مصرف کننده داده ترجمه می کردند. تضمین کیفیت معمولاً وجود نداشت. همانطور که در مثال فضانورد بالا، داده هایی که توسط یک عملکرد تجاری قابل استفاده بود توسط سایرین غیرقابل استفاده بود. و دسترسی به داده‌های فرآیندهای کسب‌وکار اصلی، در بهترین حالت، برای عملکردهایی که ممکن بود در غیر این صورت بهینه‌سازی می‌شدند، محدود بود.

معمای کپی

برای حل این مشکل، مهندسان شروع به تهیه کپی از پایگاه های داده اصلی کردند، زیرا تا همین اواخر، بهترین گزینه موجود بود. آن‌ها سپس آن نسخه‌ها را تغییر دادند تا الزامات تابع مصرف‌کننده را برآورده کنند، قوانین کیفیت داده و منطق اصلاح را منحصراً به تابع مصرف‌کننده اعمال کردند. آنها کپی های زیادی تهیه کردند و آنها را در انبارهای داده و سیستم های تحلیلی متعدد بارگذاری کردند.

نتیجه؟ سرریز کپی‌های مجموعه داده‌ای که در برخی از بخش‌های سازمان به‌عنوان «کثیف» خوانده می‌شوند، باعث سردرگمی در مورد اینکه کدام نسخه درست است، می‌شود. امروزه شرکت‌ها صدها نسخه از داده‌های منبع را در فروشگاه‌های داده عملیاتی، پایگاه‌های داده، انبارهای داده، دریاچه‌های داده، جعبه‌های sandbox تجزیه و تحلیل و صفحات گسترده در مراکز داده و چندین ابر دارند. با این حال، افسران ارشد اطلاعات و افسران ارشد داده نه کنترلی بر تعداد نسخه‌های تولید شده دارند و نه می‌دانند کدام نسخه منبع واقعی حقیقت را نشان می‌دهد.

مجموعه ای از محصولات نرم افزاری Data Governance برای نظم بخشیدن به این آشفتگی در دسترس هستند. اینها شامل کاتالوگ داده ها، سیستم های اندازه گیری کیفیت داده و حل مسئله، سیستم های مدیریت داده های مرجع، سیستم های مدیریت داده های اصلی، کشف دودمان داده و سیستم های مدیریت است.

اما این درمان ها گران و زمان بر هستند. یک پروژه مدیریت داده اصلی معمولی برای ادغام داده های مشتری از منابع داده های متعدد از خطوط تولید مختلف، ممکن است سال ها طول بکشد و میلیون ها دلار هزینه داشته باشد. در عین حال، حجم داده‌های کثیف با سرعتی در حال افزایش است که از تلاش‌های سازمانی برای نصب کنترل‌ها و حاکمیت پیشی می‌گیرد.

این رویکردها مملو از نقص است. آنها به فرآیندهای دستی، منطق توسعه یا قوانین تجاری برای اجرای وظایف موجودی، اندازه‌گیری و اصلاح داده‌ها متکی هستند. 

بازیابی کنترل

سه فن‌آوری نوظهور برای مقابله با مخمصه کنونی مناسب‌تر هستند: مدیریت داده مبتنی بر هوش مصنوعی و یادگیری ماشینی، پلت‌فرم‌های قابلیت همکاری معنایی مانند نمودارهای دانش، و سیستم‌های توزیع داده‌ها مانند دفتر کل توزیع‌شده: 

1. راه حل های مدیریت داده مبتنی بر هوش مصنوعی و یادگیری ماشینی کاهش وابستگی به افراد و کد هوش مصنوعی و یادگیری ماشینی، کار دستی را با اقداماتی که شامل برچسب‌گذاری خودکار، سازماندهی و نظارت بر حجم عظیمی از داده‌ها می‌شود، جایگزین می‌کنند. تغییر مدیریت داده و مهاجرت هزینه های فناوری اطلاعات را کاهش می دهد. سازمان‌ها همچنین ممکن است معماری‌های قوی‌تر و پایدارتری بسازند که کیفیت داده را در مقیاس تشویق کند.

2. نمودارهای دانش امکان همکاری بومی دارایی های داده های متفاوت را فراهم می کند تا بتوان اطلاعات را تحت یک قالب مشترک ترکیب و درک کرد. با استفاده از هستی شناسی های معنایی، سازمان ها می توانند داده های آینده را با زمینه و قالب مشترک برای استفاده مجدد توسط سهامداران متعدد اثبات کنند.

3. دفتر کل توزیع شده، حریم خصوصی دیفرانسیل و مجازی سازی نیاز به کپی فیزیکی داده ها را از بین ببرید. دفاتر توزیع شده شامل پایگاه های اطلاعاتی فدرال و تحت کنترل هستند که در واحدهای تجاری و سازمان ها قابل استفاده هستند. حریم خصوصی دیفرانسیل این امکان را فراهم می کند که داده ها برای رعایت الزامات انطباق پنهان شود، در حالی که به طور همزمان با سهامداران به اشتراک گذاشته شود. مجازی سازی به چرخش داده ها در یک محیط مجازی و نه فیزیکی اجازه می دهد.

هنگامی که CIOها و CDOها درک کنند که ریشه مشکل زیرساخت های قدیمی است که سیلوهای داده را ایجاد می کند، ممکن است معماری های اساسی و استراتژی های زیرساخت داده را بهبود بخشند.

داده های کثیف توانایی سازمان را برای تصمیم گیری آگاهانه و عملکرد با دقت و چابکی محدود می کند. سازمان‌ها باید داده‌های خود را کنترل کنند و قابلیت همکاری، کیفیت و دسترسی به داده‌ها را تشویق کنند. انجام این کار مزیت های رقابتی را به همراه خواهد داشت و آسیب پذیری های امنیتی و انطباق را از بین می برد.

تمبر زمان:

بیشتر از DATAVERSITY