مانند یک ویروس نامرئی، "داده های کثیف" دنیای تجارت امروز را آزار می دهد. به این معنا که دادههای نادرست، ناقص و متناقض در دنیای «دادههای بزرگ» امروزی در حال گسترش هستند.
کار با داده های کثیف سالانه میلیون ها دلار برای شرکت ها هزینه دارد. این امر کارایی و اثربخشی بخشهایی را که سازمان را پوشش میدهند کاهش میدهد و تلاشها برای رشد و مقیاس را محدود میکند. مانع رقابت می شود، خطرات امنیتی را افزایش می دهد و مشکلات مربوط به انطباق را ایجاد می کند.
کسانی که مسئول هستند مدیریت اطلاعات سال ها با این چالش دست و پنجه نرم کرده اند. بسیاری از ابزارهای موجود در حال حاضر میتوانند مسائل مربوط به مدیریت داده را برای تیمهای مستقل در بخشها بررسی کنند، اما نه برای شرکت در کل یا برای اکوسیستمهای داده گستردهتر. بدتر از آن، این ابزارها اغلب منجر به ایجاد داده های بیشتری می شوند که باید مدیریت شوند – و این داده ها نیز می توانند کثیف شوند و باعث سردرد و از دست دادن درآمد بیشتر شوند.
درک اطلاعات کثیف
داده های کثیف به هر داده ای اشاره دارد که گمراه کننده، تکراری، نادرست یا نادرست، هنوز یکپارچه نشده است، قوانین تجاری را نقض می کند، قالب بندی یکسانی ندارد، یا حاوی اشتباهاتی در علائم نگارشی یا املایی است.
برای درک اینکه چگونه داده های کثیف در دهه های اخیر همه جا حاضر شده اند، سناریوی زیر را تصور کنید:
وام دهندگان یک بانک بزرگ وقتی متوجه می شوند که تقریباً همه مشتریان بانک فضانورد هستند، گیج می شوند. با توجه به اینکه ناسا فقط یک چند ده فضانورد، این معنی ندارد.
پس از کاوش بیشتر، بخش وامدهی متوجه میشود که افسران بانکی که حسابهای جدیدی را باز کردهاند، «فضانورد» را در زمینه شغل مشتری وارد کردهاند. وام دهندگان یاد می گیرند که شرح شغل به همتایان خود که مسئول حساب های جدید هستند بی ربط است. افسران بانک "فضانورد" را انتخاب می کردند، اولین گزینه موجود، صرفا برای حرکت سریعتر در ایجاد حساب های جدید.
اما وام دهندگان باید مشاغل صحیح مشتریان خود را برای دریافت پاداش سالانه خود ثبت کنند. برای اصلاح این وضعیت، بخش وام دهی پایگاه داده جداگانه خود را توسعه می دهد. آنها با هر مشتری تماس می گیرند، شغل صحیح را یاد می گیرند و آن را در پایگاه داده خود وارد می کنند.
در حال حاضر، بانک دارای دو پایگاه داده است که اساساً اطلاعات مشابهی دارند، جدا از یک زمینه. اگر بخش سومی بخواهد به اطلاعات موجود در آن پایگاه داده دسترسی پیدا کند، هیچ سیستمی برای تعیین اینکه کدام پایگاه داده دقیق است وجود ندارد. بنابراین، آن بخش سوم نیز ممکن است پایگاه داده خود را ایجاد کند.
سناریوهای مشابهی برای دهه ها در سازمان ها در سراسر کشور اجرا شده است.
دفن زباله های دیجیتالی رو به رشد
مشکل در دهه 1990 با شروع شد دگرگونی های دیجیتال رونق. شرکت ها از نرم افزارهای سازمانی برای بهبود فرآیندهای تجاری خود استفاده کردند. به عنوان مثال، محصولات نرم افزاری به عنوان سرویس از Salesforce، راه های بهتری را برای مدیریت فروش و سیستم های بازاریابی فعال می کنند.
اما 30 سال بعد، چنین زیرساخت های قدیمی به یک کابوس مدیریت داده منجر شده است. سیلوهای داده های متفاوت با مجموعه ای از اطلاعات تکراری، ناقص و نادرست، چشم اندازهای شرکت ها و بخش عمومی را ایجاد می کند. این سیلوها شامل خطوط تجاری، جغرافیایی، و عملکردهایی هستند که به ترتیب مالک و بر منابع داده خود نظارت می کنند.
فراتر از آن، تولید داده در طول دهه ها به طور تصاعدی افزایش یافته است. هر فرآیند کسب و کار اکنون به نرم افزار خاص خود نیاز دارد که داده های دائمی تولید می کند. برنامهها هر اقدامی را در پایگاه دادههای اصلی خود ثبت میکنند و موانعی برای استخراج داراییهای داده جدید ایجاد شده ظاهر شدهاند.
در دهههای گذشته، دادههای تعریفکننده واژگان مختص فرآیند کسبوکار بود که آنها را ایجاد کرد. مهندسان باید آن واژگان را به دیکشنری های مجزا برای سیستم های مصرف کننده داده ترجمه می کردند. تضمین کیفیت معمولاً وجود نداشت. همانطور که در مثال فضانورد بالا، داده هایی که توسط یک عملکرد تجاری قابل استفاده بود توسط سایرین غیرقابل استفاده بود. و دسترسی به دادههای فرآیندهای کسبوکار اصلی، در بهترین حالت، برای عملکردهایی که ممکن بود در غیر این صورت بهینهسازی میشدند، محدود بود.
معمای کپی
برای حل این مشکل، مهندسان شروع به تهیه کپی از پایگاه های داده اصلی کردند، زیرا تا همین اواخر، بهترین گزینه موجود بود. آنها سپس آن نسخهها را تغییر دادند تا الزامات تابع مصرفکننده را برآورده کنند، قوانین کیفیت داده و منطق اصلاح را منحصراً به تابع مصرفکننده اعمال کردند. آنها کپی های زیادی تهیه کردند و آنها را در انبارهای داده و سیستم های تحلیلی متعدد بارگذاری کردند.
نتیجه؟ سرریز کپیهای مجموعه دادهای که در برخی از بخشهای سازمان بهعنوان «کثیف» خوانده میشوند، باعث سردرگمی در مورد اینکه کدام نسخه درست است، میشود. امروزه شرکتها صدها نسخه از دادههای منبع را در فروشگاههای داده عملیاتی، پایگاههای داده، انبارهای داده، دریاچههای داده، جعبههای sandbox تجزیه و تحلیل و صفحات گسترده در مراکز داده و چندین ابر دارند. با این حال، افسران ارشد اطلاعات و افسران ارشد داده نه کنترلی بر تعداد نسخههای تولید شده دارند و نه میدانند کدام نسخه منبع واقعی حقیقت را نشان میدهد.
مجموعه ای از محصولات نرم افزاری Data Governance برای نظم بخشیدن به این آشفتگی در دسترس هستند. اینها شامل کاتالوگ داده ها، سیستم های اندازه گیری کیفیت داده و حل مسئله، سیستم های مدیریت داده های مرجع، سیستم های مدیریت داده های اصلی، کشف دودمان داده و سیستم های مدیریت است.
اما این درمان ها گران و زمان بر هستند. یک پروژه مدیریت داده اصلی معمولی برای ادغام داده های مشتری از منابع داده های متعدد از خطوط تولید مختلف، ممکن است سال ها طول بکشد و میلیون ها دلار هزینه داشته باشد. در عین حال، حجم دادههای کثیف با سرعتی در حال افزایش است که از تلاشهای سازمانی برای نصب کنترلها و حاکمیت پیشی میگیرد.
این رویکردها مملو از نقص است. آنها به فرآیندهای دستی، منطق توسعه یا قوانین تجاری برای اجرای وظایف موجودی، اندازهگیری و اصلاح دادهها متکی هستند.
بازیابی کنترل
سه فنآوری نوظهور برای مقابله با مخمصه کنونی مناسبتر هستند: مدیریت داده مبتنی بر هوش مصنوعی و یادگیری ماشینی، پلتفرمهای قابلیت همکاری معنایی مانند نمودارهای دانش، و سیستمهای توزیع دادهها مانند دفتر کل توزیعشده:
1. راه حل های مدیریت داده مبتنی بر هوش مصنوعی و یادگیری ماشینی کاهش وابستگی به افراد و کد هوش مصنوعی و یادگیری ماشینی، کار دستی را با اقداماتی که شامل برچسبگذاری خودکار، سازماندهی و نظارت بر حجم عظیمی از دادهها میشود، جایگزین میکنند. تغییر مدیریت داده و مهاجرت هزینه های فناوری اطلاعات را کاهش می دهد. سازمانها همچنین ممکن است معماریهای قویتر و پایدارتری بسازند که کیفیت داده را در مقیاس تشویق کند.
2. نمودارهای دانش امکان همکاری بومی دارایی های داده های متفاوت را فراهم می کند تا بتوان اطلاعات را تحت یک قالب مشترک ترکیب و درک کرد. با استفاده از هستی شناسی های معنایی، سازمان ها می توانند داده های آینده را با زمینه و قالب مشترک برای استفاده مجدد توسط سهامداران متعدد اثبات کنند.
3. دفتر کل توزیع شده، حریم خصوصی دیفرانسیل و مجازی سازی نیاز به کپی فیزیکی داده ها را از بین ببرید. دفاتر توزیع شده شامل پایگاه های اطلاعاتی فدرال و تحت کنترل هستند که در واحدهای تجاری و سازمان ها قابل استفاده هستند. حریم خصوصی دیفرانسیل این امکان را فراهم می کند که داده ها برای رعایت الزامات انطباق پنهان شود، در حالی که به طور همزمان با سهامداران به اشتراک گذاشته شود. مجازی سازی به چرخش داده ها در یک محیط مجازی و نه فیزیکی اجازه می دهد.
هنگامی که CIOها و CDOها درک کنند که ریشه مشکل زیرساخت های قدیمی است که سیلوهای داده را ایجاد می کند، ممکن است معماری های اساسی و استراتژی های زیرساخت داده را بهبود بخشند.
داده های کثیف توانایی سازمان را برای تصمیم گیری آگاهانه و عملکرد با دقت و چابکی محدود می کند. سازمانها باید دادههای خود را کنترل کنند و قابلیت همکاری، کیفیت و دسترسی به دادهها را تشویق کنند. انجام این کار مزیت های رقابتی را به همراه خواهد داشت و آسیب پذیری های امنیتی و انطباق را از بین می برد.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی به اینجا.
- منبع: https://www.dataversity.net/overcoming-a-world-awash-in-dirty-data/
- :است
- $UP
- a
- توانایی
- درباره ما
- بالاتر
- دسترسی
- دسترسی
- حساب ها
- دقیق
- دست
- در میان
- عمل
- اقدامات
- نشانی
- پایبند بودن
- مزایای
- AI
- معرفی
- علم تجزیه و تحلیل
- و
- سالیانه
- سالانه
- جدا
- برنامه های کاربردی
- با استفاده از
- رویکردها
- هستند
- AS
- دارایی
- فضانورد
- At
- در دسترس
- بانک
- BE
- زیرا
- شدن
- آغاز شد
- بهترین
- بهتر
- پاداش
- رونق
- به ارمغان بیاورد
- گسترده تر
- ساختن
- کسب و کار
- فرآیند کاری
- فرآیندهای کسب و کار
- by
- CAN
- کاتالوگ
- باعث می شود
- مراکز
- به چالش
- بار
- رئیس
- رمز
- ترکیب شده
- مشترک
- شرکت
- شرکت
- رقابتی
- رقابت
- انطباق
- گیجی
- با توجه به
- تماس
- زمینه
- کنترل
- گروه شاهد
- نسخه
- شرکت
- هزینه
- هزینه
- ایجاد
- ایجاد شده
- ایجاد
- ایجاد
- جاری
- در حال حاضر
- مشتری
- اطلاعات مشتری
- مشتریان
- داده ها
- مرکز دادهها
- زیرساخت داده
- مدیریت اطلاعات
- کیفیت داده
- انبارهای داده
- پایگاه داده
- پایگاه های داده
- DATAVERSITY
- دهه
- تصمیم گیری
- تعریف کردن
- بخش
- گروه ها
- وابستگی
- مستقر
- شرح
- مشخص کردن
- پروژه
- توسعه
- مختلف
- كشف كردن
- کشف می کند
- کشف
- متفاوت
- توزیع شده
- دفترهای توزیع شده
- توزیع
- عمل
- دلار
- دوجین
- هر
- اکوسیستم
- اثر
- بهره وری
- تلاش
- سنگ سنباده
- فن آوری های نوظهور
- فعال
- تشویق
- مورد تأیید
- سرمایه گذاری
- نرمافزار سازمانی
- محیط
- خطاهای
- اساسا
- حتی
- هر
- مثال
- انحصاری
- اجرا کردن
- وجود دارد
- گران
- اکتشاف
- نمایی
- رشته
- نام خانوادگی
- معایب
- پیروی
- برای
- قالب
- غالبا
- از جانب
- تابع
- توابع
- بیشتر
- تولید
- نسل
- جغرافیاها
- حکومت
- نمودار ها
- فهم
- شدن
- تضمین می کند
- آیا
- سردرد
- میزبان
- چگونه
- اما
- HTTPS
- صدها نفر
- بهبود
- in
- نادرست
- شامل
- افزایش
- افزایش
- اطلاعات
- افسران اطلاعات
- اطلاع
- شالوده
- نصب
- نمونه
- ادغام
- یکپارچه
- قابلیت همکاری
- موضوع
- مسائل
- IT
- ITS
- کار
- دانش
- بزرگ
- یاد گرفتن
- یادگیری
- رهبران
- میراث
- وام دهندگان
- امانت دادن
- بهره برداری
- محدود شده
- محدودیت
- خطوط
- خاموش
- دستگاه
- فراگیری ماشین
- ساخته
- ساخت
- باعث می شود
- مدیریت
- اداره می شود
- مدیریت
- کتابچه راهنمای
- کار دستی
- بسیاری
- بازار یابی (Marketing)
- ماسک
- عظیم
- استاد
- ممکن است..
- اندازه گیری
- قدرت
- مهاجرت
- میلیون ها نفر
- استخراج معدن
- بیش
- حرکت
- چندگانه
- ناسا
- در سرتاسر کشور
- بومی
- نیاز
- نه
- جدید
- عدد
- موانع
- گرفتن
- اشغال
- of
- مامورین
- on
- ONE
- افتتاح
- کار
- قابل استفاده
- بهینه سازی
- گزینه
- سفارش
- کدام سازمان ها
- سازمانی
- سازمان های
- سازماندهی
- اصلی
- دیگران
- در غیر این صورت
- نتیجه
- خود
- بخش
- مردم
- فیزیکی
- از نظر جسمی
- طاعون
- سیستم عامل
- افلاطون
- هوش داده افلاطون
- PlatoData
- بازی
- ممکن
- دقت
- هدیه
- قبلی
- خلوت
- مشکل
- مشکلات
- روند
- فرآیندهای
- محصول
- محصولات
- پروژه
- بخش عمومی
- کیفیت
- نسبتا
- خواندن
- اخیر
- تازه
- رکورد
- كاهش دادن
- جایگزین کردن
- نشان دهنده
- مورد نیاز
- وضوح
- به ترتیب
- مسئوليت
- استفاده مجدد
- درامد
- خطرات
- تنومند
- ریشه
- قوانین
- حراجی
- فروش و بازاریابی
- salesforce
- همان
- جعبه های شن و ماسه
- مقیاس
- سناریو
- سناریوها
- تیم امنیت لاتاری
- خطرات امنیتی
- انتخاب
- حس
- جداگانه
- اشتراک
- به سادگی
- به طور همزمان
- وضعیت
- So
- نرم افزار
- حل
- برخی از
- منبع
- منابع
- خاص
- سرعت
- سهامداران
- پرده
- استراتژی ها
- چنین
- قابل تحمل
- سیستم
- سیستم های
- گرفتن
- وظایف
- تیم ها
- فن آوری
- که
- La
- اطلاعات
- شان
- آنها
- اینها
- سوم
- زمان
- به
- امروز
- امروز
- هم
- ابزار
- دگرگونی
- مبدل
- ترجمه کردن
- زحمت
- حقیقت
- نوعی
- به طور معمول
- همه جا
- زیر
- اساسی
- فهمیدن
- فهمید
- واحد
- قابل استفاده
- نسخه
- مجازی
- ویروس
- حجم
- آسیب پذیری ها
- راه
- که
- در حین
- اراده
- با
- در داخل
- مهاجرت کاری
- جهان
- سال
- زفیرنت