להתגבר על שטף עולם בנתונים מלוכלכים

להתגבר על שטף עולם בנתונים מלוכלכים

צומת המקור: 2574986

כמו וירוס בלתי נראה, "נתונים מלוכלכים" פוגעים בעולם העסקים של היום. כלומר, נתונים לא מדויקים, לא מלאים ולא עקביים הולכים ומתרבים בעולם של ימינו המתמקד ב"ביג דאטה".

עבודה עם נתונים מלוכלכים עולה לחברות מיליוני דולרים מדי שנה. זה מקטין את היעילות והאפקטיביות של מחלקות המשתרעות על פני הארגון ומצמצם את המאמצים לגדול ולהתרחב. זה פוגע בתחרותיות, מגביר את סיכוני האבטחה ומציג בעיות ציות.

אלו שאחראים על ניהול נתונים התמודדו עם האתגר הזה במשך שנים. רבים מהכלים הזמינים כיום יכולים לטפל בבעיות של ניהול נתונים עבור צוותים מכוסים בתוך מחלקות, אך לא עבור החברה בכלל או עבור מערכות אקולוגיות רחבות יותר של נתונים. גרוע מכך, הכלים האלה בסופו של דבר יוצרים אפילו יותר נתונים שיש לנהל - וגם הנתונים האלה יכולים להתלכלך ולגרום ליותר כאבי ראש ואובדן הכנסות.

הבנת נתונים מלוכלכים

נתונים מלוכלכים מתייחס לכל נתון שהוא מטעה, משוכפל, שגוי או לא מדויק, עדיין לא משולב, מפר כללים עסקיים, חסר עיצוב אחיד או מכיל שגיאות בסימני פיסוק או איות.

כדי להבין עד כמה נתונים מלוכלכים הפכו נפוצים בכל מקום בעשורים האחרונים, דמיינו את התרחיש הבא: 

מלווים בבנק גדול מתבלבלים כשהם מגלים שכמעט כל לקוחות הבנק הם אסטרונאוטים. בהתחשב בכך שלנאס"א יש רק א כמה עשרות אסטרונאוטים, זה לא הגיוני. 

לאחר חקירה נוספת, מחלקת ההלוואות מגלה שפקידי בנק שפותחים חשבונות חדשים הכניסו "אסטרונאוט" לתחום עיסוק הלקוחות. המלווים לומדים שתיאור התפקיד אינו רלוונטי לעמיתיהם האחראים על חשבונות חדשים. קציני הבנק בחרו ב"אסטרונאוט", האפשרות הזמינה הראשונה, פשוט כדי לעבור מהר יותר ביצירת חשבונות חדשים.

עם זאת, המלווים חייבים לרשום את העיסוקים הנכונים של הלקוחות שלהם כדי לקבל את הבונוסים השנתיים שלהם. כדי לתקן את המצב מפתחת מחלקת ההלוואות מסד נתונים נפרד משלה. הם יוצרים קשר עם כל לקוח, לומדים את העיסוק הנכון ומכניסים אותו למסד הנתונים שלהם.

כעת, לבנק יש שני מאגרי מידע עם אותו מידע בעצם, מלבד תחום אחד. אם מחלקה שלישית רוצה לגשת למידע באותם מסדי נתונים, לא קיימת מערכת כדי לקבוע איזה מסד נתונים מדויק. אז, המחלקה השלישית עשויה גם ליצור מסד נתונים משלה.

תרחישים דומים התרחשו בארגונים ברחבי הארץ במשך עשרות שנים.

מטמנות דיגיטליות צומחות

הצרות החלו בשנות ה-1990 עם ה טרנספורמציה דיגיטלית בּוּם. חברות פרסו תוכנה ארגונית כדי לשפר את התהליכים העסקיים שלהן. מוצרי תוכנה כשירות מ-Salesforce, למשל, אפשרו דרכים טובות יותר לניהול מערכות מכירות ושיווק.

אבל 30 שנה מאוחר יותר, תשתית עתיקה כזו הביאה לסיוט של ניהול נתונים. ממגורות נתונים שונות עם חבילות של מידע משוכפל, חלקי ושגוי מפלפל את הנוף הארגוני והמגזר הציבורי. ממגורות אלו מורכבות מתחומי עסקים, גיאוגרפיות ופונקציות שבהתאמה הן בבעלותן ומפקחות על מקורות הנתונים שלהן.

מעבר לכך, יצירת הנתונים גדלה באופן אקספוננציאלי במהלך העשורים. כל תהליך עסקי מצריך כעת תוכנה משלו, המייצרת נתונים מתמידים. יישומים מתעדים כל פעולה בבסיסי הנתונים המקוריים שלהם, ומכשולים לכריית נכסי הנתונים החדשים שנוצרו צצו.

בעשורים הקודמים, אוצר המילים המגדיר נתונים היה ספציפי לתהליך העסקי שיצר אותם. מהנדסים נאלצו לתרגם את הלקסיקונים האלה למילונים נפרדים עבור המערכות שצורכות את הנתונים. ערבויות איכות בדרך כלל לא היו קיימות. כמו בדוגמה של האסטרונאוט לעיל, נתונים שהיו ניתנים לשימוש על ידי פונקציה עסקית אחת לא היו שמישים על ידי אחרים. והנגישות לנתונים מתהליכים עסקיים מקוריים הייתה מוגבלת, במקרה הטוב, עבור פונקציות שאולי היו משיגות אופטימיזציה אחרת.

חידת ההעתקה

כדי לפתור בעיה זו, המהנדסים החלו ליצור עותקים של מסדי נתונים מקוריים מכיוון שעד לאחרונה זו הייתה האפשרות הטובה ביותר שקיימת. לאחר מכן, הם שינו את העותקים האלה כדי לעמוד בדרישות של הפונקציה הצורכת, תוך החלת כללי איכות נתונים והיגיון תיקון בלעדי לפונקציה הצורכת. הם יצרו עותקים רבים והעמיסו אותם למספר מחסני נתונים ומערכות ניתוח.

התוצאה? הצפה של עותקי מערך נתונים שנקראים כ"מלוכלכים" בחלקים מסוימים של הארגון, מה שגורם לבלבול לגבי איזה עותק הוא הנכון. לחברות יש היום מאות עותקים של נתוני מקור במאגרי נתונים תפעוליים, מסדי נתונים, מחסני נתונים, אגמי נתונים, ארגזי חול אנליטיים וגיליונות אלקטרוניים בתוך מרכזי נתונים ועננים מרובים. עם זאת, לקציני ההסברה הראשיים ולקציני הנתונים הראשיים אין שליטה על מספר העותקים שנוצרו או ידע על איזו גרסה מייצגת מקור אמיתי לאמת.

שלל מוצרי תוכנת Data Governance זמינים כדי לעשות קצת סדר בבלאגן הזה. אלה כוללים קטלוגים של נתונים, מערכות מדידת איכות נתונים ופתרון בעיות, מערכות ניהול נתוני התייחסות, מערכות ניהול נתונים מאסטר, גילוי שושלת נתונים ומערכות ניהול.

אבל התרופות האלה יקרות ודורשות זמן. פרויקט טיפוסי של ניהול נתונים מאסטר לשילוב נתוני לקוחות ממספר מקורות נתונים מקווי מוצרים שונים יכול לקחת שנים ולעלות מיליוני דולרים. במקביל, נפח הנתונים המלוכלכים גדל במהירויות העולות על המאמצים הארגוניים להתקנת בקרות וממשל.

גישות אלו רצופות פגמים. הם מסתמכים על תהליכים ידניים, היגיון פיתוח או כללים עסקיים כדי לבצע את המשימות של מלאי, מדידה ותיקון הנתונים. 

משחזר שליטה

שלוש טכנולוגיות מתפתחות מתאימות ביותר להתמודדות עם המצוקה הנוכחית: ממשל נתונים מונע בינה מלאכותית ולמידת מכונה, פלטפורמות הדדיות סמנטיות כגון גרפי ידע ומערכות הפצת נתונים כגון ספרי חשבונות מבוזרים: 

1. פתרונות Data Governance מונעי בינה מלאכותית ולמידת מכונה להפחית את התלות באנשים ובקוד. בינה מלאכותית ולמידת מכונה מחליפות עבודה ידנית בפעולות הכוללות תיוג אוטומטי, ארגון ופיקוח על מרחבים אדירים של נתונים. שינוי והגירה של ניהול נתונים מפחיתים את עלויות ה-IT. ארגונים עשויים גם לבנות ארכיטקטורות חזקות ובת קיימא יותר המעודדות איכות נתונים בקנה מידה.

2. גרפי ידע לאפשר יכולת פעולה הדדית מקורית של נכסי נתונים שונים כך שניתן לשלב ולהבין מידע בפורמט משותף. על ידי מינוף אונטולוגיות סמנטיות, ארגונים יכולים להגן על עתיד נתונים עם הקשר ופורמט משותף לשימוש חוזר על ידי מספר בעלי עניין.

3. ספרי חשבונות מחולקים, פרטיות דיפרנציאלית, ווירטואליזציה לבטל את הצורך בהעתקה פיזית של נתונים. ספרי חשבונות מבוזרים כוללים מסדי נתונים מאוחדים ומפושטים הניתנים לשימוש בין יחידות עסקיות וארגונים. פרטיות דיפרנציאלית מאפשרת להסוות נתונים כדי לעמוד בדרישות התאימות, ובו זמנית לשתף אותם עם מחזיקי עניין. וירטואליזציה מאפשרת ספינינג של נתונים בסביבה וירטואלית ולא פיזית.

ברגע שמנהלי מערכות מידע ו-CDO מבינים ששורש הבעיה הוא תשתית מדור קודם שיוצרת ממגורות נתונים, הם עשויים לשפר את הארכיטקטורות הבסיסיות ואסטרטגיות תשתית הנתונים.

נתונים מלוכלכים מגבילים את יכולתו של ארגון לקבל החלטות מושכלות ולפעול בדייקנות ובזריזות. ארגונים חייבים להשתלט על הנתונים שלהם ולעודד יכולת פעולה הדדית של נתונים, איכות ונגישות. פעולה זו תספק יתרונות תחרותיים ותמחוק פרצות אבטחה ותאימות.

בול זמן:

עוד מ קושי