כיצד פועלת מניעת כפילות נתונים? - בלוג IBM

כיצד פועלת מניעת כפילות נתונים? - בלוג IBM

צומת המקור: 3088770


כיצד פועלת מניעת כפילות נתונים? - בלוג IBM



צילום עילי של מפעל

בשנים האחרונות ניתן לראות פיצוץ בהתפשטות יחידות האחסון העצמי. יחידות המחסן הגדולות הללו צצו בארץ כתעשייה פורחת בגלל סיבה אחת - לאדם הממוצע יש כעת יותר רכוש ממה שהוא יודע מה לעשות איתם.

אותו מצב בסיסי פוגע גם בעולם ה-IT. אנחנו בעיצומו של פיצוץ של נתונים. אפילו אובייקטים יומיומיים פשוטים יחסית, מייצרים כיום נתונים באופן שגרתי בזכות עצמם אינטרנט של דברים (IOT) פונקציונליות. מעולם לא בהיסטוריה כל כך הרבה נתונים נוצרו, נאספו ונותחו. ומעולם לא עוד מנהלי נתונים נאבקו בבעיה כיצד לאחסן כל כך הרבה נתונים.

חברה עשויה בתחילה לא לזהות את הבעיה או כמה גדולה היא יכולה להיות, ואז החברה הזו צריכה למצוא פתרון אחסון מוגבר. עם הזמן, החברה עשויה גם לצמוח מעל מערכת האחסון הזו, ולדרוש עוד יותר השקעה. באופן בלתי נמנע, החברה תמאס מהמשחק הזה, ותחפש אפשרות זולה ופשוטה יותר - מה שמביא אותנו ל מניעת כפילות נתונים.

למרות שארגונים רבים עושים שימוש בטכניקות של מניעת כפילות (או "ביטול כפילות") כחלק ממערכת ניהול הנתונים שלהם, לא כמעט רבים מבינים באמת מהו תהליך מניעת הכפילויות ומה הוא נועד לעשות. אז בואו נעשה ביטול מיסטיקה של מניעת כפילויות ונסביר כיצד מניעת כפילויות נתונים עובדת.

מה עושה מניעת כפילות?

ראשית, בואו נבהיר את המונח העיקרי שלנו. מניעת כפילות נתונים הוא תהליך שארגונים משתמשים בהם כדי לייעל את אחזקות הנתונים שלהם ולהפחית את כמות הנתונים שהם מאחסנים בארכיון על ידי ביטול עותקים מיותרים של נתונים.

יתר על כן, עלינו לציין שכאשר אנו מדברים על נתונים מיותרים, אנו למעשה מדברים ברמת הקובץ ומתייחסים לריבוי משתולל של קבצי נתונים. אז כשאנחנו דנים במאמצי מניעת כפילות נתונים, זו למעשה מערכת מניעת כפילות קבצים שנדרשת.

מהי המטרה העיקרית של מניעת כפילות?

יש אנשים שיש להם מושג שגוי לגבי אופי הנתונים, ורואים בהם מצרך שפשוט קיים כדי לאסוף ולקטוף - כמו תפוחים על עץ מהחצר האחורית שלך.

המציאות היא שכל קובץ נתונים חדש עולה כסף. מלכתחילה, בדרך כלל עולה כסף להשיג נתונים כאלה (דרך רכישת רשימות נתונים). או שזה דורש השקעה כספית ניכרת כדי שארגון יוכל לאסוף וללקט נתונים בעצמו, גם אם מדובר בנתונים שהארגון עצמו מייצר ואוסוף באופן אורגני. מערכי נתונים, אם כן, הם השקעה, וכמו כל השקעה יקרת ערך, יש להגן עליהם בקפדנות.

במקרה זה, אנו מדברים על שטח אחסון נתונים - בין אם זה בצורה של שרתי חומרה מקומיים או באמצעות אחסון ענן דרך מבוסס ענן מרכז הנתונים- שיש לרכוש או להשכרה.

עותקים כפולים של נתונים שעברו שכפול, אם כן, פוגעים בשורה התחתונה על ידי הטלת עלויות אחסון נוספות מעבר לאלו הקשורות למערכת האחסון הראשית ולשטח האחסון שלה. בקיצור, יש להקדיש יותר נכסי מדיה לאחסון כדי להכיל גם נתונים חדשים וגם נתונים שכבר מאוחסנים. בשלב מסוים במסלול של חברה, נתונים כפולים יכולים להפוך בקלות להתחייבות פיננסית.

לכן, לסיכום, המטרה העיקרית של מניעת כפילות נתונים היא לחסוך כסף על ידי מתן אפשרות לארגונים להוציא פחות על אחסון נוסף.

יתרונות נוספים של מניעת כפילות

ישנן גם סיבות אחרות מעבר ליכולת האחסון של חברות לאמץ פתרונות מניעת כפילויות של נתונים - כנראה שאין יותר חיוניות מהגנת הנתונים והשיפור שהם מספקים. ארגונים משכללים ומבצעים אופטימיזציה של עומסי עבודה של נתונים משוכפלים, כך שהם יפעלו ביעילות רבה יותר מנתונים גדושים בקבצים כפולים.

היבט חשוב נוסף של דפדוף הוא איך זה עוזר להעצים יצירה מהירה ומוצלחת אסון מאמץ התאוששות וממזער את כמות אובדן הנתונים שיכולה לנבוע לעתים קרובות מאירוע כזה. Dedupe מסייע לאפשר תהליך גיבוי יציב כך שמערכת הגיבוי של הארגון שווה למשימה של טיפול בנתוני הגיבוי שלו. בנוסף לעזרה בגיבוי מלא, dedupe מסייעת גם במאמצי השמירה.

יתרון נוסף של מניעת כפילות נתונים הוא עד כמה זה עובד בשילוב עם תשתית שולחן עבודה וירטואלי (VDI) פריסות, הודות לעובדה שהדיסקים הקשיחים הווירטואליים מאחורי שולחנות העבודה המרוחקים של ה-VDI פועלים באופן זהה. פופולרי שולחן עבודה כשירות (DaaS) המוצרים כוללים את Azure Virtual Desktop מבית Microsoft ו-Windows VDI שלה. מוצרים אלה יוצרים מכונות וירטואליות (VMs), שנוצרים במהלך תהליך הווירטואליזציה של השרת. בתורם, מכונות וירטואליות אלו מעצימות את טכנולוגיית ה-VDI.

מתודולוגיית מניעת כפילות

הצורה הנפוצה ביותר של מניעת כפילות נתונים היא מניעת כפילות בלוק. שיטה זו פועלת על ידי שימוש בפונקציות אוטומטיות כדי לזהות כפילויות בגושי נתונים ולאחר מכן להסיר את הכפילויות הללו. על ידי עבודה ברמת בלוק זו, ניתן לנתח נתחים ייחודיים ולציין אותם כראויים לאימות ולשימור. לאחר מכן, כאשר תוכנת מניעת הכפילויות מזהה חזרה על אותו בלוק נתונים, החזרה הזו מוסרת ובמקומה נכללת הפניה לנתונים המקוריים.

זו הצורה העיקרית של דה-דופ, אבל בקושי השיטה היחידה. במקרים אחרים של שימוש, שיטה חלופית של מניעת כפילות נתונים פועלת ברמת הקובץ. אחסון של מופע יחיד משווה עותקים מלאים של נתונים בתוך שרת הקבצים, אך לא גושים או בלוקים של נתונים. כמו השיטה המקבילה שלה, מניעת כפילויות של קבצים תלויה בשמירה על הקובץ המקורי בתוך מערכת הקבצים ובהסרת עותקים נוספים.

יש לציין שטכניקות מניעת כפילויות אינן פועלות באותה צורה כמו אלגוריתמי דחיסת נתונים (לדוגמה, LZ77, LZ78), אם כי זה נכון ששניהם חותרים לאותה מטרה כללית של הפחתת יתירות נתונים. טכניקות מניעת כפילויות משיגות זאת בקנה מידה גדול יותר של מאקרו מאלגוריתמי דחיסה, שמטרתם היא פחות על החלפת קבצים זהים בעותקים משותפים ויותר על קידוד יעיל יותר של יתירות נתונים.

סוגי מניעת כפילות נתונים

ישנם סוגים שונים של מניעת כפילויות נתונים בהתאם מתי תהליך מניעת הכפילויות מתרחש:

  • מניעת כפילות מוטבעת: צורה זו של מניעת כפילות נתונים מתרחשת ברגע - בזמן אמת - כאשר הנתונים זורמים בתוך מערכת האחסון. מערכת dedupe המוטבעת נושאת פחות תעבורת נתונים מכיוון שהיא לא מעבירה ולא מאחסנת נתונים משוכפלים. זה יכול להוביל להפחתת הכמות הכוללת של רוחב הפס הדרוש לאותו ארגון.
  • מניעת כפילויות לאחר תהליך: סוג זה של מניעת כפילויות מתרחש לאחר כתיבת נתונים והצבה על סוג כלשהו של התקן אחסון.

כאן כדאי להסביר ששני סוגי מניעת כפילויות הנתונים מושפעים מחישובי הגיבוב הטבועים במניעת כפילות נתונים. אלה קריפטוגרפי חישובים הם חלק בלתי נפרד מזיהוי דפוסים חוזרים ונשנים בנתונים. במהלך מניעת כפילויות בתוך השורה, החישובים הללו מבוצעים ברגע, מה שיכול להשתלט ולהכריע באופן זמני את פונקציונליות המחשב. בביטול הכפילויות שלאחר עיבוד, ניתן לבצע את חישובי הגיבוב בכל עת לאחר הוספת הנתונים באופן ובזמן שאינו מכביד על משאבי המחשב של הארגון.

ההבדלים העדינים בין סוגי מניעת כפילויות לא מסתיימים בכך. דרך נוספת לסווג סוגי מניעת כפילויות מבוססת על איפה תהליכים כאלה מתרחשים.

  • מניעת כפילות מקור: צורה זו של מניעת כפילויות מתרחשת בסמוך למקום שבו נתונים חדשים נוצרים בפועל. המערכת סורקת אזור זה ומזהה עותקים חדשים של קבצים, אשר מוסרים לאחר מכן.
  • מניעת כפילויות יעד: סוג אחר של מניעת כפילויות הוא כמו היפוך של מניעת כפילויות מקור. במניעת כפילויות יעד, המערכת מבטלת את הכפילות של כל עותקים שנמצאים באזורים שאינם המקום שבו נוצרו הנתונים המקוריים.

מכיוון שישנם סוגים שונים של מניעת כפילות, ארגונים הנוטים קדימה חייבים לקבל החלטות זהירות ושקולות לגבי סוג מניעת הכפילויות הנבחר, תוך איזון שיטה זו מול הצרכים המיוחדים של אותה חברה.

במקרים רבים של שימוש, שיטת הבחירה של מניעת כפילות עשויה להסתכם במגוון משתנים פנימיים, כגון:

  • כמה ואיזה סוג של מערכי נתונים נוצרים
  • מערכת האחסון העיקרית של הארגון
  • אילו סביבות וירטואליות נמצאות בשימוש
  • על אילו אפליקציות החברה מסתמכת

פיתוחים אחרונים של מניעת כפילות נתונים

כמו כל פלט מחשב, מניעת כפילות נתונים מוכנה לעשות בו שימוש הולך וגובר בינה מלאכותית (AI) ככל שהוא ממשיך להתפתח. Dedupe תלך ותשתכלל ככל שהיא מפתחת אפילו יותר ניואנסים המסייעים לה במרדף אחר דפוסי יתירות כאשר גושי נתונים נסרקים.

אחת המגמה המתפתחת ב-dedupe היא למידת חיזוק. זה משתמש במערכת של תגמולים ועונשים (כמו באימוני חיזוק) ומחיל מדיניות אופטימלית להפרדת רשומות או מיזוגם במקום זאת.

מגמה נוספת ששווה צפייה היא השימוש בשיטות אנסמבל, שבהן נעשה שימוש במודלים או אלגוריתמים שונים במקביל כדי להבטיח דיוק גדול עוד יותר בתהליך ה-dedupe.

הדילמה המתמשכת

עולם ה-IT הופך להיות מקובע יותר ויותר בסוגיה המתמשכת של הפצת נתונים ומה לעשות בנידון. חברות רבות מוצאות את עצמן במצב מביך של בו-זמנית לרצות לשמור את כל הנתונים שהם עבדו לצבור, וגם רוצות לתקוע את הנתונים החדשים העולים על גדותיהם בכל מיכל אחסון אפשרי, ולו רק כדי להוציא אותם מהדרך.

למרות שדילמה כזו נמשכת, הדגש על מאמצי מניעת כפילות הנתונים יימשך מכיוון שארגונים רואים ב-dedupe את החלופה הזולה יותר לרכישת אחסון נוסף. כי בסופו של דבר, למרות שאנו מבינים באופן אינטואיטיבי שהעסק זקוק לנתונים, אנו גם יודעים שלעתים קרובות מאוד נתונים דורשים ביטול כפילות.

למד כיצד IBM Storage FlashSystem יכולה לעזור לך עם צרכי האחסון שלך

האם המאמר הזה היה מועיל?

ישלא


עוד מ-Cloud




המשכיות עסקית לעומת התאוששות מאסון: איזו תוכנית מתאימה לך?

7 דקות לקרוא - המשכיות עסקית ותוכניות התאוששות מאסון הן אסטרטגיות לניהול סיכונים שעסקים מסתמכים עליהן כדי להתכונן לתקריות בלתי צפויות. למרות שהמונחים קשורים קשר הדוק, ישנם כמה הבדלים עיקריים שכדאי לקחת בחשבון בעת ​​בחירת מה שמתאים עבורך: תוכנית המשכיות עסקית (BCP): BCP היא תוכנית מפורטת המתארת ​​את הצעדים שארגון ינקוט כדי לחזור לפעילות עסקית רגילה ב- אירוע של אסון. כאשר סוגים אחרים של תוכניות עשויים להתמקד בהיבט אחד ספציפי של התאוששות והפרעה...




IBM Tech Now: 29 בינואר 2024

<1 דקות לקרוא - ברוכים הבאים ל-IBM Tech Now, סדרת הווידאו האינטרנט שלנו המציגה את החדשות וההכרזות האחרונות והטובות ביותר בעולם הטכנולוגיה. הקפד להירשם לערוץ YouTube שלנו כדי לקבל הודעה בכל פעם שמתפרסם סרטון חדש של IBM Tech Now. IBM Tech Now: פרק 91 בפרק זה, אנו מכסים את הנושאים הבאים: IBM Think 2024 IBM Cloud Reservations on IBM Cloud Virtual Servers for Green Quadrant של VPC Verdantix הישאר מחובר לחשמל אתה יכול לבדוק את IBM...




עכשיו לוקח הזמנות: IBM Cloud Virtual Servers for VPC

2 דקות לקרוא - כאשר ארגונים פועלים לצמצום ההוצאות בתוך סביבות ענן ארגוניות, הם מתמודדים לעתים קרובות עם האתגר של התאמה אחת לכל אפשרויות התשלום באמצעות ספקי הענן שלהם. כאשר מפות הדרכים וסדרי העדיפויות משתנות על רקע ההון המופחת וההקפדה על החזר ה-ROI, ארגונים שואפים למזער את סיכון ההוצאות לאורך השנה וליצור סביבות תקציב צפויות יותר. כשזה מגיע לעיצוב פעולות מחשוב הענן שלך, תכנון מתקדם משתלם עם הזמנות בענן של IBM בשרתים וירטואליים בענן של IBM עבור VPC. מה הם IBM…




כיצד לבנות אסטרטגיית התאוששות מאסון מוצלחת

6 דקות לקרוא - בין אם התעשייה שלכם מתמודדת עם אתגרים מעימותים גיאופוליטיים, נפילות ממגיפה עולמית או תוקפנות גוברת במרחב אבטחת הסייבר, וקטור האיום על ארגונים מודרניים הוא ללא ספק רב עוצמה. אסטרטגיות התאוששות מאסון מספקות את המסגרת לחברי הצוות להחזיר את העסק לפעול לאחר אירוע לא מתוכנן. ברחבי העולם, הפופולריות של אסטרטגיות התאוששות מאסון הולכת וגוברת באופן מובן. בשנה שעברה, חברות הוציאו 219 מיליארד דולר על אבטחת סייבר ופתרונות בלבד, עלייה של 12% משנת 2022, על פי דו"ח אחרון של...

ניוזלטרים של יבמ

קבל את הניוזלטרים ועדכוני הנושא שלנו המספקים את המנהיגות החשיבתית העדכנית ביותר ותובנות לגבי מגמות מתפתחות.

הירשם עכשיו

עוד עלונים

בול זמן:

עוד מ יבמ