Πώς λειτουργεί η αφαίρεση των αντιγράφων δεδομένων; - Ιστολόγιο της IBM

Πώς λειτουργεί η αφαίρεση των αντιγράφων δεδομένων; – Ιστολόγιο της IBM

Κόμβος πηγής: 3088770


Πώς λειτουργεί η αφαίρεση των αντιγράφων δεδομένων; – Ιστολόγιο της IBM



Εναέρια λήψη ενός εργοστασίου

Τα τελευταία χρόνια υπήρξε μάρτυρας μιας έκρηξης στον πολλαπλασιασμό των μονάδων αυτοαποθήκευσης. Αυτές οι μεγάλες μονάδες αποθήκης έχουν αναδυθεί σε εθνικό επίπεδο ως μια ανερχόμενη βιομηχανία για έναν λόγο - ο μέσος άνθρωπος έχει τώρα περισσότερα υπάρχοντα από όσα ξέρει τι να κάνει.

Η ίδια βασική κατάσταση μαστίζει και τον κόσμο της πληροφορικής. Βρισκόμαστε στη μέση μιας έκρηξης δεδομένων. Ακόμη και σχετικά απλά, καθημερινά αντικείμενα δημιουργούν πλέον δεδομένα από μόνα τους χάρη σε αυτά Το Ίντερνετ των πραγμάτων (IoT) λειτουργικότητα. Ποτέ άλλοτε στην ιστορία δεν έχουν δημιουργηθεί, συγκεντρωθεί και αναλυθεί τόσα πολλά δεδομένα. Και ποτέ άλλοτε περισσότεροι διαχειριστές δεδομένων δεν έχουν παλέψει με το πρόβλημα του πώς να αποθηκεύουν τόσα πολλά δεδομένα.

Μια εταιρεία μπορεί αρχικά να αποτύχει να αναγνωρίσει το πρόβλημα ή πόσο μεγάλο μπορεί να γίνει, και στη συνέχεια αυτή η εταιρεία πρέπει να βρει μια λύση αυξημένης αποθήκευσης. Με τον καιρό, η εταιρεία μπορεί επίσης να ξεπεράσει αυτό το σύστημα αποθήκευσης, απαιτώντας ακόμη περισσότερες επενδύσεις. Αναπόφευκτα, η εταιρεία θα κουραστεί από αυτό το παιχνίδι και θα αναζητήσει μια φθηνότερη και απλούστερη επιλογή—η οποία μας οδηγεί σε αντιγραφή δεδομένων.

Αν και πολλοί οργανισμοί κάνουν χρήση τεχνικών αφαίρεσης διπλότυπων δεδομένων (ή «dedupe») ως μέρος του συστήματος διαχείρισης δεδομένων τους, δεν είναι σχεδόν τόσοι πολλοί που καταλαβαίνουν πραγματικά τι είναι η διαδικασία κατάργησης διπλότυπων και τι προορίζεται να κάνει. Λοιπόν, ας απομυθοποιήσουμε το dedupe και ας εξηγήσουμε πώς λειτουργεί η deduplication.

Τι κάνει το deduplication;

Αρχικά, ας διευκρινίσουμε τον κύριο όρο μας. Η κατάργηση διπλότυπων δεδομένων είναι μια διαδικασία που χρησιμοποιούν οι οργανισμοί για να εξορθολογίσουν τα δεδομένα τους και να μειώσουν τον όγκο των δεδομένων που αρχειοθετούν εξαλείφοντας τα περιττά αντίγραφα δεδομένων.

Επιπλέον, θα πρέπει να επισημάνουμε ότι όταν μιλάμε για περιττά δεδομένα, στην πραγματικότητα μιλάμε σε επίπεδο αρχείου και αναφερόμαστε σε αχαλίνωτο πολλαπλασιασμό αρχείων δεδομένων. Έτσι, όταν συζητάμε τις προσπάθειες αφαίρεσης διπλότυπων δεδομένων, είναι στην πραγματικότητα ένα σύστημα κατάργησης διπλότυπων αρχείων που χρειάζεται.

Ποιος είναι ο κύριος στόχος του deduplication;

Μερικοί άνθρωποι έχουν μια εσφαλμένη αντίληψη σχετικά με τη φύση των δεδομένων, θεωρώντας τα ως ένα εμπόρευμα που υπάρχει απλώς για να συλλέγεται και να συγκομίζεται - όπως τα μήλα από ένα δέντρο από την αυλή σας.

Η πραγματικότητα είναι ότι κάθε νέο αρχείο δεδομένων κοστίζει χρήματα. Καταρχήν, συνήθως κοστίζει χρήματα η απόκτηση τέτοιων δεδομένων (μέσω της αγοράς λιστών δεδομένων). Ή απαιτεί σημαντικές οικονομικές επενδύσεις για να μπορέσει ένας οργανισμός να συλλέξει και να συλλέξει δεδομένα μόνος του, ακόμα κι αν είναι δεδομένα που ο ίδιος ο οργανισμός παράγει και συλλέγει οργανικά. Τα σύνολα δεδομένων, επομένως, αποτελούν επένδυση και, όπως κάθε πολύτιμη επένδυση, πρέπει να προστατεύονται αυστηρά.

Σε αυτήν την περίπτωση, μιλάμε για χώρο αποθήκευσης δεδομένων — είτε με τη μορφή διακομιστών υλικού εσωτερικού χώρου είτε μέσω αποθήκευσης σύννεφο μέσω ενός cloud-based κέντρο δεδομένων— που πρέπει να αγοραστεί ή να μισθωθεί.

Ως εκ τούτου, τα διπλά αντίγραφα δεδομένων που έχουν υποστεί αναπαραγωγή, μειώνουν την ουσία, επιβάλλοντας πρόσθετο κόστος αποθήκευσης πέρα ​​από αυτά που σχετίζονται με το πρωτεύον σύστημα αποθήκευσης και τον αποθηκευτικό του χώρο. Εν ολίγοις, πρέπει να αφιερωθούν περισσότερα στοιχεία μέσων αποθήκευσης για την υποδοχή τόσο των νέων δεδομένων όσο και των ήδη αποθηκευμένων δεδομένων. Σε κάποιο σημείο στην πορεία μιας εταιρείας, τα διπλά δεδομένα μπορούν εύκολα να γίνουν χρηματοοικονομική υποχρέωση.

Έτσι, για να συνοψίσουμε, ο κύριος στόχος της αφαίρεσης αντιγράφων δεδομένων είναι η εξοικονόμηση χρημάτων επιτρέποντας στους οργανισμούς να ξοδεύουν λιγότερα για επιπλέον αποθήκευση.

Πρόσθετα πλεονεκτήματα της αφαίρεσης αντιγράφων

Υπάρχουν επίσης και άλλοι λόγοι πέρα ​​από την ικανότητα αποθήκευσης για τις εταιρείες για να υιοθετήσουν λύσεις αφαίρεσης αντιγράφων δεδομένων - πιθανώς κανένας πιο ουσιαστικός από την προστασία και τη βελτίωση δεδομένων που παρέχουν. Οι οργανισμοί βελτιστοποιούν και βελτιστοποιούν τους φόρτους εργασίας δεδομένων χωρίς αντίγραφα, ώστε να εκτελούνται πιο αποτελεσματικά από τα δεδομένα που είναι γεμάτα από διπλότυπα αρχεία.

Μια άλλη σημαντική πτυχή του dedupe είναι πώς βοηθά στην ενδυνάμωση ενός γρήγορου και επιτυχημένου καταστροφή προσπάθεια ανάκτησης και ελαχιστοποιεί την απώλεια δεδομένων που μπορεί συχνά να προκύψει από ένα τέτοιο συμβάν. Το Dedupe βοηθά στην ενεργοποίηση μιας εύρωστης διαδικασίας δημιουργίας αντιγράφων ασφαλείας, έτσι ώστε το σύστημα δημιουργίας αντιγράφων ασφαλείας ενός οργανισμού να είναι ίσο με το έργο του χειρισμού των δεδομένων αντιγράφων ασφαλείας του. Εκτός από τη βοήθεια με πλήρη αντίγραφα ασφαλείας, το dedupe βοηθά επίσης στις προσπάθειες διατήρησης.

Ακόμα ένα άλλο πλεονέκτημα της αφαίρεσης των δεδομένων είναι το πόσο καλά λειτουργεί σε συνδυασμό με εικονική υποδομή επιφάνειας εργασίας (VDI) αναπτύξεις, χάρη στο γεγονός ότι οι εικονικοί σκληροί δίσκοι πίσω από τους απομακρυσμένους επιτραπέζιους υπολογιστές του VDI λειτουργούν πανομοιότυπα. Δημοφιλής Επιφάνεια εργασίας ως υπηρεσία (DaaS) Τα προϊόντα περιλαμβάνουν το Azure Virtual Desktop από τη Microsoft και τα Windows VDI της. Αυτά τα προϊόντα δημιουργούν εικονικές μηχανές (VM), τα οποία δημιουργούνται κατά τη διαδικασία εικονικοποίησης διακομιστή. Με τη σειρά τους, αυτές οι εικονικές μηχανές ενισχύουν την τεχνολογία VDI.

Μεθοδολογία αποδιπλασιασμού

Η πιο συχνά χρησιμοποιούμενη μορφή αφαίρεσης διπλότυπων δεδομένων είναι η αφαίρεση διπλότυπων μπλοκ. Αυτή η μέθοδος λειτουργεί με τη χρήση αυτοματοποιημένων συναρτήσεων για τον εντοπισμό διπλοτυπιών σε μπλοκ δεδομένων και στη συνέχεια την κατάργηση αυτών των διπλογράφων. Δουλεύοντας σε αυτό το επίπεδο μπλοκ, κομμάτια μοναδικών δεδομένων μπορούν να αναλυθούν και να προσδιοριστούν ως άξια επικύρωσης και διατήρησης. Στη συνέχεια, όταν το λογισμικό αφαίρεσης αντιγράφων ανιχνεύσει μια επανάληψη του ίδιου μπλοκ δεδομένων, αυτή η επανάληψη αφαιρείται και στη θέση του περιλαμβάνεται μια αναφορά στα αρχικά δεδομένα.

Αυτή είναι η κύρια μορφή dedupe, αλλά σχεδόν η μόνη μέθοδος. Σε άλλες περιπτώσεις χρήσης, μια εναλλακτική μέθοδος αφαίρεσης διπλότυπων δεδομένων λειτουργεί σε επίπεδο αρχείου. Η αποθήκευση μιας παρουσίας συγκρίνει πλήρη αντίγραφα δεδομένων εντός του διακομιστή αρχείων, αλλά όχι κομμάτια ή μπλοκ δεδομένων. Όπως και η αντίστοιχη μέθοδος, η κατάργηση διπλότυπων αρχείων εξαρτάται από τη διατήρηση του αρχικού αρχείου εντός του συστήματος αρχείων και την αφαίρεση επιπλέον αντιγράφων.

Θα πρέπει να σημειωθεί ότι οι τεχνικές αποδιπλοποίησης δεν λειτουργούν με τον ίδιο τρόπο όπως οι αλγόριθμοι συμπίεσης δεδομένων (π.χ. LZ77, LZ78), αν και είναι αλήθεια ότι και οι δύο επιδιώκουν τον ίδιο γενικό στόχο μείωσης των πλεονασμάτων δεδομένων. Οι τεχνικές αποδιπλασιασμού το επιτυγχάνουν σε μεγαλύτερη, μακρο κλίμακα από τους αλγόριθμους συμπίεσης, ο στόχος των οποίων είναι λιγότερο η αντικατάσταση πανομοιότυπων αρχείων με κοινόχρηστα αντίγραφα και περισσότερο η πιο αποτελεσματική κωδικοποίηση πλεονασμάτων δεδομένων.

Τύποι αντιγραφής δεδομένων

Υπάρχουν διάφοροι τύποι αντιγραφής δεδομένων ανάλογα πότε πραγματοποιείται η διαδικασία αποδιπλοποίησης:

  • Ενσωματωμένη αντιγραφή: Αυτή η μορφή διαγραφής δεδομένων εμφανίζεται τη στιγμή - σε πραγματικό χρόνο - καθώς τα δεδομένα ρέουν μέσα στο σύστημα αποθήκευσης. Το ενσωματωμένο σύστημα dedupe μεταφέρει λιγότερη κίνηση δεδομένων επειδή ούτε μεταφέρει ούτε αποθηκεύει διπλότυπα δεδομένα. Αυτό μπορεί να οδηγήσει σε μείωση του συνολικού εύρους ζώνης που χρειάζεται ο συγκεκριμένος οργανισμός.
  • Αποδιπλασιασμός μετά τη διαδικασία: Αυτός ο τύπος αντιγραφής πραγματοποιείται αφού τα δεδομένα έχουν γραφτεί και τοποθετηθεί σε κάποιο τύπο συσκευής αποθήκευσης.

Εδώ αξίζει να εξηγήσουμε ότι και οι δύο τύποι διαγραφής δεδομένων επηρεάζονται από τους υπολογισμούς κατακερματισμού που είναι εγγενείς στη διαγραφή δεδομένων. Αυτά τα κρυπτογραφικό Οι υπολογισμοί αποτελούν αναπόσπαστο κομμάτι για τον εντοπισμό επαναλαμβανόμενων μοτίβων στα δεδομένα. Κατά τη διάρκεια των in-line deduplications, αυτοί οι υπολογισμοί εκτελούνται στη στιγμή, οι οποίοι μπορούν να κυριαρχήσουν και να υπερκαλύψουν προσωρινά τη λειτουργικότητα του υπολογιστή. Στις αποδιπλώσεις μετά την επεξεργασία, οι υπολογισμοί κατακερματισμού μπορούν να εκτελεστούν ανά πάσα στιγμή μετά την προσθήκη των δεδομένων με τρόπο και σε χρόνο που δεν υπερφορολογεί τους πόρους του υπολογιστή του οργανισμού.

Οι λεπτές διαφορές μεταξύ των τύπων deduplication δεν σταματούν εκεί. Ένας άλλος τρόπος ταξινόμησης των τύπων αποδιπλασιασμού βασίζεται σε όπου συμβαίνουν τέτοιες διαδικασίες.

  • Αφαίρεση της πηγής: Αυτή η μορφή αποδιπλασιασμού λαμβάνει χώρα κοντά στο σημείο όπου παράγονται πραγματικά νέα δεδομένα. Το σύστημα σαρώνει αυτήν την περιοχή και εντοπίζει νέα αντίγραφα αρχείων, τα οποία στη συνέχεια αφαιρούνται.
  • Αντιγραφή στόχου: Ένας άλλος τύπος αποδιπλασιασμού είναι σαν μια αντιστροφή της αποδιπλασιασμού πηγής. Στην αντιγραφή προορισμού, το σύστημα αφαιρεί αντίγραφα τυχόν αντιγράφων που βρίσκονται σε περιοχές διαφορετικές από εκείνες που δημιουργήθηκαν τα αρχικά δεδομένα.

Επειδή υπάρχουν διαφορετικοί τύποι απαλληλόγραφων που εφαρμόζονται, οι προσανατολισμένοι προς το μέλλον οργανισμοί πρέπει να λαμβάνουν προσεκτικές και μελετημένες αποφάσεις σχετικά με τον τύπο της αποδιπλοποίησης που επιλέγεται, εξισορροπώντας αυτή τη μέθοδο με τις ιδιαίτερες ανάγκες αυτής της εταιρείας.

Σε πολλές περιπτώσεις χρήσης, η επιλεγμένη μέθοδος κατάργησης διπλότυπων ενός οργανισμού μπορεί κάλλιστα να οφείλεται σε μια ποικιλία εσωτερικών μεταβλητών, όπως οι ακόλουθες:

  • Πόσα και τι είδους σύνολα δεδομένων δημιουργούνται
  • Το κύριο σύστημα αποθήκευσης του οργανισμού
  • Ποια εικονικά περιβάλλοντα χρησιμοποιούνται
  • Σε ποιες εφαρμογές βασίζεται η εταιρεία

Πρόσφατες εξελίξεις αφαίρεσης αντιγράφων δεδομένων

Όπως όλες οι εξόδους υπολογιστή, η αφαίρεση των αντιγράφων δεδομένων είναι έτοιμη να κάνει ολοένα και μεγαλύτερη χρήση τεχνητή νοημοσύνη (AI) καθώς συνεχίζει να εξελίσσεται. Το Dedupe θα εξελίσσεται ολοένα και πιο εξελιγμένο καθώς αναπτύσσει ακόμη περισσότερες αποχρώσεις που το βοηθούν στην επιδίωξη εύρεσης μοτίβων πλεονασμού καθώς σαρώνονται μπλοκ δεδομένων.

Μια αναδυόμενη τάση στο dedupe είναι η ενισχυτική μάθηση. Αυτό χρησιμοποιεί ένα σύστημα ανταμοιβών και κυρώσεων (όπως στην εκπαίδευση ενίσχυσης) και εφαρμόζει μια βέλτιστη πολιτική για το διαχωρισμό των εγγραφών ή τη συγχώνευσή τους.

Μια άλλη τάση που αξίζει να παρακολουθήσετε είναι η χρήση μεθόδων συνόλου, στις οποίες χρησιμοποιούνται διαφορετικά μοντέλα ή αλγόριθμοι σε συνδυασμό για να διασφαλιστεί ακόμη μεγαλύτερη ακρίβεια στη διαδικασία dedupe.

Το συνεχιζόμενο δίλημμα

Ο κόσμος της πληροφορικής προσηλώνεται ολοένα και περισσότερο στο συνεχιζόμενο ζήτημα της διάδοσης δεδομένων και στο τι πρέπει να γίνει για αυτό. Πολλές εταιρείες βρίσκονται στη δύσκολη θέση να θέλουν ταυτόχρονα να διατηρήσουν όλα τα δεδομένα που έχουν εργαστεί για να συγκεντρώσουν και επίσης να θέλουν να κολλήσουν τα νέα δεδομένα που ξεχειλίζουν σε οποιοδήποτε δοχείο αποθήκευσης είναι δυνατό, έστω και μόνο για να τα βγάλουν από τη μέση.

Ενώ ένα τέτοιο δίλημμα παραμένει, η έμφαση στις προσπάθειες αφαίρεσης διπλών δεδομένων θα συνεχιστεί καθώς οι οργανισμοί θεωρούν το dedupe ως τη φθηνότερη εναλλακτική από την αγορά περισσότερου αποθηκευτικού χώρου. Γιατί τελικά, παρόλο που κατανοούμε διαισθητικά ότι η επιχείρηση χρειάζεται δεδομένα, γνωρίζουμε επίσης ότι τα δεδομένα πολύ συχνά απαιτούν αφαίρεση των αντιγράφων.

Μάθετε πώς το IBM Storage FlashSystem μπορεί να σας βοηθήσει με τις ανάγκες αποθήκευσης

Το άρθρο αυτό ήταν χρήσιμο;

ΝαιΟχι


Περισσότερα από το Cloud




Επιχειρησιακή συνέχεια έναντι αποκατάστασης από καταστροφές: Ποιο σχέδιο είναι κατάλληλο για εσάς;

7 min διαβάστε - Τα σχέδια επιχειρηματικής συνέχειας και αποκατάστασης από καταστροφές είναι στρατηγικές διαχείρισης κινδύνου στις οποίες βασίζονται οι επιχειρήσεις για να προετοιμαστούν για απροσδόκητα συμβάντα. Αν και οι όροι συνδέονται στενά, υπάρχουν ορισμένες βασικές διαφορές που αξίζει να λάβετε υπόψη όταν επιλέγετε ποιο είναι κατάλληλο για εσάς: Σχέδιο επιχειρηματικής συνέχειας (BCP): Το BCP είναι ένα λεπτομερές σχέδιο που περιγράφει τα βήματα που θα κάνει ένας οργανισμός για να επιστρέψει στις κανονικές επιχειρηματικές λειτουργίες το γεγονός μιας καταστροφής. Όπου άλλοι τύποι σχεδίων μπορεί να επικεντρωθούν σε μια συγκεκριμένη πτυχή ανάκαμψης και διακοπής…




IBM Tech Now: 29 Ιανουαρίου 2024

<1 min διαβάστε - ​Καλώς ήρθατε στην IBM Tech Now, τη σειρά ιστού βίντεο μας που περιλαμβάνει τα τελευταία και σπουδαιότερα νέα και ανακοινώσεις στον κόσμο της τεχνολογίας. Βεβαιωθείτε ότι έχετε εγγραφεί στο κανάλι μας στο YouTube για να ενημερώνεστε κάθε φορά που δημοσιεύεται ένα νέο βίντεο της IBM Tech Now. IBM Tech Now: Επεισόδιο 91 Σε αυτό το επεισόδιο, καλύπτουμε τα ακόλουθα θέματα: IBM Think 2024 Κρατήσεις IBM Cloud σε εικονικούς διακομιστές IBM Cloud για το πράσινο τεταρτημόριο του VPC Verdantix Μείνετε συνδεδεμένοι Μπορείτε να δείτε το IBM…




Τώρα λαμβάνετε κρατήσεις: IBM Cloud Virtual Servers για VPC

2 min διαβάστε - Καθώς οι οργανισμοί εργάζονται για τη μείωση των δαπανών σε εταιρικά περιβάλλοντα cloud, συχνά αντιμετωπίζουν την πρόκληση των επιλογών πληρωμής που ταιριάζουν στο ένα μέγεθος μέσω των παρόχων cloud τους. Καθώς οι χάρτες πορείας και οι προτεραιότητες μετατοπίζονται στο πλαίσιο του μειωμένου κεφαλαίου και της αυστηρότερης απόδοσης επένδυσης, οι οργανισμοί στοχεύουν να ελαχιστοποιήσουν τον κίνδυνο δαπανών καθ' όλη τη διάρκεια του έτους και να δημιουργήσουν πιο προβλέψιμα περιβάλλοντα προϋπολογισμού. Όταν πρόκειται για το σχεδιασμό των λειτουργιών σας στο cloud computing, ο προηγμένος σχεδιασμός αποδίδει καρπούς με το IBM Cloud Reservations σε IBM Cloud Virtual Servers για VPC. Τι είναι η IBM…




Πώς να δημιουργήσετε μια επιτυχημένη στρατηγική αποκατάστασης από καταστροφές

6 min διαβάστε - Είτε ο κλάδος σας αντιμετωπίζει προκλήσεις από γεωπολιτικές διαμάχες, επιπτώσεις από μια παγκόσμια πανδημία ή αυξανόμενη επιθετικότητα στον χώρο της κυβερνοασφάλειας, ο φορέας απειλής για τις σύγχρονες επιχειρήσεις είναι αναμφισβήτητα ισχυρός. Οι στρατηγικές ανάκαμψης από καταστροφές παρέχουν το πλαίσιο για τα μέλη της ομάδας για να επαναφέρουν τη λειτουργία της επιχείρησης μετά από ένα απρογραμμάτιστο συμβάν. Σε όλο τον κόσμο, η δημοτικότητα των στρατηγικών αποκατάστασης από καταστροφές είναι κατανοητό να αυξάνεται. Πέρυσι, οι εταιρείες δαπάνησαν 219 δισεκατομμύρια δολάρια μόνο για την ασφάλεια στον κυβερνοχώρο και τις λύσεις, σημειώνοντας αύξηση 12% από το 2022, σύμφωνα με πρόσφατη έκθεση της…

Ενημερωτικά δελτία IBM

Λάβετε τα ενημερωτικά δελτία μας και τις ενημερώσεις θεμάτων που παρέχουν την πιο πρόσφατη ηγεσία σκέψης και πληροφορίες σχετικά με τις αναδυόμενες τάσεις.

Εγγραφή τώρα

Περισσότερα ενημερωτικά δελτία

Σφραγίδα ώρας:

Περισσότερα από IBM