Wie funktioniert die Datendeduplizierung? - IBM-Blog

Wie funktioniert die Datendeduplizierung? – IBM-Blog

Quellknoten: 3088770


Wie funktioniert die Datendeduplizierung? – IBM-Blog



Draufsicht auf eine Fabrik

In den letzten Jahren kam es zu einem explosionsartigen Anstieg der Verbreitung von Selfstorage-Einheiten. Diese großen Lagerhallen haben sich landesweit zu einer boomenden Industrie entwickelt, und zwar aus einem Grund: Der durchschnittliche Mensch verfügt heute über mehr Besitztümer, als er damit anzufangen weiß.

Die gleiche Grundsituation herrscht auch in der IT-Welt. Wir befinden uns mitten in einer Datenexplosion. Sogar relativ einfache Alltagsgegenstände generieren dank dieser mittlerweile routinemäßig selbst Daten Internet der Dinge (IoT) Funktionalität. Noch nie in der Geschichte wurden so viele Daten erstellt, gesammelt und analysiert. Und noch nie haben sich mehr Datenmanager mit dem Problem auseinandergesetzt, wie so viele Daten gespeichert werden sollen.

Ein Unternehmen erkennt das Problem möglicherweise zunächst nicht oder erkennt nicht, wie groß es werden kann, und muss dann eine Lösung für mehr Speicher finden. Mit der Zeit könnte das Unternehmen auch aus diesem Speichersystem herauswachsen, was noch mehr Investitionen erfordern würde. Das Unternehmen wird dieses Spiel unweigerlich satt haben und nach einer günstigeren und einfacheren Option suchen – womit wir hier angelangt sind Datendeduplizierung.

Obwohl viele Organisationen Datendeduplizierungstechniken (oder „Deduplizierung“) als Teil ihres Datenverwaltungssystems nutzen, verstehen nicht annähernd so viele wirklich, was der Deduplizierungsprozess ist und was er bewirken soll. Lassen Sie uns also die Deduplizierung entmystifizieren und erklären, wie die Datendeduplizierung funktioniert.

Was bewirkt die Deduplizierung?

Lassen Sie uns zunächst unseren Hauptbegriff klären. Datendeduplizierung ist ein Prozess, mit dem Unternehmen ihre Datenbestände rationalisieren und die Menge der archivierten Daten reduzieren, indem sie redundante Datenkopien eliminieren.

Darüber hinaus sollten wir darauf hinweisen, dass wir, wenn wir von redundanten Daten sprechen, tatsächlich von der Dateiebene sprechen und von einer rasanten Verbreitung von Datendateien sprechen. Wenn wir also über Datendeduplizierungsbemühungen sprechen, ist es eigentlich ein Dateideduplizierungssystem, das benötigt wird.

Was ist das Hauptziel der Deduplizierung?

Manche Menschen haben eine falsche Vorstellung von der Natur von Daten und betrachten sie als eine Ware, die einfach dazu da ist, gesammelt und geerntet zu werden – wie Äpfel von einem Baum in Ihrem eigenen Garten.

Die Realität ist, dass jede neue Datendatei Geld kostet. Erstens kostet es in der Regel Geld, solche Daten zu erhalten (durch den Kauf von Datenlisten). Oder es erfordert erhebliche finanzielle Investitionen, damit eine Organisation selbst Daten sammeln und sammeln kann, selbst wenn es sich um Daten handelt, die die Organisation selbst organisch produziert und sammelt. Datensätze sind daher eine Investition und müssen wie jede wertvolle Investition streng geschützt werden.

In diesem Fall geht es um Datenspeicherplatz – sei es in Form von On-Premise-Hardwareservern oder durch Cloud-Speicher über eine cloudbasierte Rechenzentrum.– das muss gekauft oder geleast werden.

Doppelte Kopien von Daten, die einer Replikation unterzogen wurden, schmälern daher das Endergebnis, da sie zusätzliche Speicherkosten verursachen, die über die mit dem primären Speichersystem und seinem Speicherplatz verbundenen Kosten hinausgehen. Kurz gesagt, es müssen mehr Speichermedienressourcen bereitgestellt werden, um sowohl neue als auch bereits gespeicherte Daten aufzunehmen. Irgendwann in der Entwicklung eines Unternehmens können doppelte Daten leicht zu einer finanziellen Belastung werden.

Zusammenfassend lässt sich sagen, dass das Hauptziel der Datendeduplizierung darin besteht, Geld zu sparen, indem Unternehmen weniger Geld für zusätzlichen Speicher ausgeben müssen.

Zusätzliche Vorteile der Deduplizierung

Für Unternehmen gibt es über die Speicherkapazität hinaus noch weitere Gründe, sich für Datendeduplizierungslösungen zu entscheiden – wahrscheinlich nicht wichtiger als der Datenschutz und die Verbesserung, die sie bieten. Unternehmen verfeinern und optimieren deduplizierte Daten-Workloads, sodass diese effizienter ausgeführt werden als Daten, die voller doppelter Dateien sind.

Ein weiterer wichtiger Aspekt der Deduplizierung besteht darin, wie sie dazu beiträgt, eine schnelle und erfolgreiche Lösung zu ermöglichen Katastrophe den Wiederherstellungsaufwand und minimiert den Datenverlust, der häufig aus einem solchen Ereignis resultieren kann. Dedupe trägt dazu bei, einen stabilen Backup-Prozess zu ermöglichen, sodass das Backup-System eines Unternehmens der Aufgabe, seine Backup-Daten zu verwalten, gewachsen ist. Die Deduplizierung hilft nicht nur bei vollständigen Backups, sondern unterstützt auch die Aufbewahrungsbemühungen.

Ein weiterer Vorteil der Datendeduplizierung besteht darin, wie gut sie in Verbindung mit funktioniert virtuelle Desktop-Infrastruktur (VDI) Bereitstellungen, da die virtuellen Festplatten hinter den Remote-Desktops des VDI identisch funktionieren. Beliebt Desktop als Dienst (DaaS) Zu den Produkten gehören Azure Virtual Desktop von Microsoft und dessen Windows VDI. Diese Produkte schaffen virtuelle Maschinen (VMs), die während des Servervirtualisierungsprozesses erstellt werden. Diese virtuellen Maschinen wiederum unterstützen die VDI-Technologie.

Deduplizierungsmethodik

Die am häufigsten verwendete Form der Datendeduplizierung ist die Blockdeduplizierung. Bei dieser Methode werden automatisierte Funktionen verwendet, um Duplikate in Datenblöcken zu identifizieren und diese Duplikate dann zu entfernen. Durch die Arbeit auf dieser Blockebene können einzelne Datenblöcke analysiert und als validierungs- und archivierungswürdig eingestuft werden. Wenn die Deduplizierungssoftware dann eine Wiederholung desselben Datenblocks erkennt, wird diese Wiederholung entfernt und an ihrer Stelle ein Verweis auf die Originaldaten eingefügt.

Das ist die Hauptform der Deduplizierung, aber bei weitem nicht die einzige Methode. In anderen Anwendungsfällen erfolgt eine alternative Methode der Datendeduplizierung auf Dateiebene. Beim Einzelinstanzspeicher werden vollständige Datenkopien innerhalb des Dateiservers verglichen, jedoch keine Datenblöcke oder Datenblöcke. Wie die entsprechende Methode hängt auch die Dateideduplizierung davon ab, dass die Originaldatei im Dateisystem verbleibt und zusätzliche Kopien entfernt werden.

Es ist zu beachten, dass Deduplizierungstechniken nicht ganz auf die gleiche Weise funktionieren wie Datenkomprimierungsalgorithmen (z. B. LZ77, LZ78), obwohl beide das gleiche allgemeine Ziel verfolgen, nämlich die Reduzierung von Datenredundanzen. Deduplizierungstechniken erreichen dies auf einer größeren Makroebene als Komprimierungsalgorithmen, deren Ziel weniger darin besteht, identische Dateien durch gemeinsam genutzte Kopien zu ersetzen, als vielmehr darin, Datenredundanzen effizienter zu kodieren.

Arten der Datendeduplizierung

Je nachdem gibt es unterschiedliche Arten der Datendeduplizierung wann Der Deduplizierungsprozess findet statt:

  • Inline-Deduplizierung: Diese Form der Datendeduplizierung erfolgt augenblicklich – in Echtzeit – während die Daten innerhalb des Speichersystems fließen. Das Inline-Deduplizierungssystem trägt weniger Datenverkehr, da es weder duplizierte Daten überträgt noch speichert. Dies kann zu einer Verringerung der von dieser Organisation insgesamt benötigten Bandbreite führen.
  • Deduplizierung nach dem Prozess: Diese Art der Deduplizierung findet statt, nachdem Daten geschrieben und auf einem Speichergerät abgelegt wurden.

An dieser Stelle ist zu erklären, dass beide Arten der Datendeduplizierung von den Hash-Berechnungen betroffen sind, die mit der Datendeduplizierung einhergehen. Diese kryptographisch Berechnungen sind ein wesentlicher Bestandteil der Identifizierung wiederholter Muster in Daten. Bei Inline-Deduplizierungen werden die Berechnungen im Moment ausgeführt, die die Computerfunktionalität dominieren und vorübergehend überfordern können. Bei Post-Processing-Deduplizierungen können die Hash-Berechnungen jederzeit nach dem Hinzufügen der Daten durchgeführt werden, und zwar auf eine Art und Weise und zu einem Zeitpunkt, der die Computerressourcen des Unternehmens nicht überlastet.

Die subtilen Unterschiede zwischen den Deduplizierungstypen enden hier jedoch nicht. Eine andere Möglichkeit zur Klassifizierung von Deduplizierungstypen basiert auf woher Solche Prozesse finden statt.

  • Quellendeduplizierung: Diese Form der Deduplizierung findet in der Nähe des Ortes statt, an dem neue Daten tatsächlich generiert werden. Das System scannt diesen Bereich und erkennt neue Kopien von Dateien, die dann entfernt werden.
  • Zieldeduplizierung: Eine andere Art der Deduplizierung ähnelt einer Umkehrung der Quelldeduplizierung. Bei der Zieldeduplizierung dedupliziert das System alle Kopien, die sich in anderen Bereichen als denen befinden, in denen die Originaldaten erstellt wurden.

Da unterschiedliche Arten der Deduplizierung praktiziert werden, müssen zukunftsorientierte Unternehmen sorgfältige und überlegte Entscheidungen hinsichtlich der gewählten Art der Deduplizierung treffen und diese Methode an den besonderen Anforderungen des Unternehmens abwägen.

In vielen Anwendungsfällen hängt die Wahl der Deduplizierungsmethode eines Unternehmens möglicherweise von einer Vielzahl interner Variablen ab, wie zum Beispiel den folgenden:

  • Wie viele und welche Art von Datensätzen werden erstellt?
  • Das primäre Speichersystem der Organisation
  • Welche virtuellen Umgebungen werden verwendet?
  • Auf welche Apps das Unternehmen setzt

Aktuelle Entwicklungen bei der Datendeduplizierung

Wie bei allen Computerausgaben wird auch die Datendeduplizierung zunehmend zum Einsatz kommen Künstliche Intelligenz (KI) wie es sich weiterentwickelt. Die Deduplizierung wird immer ausgefeilter, da sie immer mehr Nuancen entwickelt, die ihr bei der Suche nach Redundanzmustern beim Scannen von Datenblöcken helfen.

Ein aufkommender Trend bei der Deduplizierung ist Reinforcement Learning. Hierbei wird ein System von Belohnungen und Strafen verwendet (wie beim Verstärkungstraining) und eine optimale Richtlinie zum Trennen oder Zusammenführen von Datensätzen angewendet.

Ein weiterer beobachtenswerter Trend ist der Einsatz von Ensemble-Methoden, bei denen verschiedene Modelle oder Algorithmen im Tandem verwendet werden, um eine noch höhere Genauigkeit im Deduplizierungsprozess zu gewährleisten.

Das anhaltende Dilemma

Die IT-Welt konzentriert sich zunehmend auf das anhaltende Problem der Datenverbreitung und darauf, was dagegen zu tun ist. Viele Unternehmen befinden sich in der misslichen Lage, gleichzeitig alle Daten, die sie sich angesammelt haben, behalten zu wollen und gleichzeitig ihre überquellenden neuen Daten in einem beliebigen Speichercontainer unterzubringen, und sei es nur, um sie aus dem Weg zu räumen.

Während dieses Dilemma weiterhin besteht, wird der Schwerpunkt weiterhin auf Datendeduplizierungsbemühungen liegen, da Unternehmen die Deduplizierung als die günstigere Alternative zum Kauf von mehr Speicher betrachten. Denn obwohl wir intuitiv verstehen, dass Unternehmen Daten benötigen, wissen wir letztendlich auch, dass Daten sehr oft einer Deduplizierung bedürfen.

Erfahren Sie, wie IBM Storage FlashSystem Sie bei Ihren Speicheranforderungen unterstützen kann

War dieser Artikel hilfreich?

JaNein


Mehr von Cloud




Geschäftskontinuität vs. Notfallwiederherstellung: Welcher Plan ist der richtige für Sie?

7 min lesen - Geschäftskontinuitäts- und Notfallwiederherstellungspläne sind Risikomanagementstrategien, auf die sich Unternehmen verlassen, um sich auf unerwartete Vorfälle vorzubereiten. Obwohl die Begriffe eng miteinander verbunden sind, gibt es einige wichtige Unterschiede, die bei der Auswahl des für Sie geeigneten Plans berücksichtigt werden sollten: Business Continuity Plan (BCP): Ein BCP ist ein detaillierter Plan, der die Schritte beschreibt, die eine Organisation unternehmen wird, um zu normalen Geschäftsfunktionen zurückzukehren den Fall einer Katastrophe. Während sich andere Arten von Plänen möglicherweise auf einen bestimmten Aspekt der Wiederherstellung und Unterbrechung konzentrieren …




IBM Tech Now: 29. Januar 2024

<1 min lesen - ​Willkommen bei IBM Tech Now, unserer Video-Webserie mit den neuesten und besten Neuigkeiten und Ankündigungen aus der Welt der Technologie. Stellen Sie sicher, dass Sie unseren YouTube-Kanal abonnieren, um jedes Mal benachrichtigt zu werden, wenn ein neues IBM Tech Now-Video veröffentlicht wird. IBM Tech Now: Folge 91 In dieser Folge behandeln wir die folgenden Themen: IBM Think 2024 IBM Cloud-Reservierungen auf IBM Cloud Virtual Servers für VPC Verdantix's Green Quadrant Bleiben Sie auf dem Laufenden Sie können sich die IBM… ansehen.




Jetzt Reservierungen entgegennehmen: IBM Cloud Virtual Servers für VPC

2 min lesen - Während Unternehmen daran arbeiten, ihre Ausgaben in Unternehmens-Cloud-Umgebungen zu senken, stehen sie oft vor der Herausforderung, einheitliche Zahlungsoptionen über ihre Cloud-Anbieter anzubieten. Da sich Roadmaps und Prioritäten vor dem Hintergrund reduzierten Kapitals und geringerer ROIs ändern, streben Unternehmen danach, das Ausgabenrisiko das ganze Jahr über zu minimieren und vorhersehbarere Budgetierungsumgebungen zu schaffen. Wenn es um die Gestaltung Ihres Cloud-Computing-Betriebs geht, zahlt sich eine erweiterte Planung mit IBM Cloud Reservations auf IBM Cloud Virtual Servers für VPC aus. Was sind IBM…




So entwickeln Sie eine erfolgreiche Disaster-Recovery-Strategie

6 min lesen - Unabhängig davon, ob Ihre Branche durch geopolitische Konflikte, die Folgen einer globalen Pandemie oder zunehmende Aggression im Bereich der Cybersicherheit herausgefordert wird, ist der Bedrohungsvektor für moderne Unternehmen unbestreitbar mächtig. Disaster-Recovery-Strategien bieten den Teammitgliedern den Rahmen, um ein Unternehmen nach einem ungeplanten Ereignis wieder zum Laufen zu bringen. Weltweit nimmt die Beliebtheit von Disaster-Recovery-Strategien verständlicherweise zu. Laut einem aktuellen Bericht von… gaben Unternehmen im vergangenen Jahr allein für Cybersicherheit und -lösungen 219 Milliarden US-Dollar aus, ein Anstieg von 12 % gegenüber 2022.

IBM Newsletter

Erhalten Sie unsere Newsletter und Themenaktualisierungen, die die neuesten Gedanken und Einblicke in neue Trends liefern.

Abonniere jetzt

Weitere Newsletter

Zeitstempel:

Mehr von IBM