Come funziona la deduplicazione dei dati? -Blog dell'IBM

Come funziona la deduplicazione dei dati? –Blog dell’IBM

Nodo di origine: 3088770


Come funziona la deduplicazione dei dati? –Blog dell’IBM



Ripresa dall'alto di una fabbrica

Negli ultimi anni si è assistito a un’esplosione nella proliferazione delle unità di self-storage. Queste grandi unità di magazzino sono sorte a livello nazionale come un’industria in forte espansione per una ragione: la persona media ora ha più beni di quanti non sappia cosa farne.

La stessa situazione di fondo affligge anche il mondo dell’IT. Siamo nel mezzo di un'esplosione di dati. Anche gli oggetti di uso quotidiano relativamente semplici ora generano regolarmente dati da soli grazie a Internet of Things (IoT) funzionalità. Mai prima d’ora nella storia sono stati creati, raccolti e analizzati così tanti dati. E mai prima d’ora così tanti gestori di dati si sono confrontati con il problema di come archiviare così tanti dati.

Un'azienda potrebbe inizialmente non riuscire a riconoscere il problema o le dimensioni che può diventare, quindi l'azienda deve trovare una soluzione per aumentare lo spazio di archiviazione. Col tempo, l’azienda potrebbe anche diventare troppo grande per quel sistema di storage, richiedendo investimenti ancora maggiori. Inevitabilmente, l’azienda si stancherà di questo gioco e cercherà un’opzione più economica e semplice, il che ci porta a questo deduplicazione dei dati.

Sebbene molte organizzazioni utilizzino tecniche di deduplicazione dei dati (o “deduplicazione”) come parte del proprio sistema di gestione dei dati, non altrettante capiscono veramente cos'è il processo di deduplicazione e a cosa serve. Cerchiamo quindi di demistificare la deduplica e spiegare come funziona la deduplica dei dati.

Cosa fa la deduplicazione?

Innanzitutto, chiariamo il nostro termine principale. La deduplicazione dei dati è un processo utilizzato dalle organizzazioni per ottimizzare il proprio patrimonio di dati e ridurre la quantità di dati archiviati eliminando copie ridondanti dei dati.

Inoltre, dobbiamo sottolineare che quando parliamo di dati ridondanti, in realtà parliamo a livello di file e ci riferiamo a una proliferazione dilagante di file di dati. Pertanto, quando si parla di sforzi di deduplicazione dei dati, in realtà è necessario un sistema di deduplicazione dei file.

Qual è l'obiettivo principale della deduplica?

Alcune persone hanno un'idea errata della natura dei dati, considerandoli come una merce che esiste semplicemente per essere raccolta e raccolta, come le mele da un albero nel proprio giardino.

La realtà è che ogni nuovo file di dati costa denaro. In primo luogo, ottenere tali dati è solitamente costoso (attraverso l'acquisto di elenchi di dati). Oppure richiede un sostanziale investimento finanziario affinché un'organizzazione sia in grado di raccogliere e raccogliere dati per conto proprio, anche se si tratta di dati che l'organizzazione stessa produce e raccoglie organicamente. I set di dati, quindi, rappresentano un investimento e, come ogni investimento di valore, devono essere protetti rigorosamente.

In questo caso, stiamo parlando di spazio di archiviazione dei dati, sia sotto forma di server hardware locali che tramite Cloud Storage tramite un sistema basato su cloud Banca dati-che deve essere acquistato o affittato.

Le copie duplicate dei dati che sono stati replicati, pertanto, incidono sui profitti imponendo costi di storage aggiuntivi oltre a quelli associati al sistema di storage primario e al relativo spazio di storage. In breve, è necessario dedicare più risorse ai supporti di memorizzazione per accogliere sia i nuovi dati che i dati già archiviati. Ad un certo punto del percorso di un'azienda, la duplicazione dei dati può facilmente diventare una responsabilità finanziaria.

Quindi, riassumendo, l'obiettivo principale della deduplicazione dei dati è risparmiare denaro consentendo alle organizzazioni di spendere meno in spazio di archiviazione aggiuntivo.

Ulteriori vantaggi della deduplicazione

Ci sono anche altri motivi oltre alla capacità di storage che spingono le aziende ad adottare soluzioni di deduplicazione dei dati, probabilmente nessuno più essenziale della protezione e del miglioramento dei dati che forniscono. Le organizzazioni perfezionano e ottimizzano i carichi di lavoro dei dati deduplicati in modo che vengano eseguiti in modo più efficiente rispetto ai dati pieni di file duplicati.

Un altro aspetto importante della deduplica è il modo in cui aiuta a potenziare un'attività rapida e di successo disastro sforzo di ripristino e riduce al minimo la quantità di perdita di dati che spesso può derivare da un tale evento. La deduplica consente di abilitare un processo di backup solido in modo che il sistema di backup di un'organizzazione sia in grado di gestire i dati di backup. Oltre ad aiutare con i backup completi, la deduplica aiuta anche negli sforzi di conservazione.

Ancora un altro vantaggio della deduplicazione dei dati è la sua efficacia in combinazione con infrastruttura desktop virtuale (VDI) implementazioni, grazie al fatto che i dischi rigidi virtuali dietro i desktop remoti della VDI funzionano in modo identico. Popolare Desktop come servizio (DaaS) i prodotti includono Azure Virtual Desktop di Microsoft e il suo Windows VDI. Questi prodotti creano macchine virtuali (VM), che vengono creati durante il processo di virtualizzazione del server. A loro volta, queste macchine virtuali potenziano la tecnologia VDI.

Metodologia di deduplicazione

La forma più comunemente utilizzata di deduplicazione dei dati è la deduplicazione a blocchi. Questo metodo funziona utilizzando funzioni automatizzate per identificare le duplicazioni in blocchi di dati e quindi rimuovere tali duplicazioni. Lavorando a questo livello di blocco, blocchi di dati univoci possono essere analizzati e specificati come meritevoli di convalida e conservazione. Quindi, quando il software di deduplicazione rileva una ripetizione dello stesso blocco di dati, tale ripetizione viene rimossa e al suo posto viene incluso un riferimento ai dati originali.

Questa è la forma principale di deduplica, ma difficilmente l'unico metodo. In altri casi d'uso, un metodo alternativo di deduplicazione dei dati opera a livello di file. L'archiviazione a istanza singola confronta copie complete dei dati all'interno del file server, ma non blocchi o blocchi di dati. Come il suo metodo omologo, la deduplicazione dei file dipende dal mantenimento del file originale all'interno del file system e dalla rimozione delle copie extra.

Va notato che le tecniche di deduplicazione non funzionano esattamente allo stesso modo degli algoritmi di compressione dei dati (ad esempio, LZ77, LZ78), sebbene sia vero che entrambi perseguono lo stesso obiettivo generale di ridurre la ridondanza dei dati. Le tecniche di deduplicazione raggiungono questo obiettivo su una scala macro più ampia rispetto agli algoritmi di compressione, il cui obiettivo non è tanto quello di sostituire file identici con copie condivise quanto più quello di codificare in modo più efficiente le ridondanze di dati.

Tipi di deduplicazione dei dati

Esistono diversi tipi di deduplicazione dei dati a seconda quando il processo di deduplicazione avviene:

  • Deduplicazione in linea: Questa forma di deduplicazione dei dati avviene nel momento in cui i dati fluiscono all'interno del sistema di storage, in tempo reale. Il sistema di deduplica in linea trasporta meno traffico dati poiché non trasferisce né archivia dati duplicati. Ciò può portare a una riduzione della quantità totale di larghezza di banda necessaria all'organizzazione.
  • Deduplica post-processo: Questo tipo di deduplicazione avviene dopo che i dati sono stati scritti e posizionati su un qualche tipo di dispositivo di archiviazione.

Qui vale la pena spiegare che entrambi i tipi di deduplicazione dei dati sono influenzati dai calcoli hash inerenti alla deduplicazione dei dati. Questi crittografico i calcoli sono parte integrante dell'identificazione di modelli ripetuti nei dati. Durante le deduplicazioni in linea, i calcoli vengono eseguiti sul momento e possono sovraccaricare e sovraccaricare temporaneamente la funzionalità del computer. Nelle deduplicazioni post-elaborazione, i calcoli dell'hash possono essere eseguiti in qualsiasi momento dopo l'aggiunta dei dati, in un modo e in un momento che non sovraccarichi le risorse informatiche dell'organizzazione.

Le sottili differenze tra i tipi di deduplicazione non finiscono qui. Un altro modo per classificare i tipi di deduplicazione è basato su where si verificano tali processi.

  • Deduplicazione dell'origine: Questa forma di deduplicazione avviene vicino al luogo in cui vengono effettivamente generati i nuovi dati. Il sistema esegue la scansione di quell'area e rileva nuove copie dei file, che vengono poi rimosse.
  • Deduplicazione di destinazione: Un altro tipo di deduplicazione è simile all'inversione della deduplicazione all'origine. Nella deduplicazione di destinazione, il sistema deduplica tutte le copie trovate in aree diverse da quelle in cui sono stati creati i dati originali.

Poiché vengono praticati diversi tipi di deduplica, le organizzazioni lungimiranti devono prendere decisioni attente e ponderate in merito al tipo di deduplica scelto, bilanciando tale metodo con le esigenze particolari dell'azienda.

In molti casi d'uso, il metodo di deduplica scelto da un'organizzazione può dipendere da una serie di variabili interne, come le seguenti:

  • Quanti e che tipo di set di dati vengono creati
  • Il sistema di storage principale dell'organizzazione
  • Quali ambienti virtuali sono in uso
  • Su quali app fa affidamento l'azienda

Sviluppi recenti della deduplicazione dei dati

Come tutti gli output dei computer, anche la deduplicazione dei dati sarà sempre più utilizzata intelligenza artificiale (AI) mentre continua ad evolversi. La deduplica diventerà sempre più sofisticata man mano che svilupperà ancora più sfumature che la aiuteranno nella ricerca di modelli di ridondanza durante la scansione dei blocchi di dati.

Una tendenza emergente nella deduplica è l’apprendimento per rinforzo. Questo utilizza un sistema di premi e penalità (come nell'addestramento di rinforzo) e applica invece una politica ottimale per separare i record o unirli.

Un’altra tendenza da tenere d’occhio è l’uso di metodi ensemble, in cui diversi modelli o algoritmi vengono utilizzati in tandem per garantire una precisione ancora maggiore all’interno del processo di deduplica.

Il dilemma in corso

Il mondo IT è sempre più concentrato sul problema della proliferazione dei dati e su cosa fare al riguardo. Molte aziende si trovano nella scomoda posizione di voler conservare contemporaneamente tutti i dati che hanno accumulato con fatica e di voler anche conservare i nuovi dati traboccanti in qualsiasi contenitore di archiviazione possibile, anche solo per toglierli di mezzo.

Sebbene tale dilemma persista, l’enfasi sugli sforzi di deduplicazione dei dati continuerà poiché le organizzazioni vedono la deduplicazione come l’alternativa più economica all’acquisto di più spazio di archiviazione. Perché in definitiva, anche se comprendiamo intuitivamente che l'azienda ha bisogno di dati, sappiamo anche che molto spesso i dati richiedono la deduplicazione.

Scopri come IBM Storage FlashSystem può aiutarti con le tue esigenze di storage

questo articolo è stato utile?

Non


Altro da Cloud




Continuità aziendale e ripristino di emergenza: qual è il piano giusto per te?

7 min leggere - I piani di continuità aziendale e di ripristino di emergenza sono strategie di gestione del rischio su cui le aziende fanno affidamento per prepararsi a incidenti imprevisti. Sebbene i termini siano strettamente correlati, ci sono alcune differenze chiave che vale la pena considerare quando si sceglie quello giusto per te: Piano di continuità aziendale (BCP): un BCP è un piano dettagliato che delinea i passaggi che un'organizzazione intraprenderà per tornare alle normali funzioni aziendali in l'evento di un disastro. Laddove altri tipi di piani potrebbero concentrarsi su un aspetto specifico del ripristino e dell'interruzione...




IBM Tech Now: 29 gennaio 2024

<1 min leggere - ​Diamo il benvenuto a IBM Tech Now, la nostra serie web di video con le novità e gli annunci più recenti e importanti nel mondo della tecnologia. Assicurati di iscriverti al nostro canale YouTube per ricevere una notifica ogni volta che viene pubblicato un nuovo video IBM Tech Now. IBM Tech Now: Episodio 91 In questo episodio tratteremo i seguenti argomenti: IBM Think 2024 Prenotazioni IBM Cloud su IBM Cloud Virtual Servers per VPC Verdantix's Green Quadrant Rimani connesso Puoi controllare IBM...




Ora si accettano prenotazioni: IBM Cloud Virtual Servers for VPC

2 min leggere - Mentre le organizzazioni lavorano per ridurre la spesa all'interno degli ambienti cloud aziendali, spesso si trovano ad affrontare la sfida di opzioni di pagamento adatte a tutte le dimensioni attraverso i loro fornitori di servizi cloud. Man mano che le tabelle di marcia e le priorità cambiano in un contesto di capitale ridotto e ROI ristretto, le organizzazioni mirano a ridurre al minimo il rischio di spesa durante tutto l’anno e a creare ambienti di budget più prevedibili. Quando si tratta di progettare le operazioni di cloud computing, la pianificazione avanzata dà i suoi frutti con IBM Cloud Prenotazioni su IBM Cloud Virtual Servers for VPC. Cosa sono IBM...




Come costruire una strategia di disaster recovery di successo

6 min leggere - Sia che il tuo settore si trovi ad affrontare sfide derivanti da conflitti geopolitici, dalle conseguenze di una pandemia globale o da una crescente aggressività nel campo della sicurezza informatica, il vettore delle minacce per le imprese moderne è innegabilmente potente. Le strategie di disaster recovery forniscono ai membri del team la struttura per ripristinare l'attività aziendale dopo un evento non pianificato. In tutto il mondo, la popolarità delle strategie di disaster recovery è comprensibilmente in aumento. L’anno scorso, secondo un recente rapporto di...

Newsletter IBM

Ricevi le nostre newsletter e aggiornamenti sugli argomenti che forniscono la leadership di pensiero più recente e approfondimenti sulle tendenze emergenti.

Iscriviti ora

Altre newsletter

Timestamp:

Di più da IBM