Cum funcționează deduplicarea datelor? - Blogul IBM

Cum funcționează deduplicarea datelor? – Blogul IBM

Nodul sursă: 3088770


Cum funcționează deduplicarea datelor? – Blogul IBM



Imagine de sus a unei fabrici

Ultimii ani au fost martorii unei explozii în proliferarea unităților de auto-stocare. Aceste unități mari de depozite au apărut la nivel național ca o industrie în plină expansiune dintr-un motiv: omul obișnuit are acum mai multe bunuri decât știe cu ce să facă.

Aceeași situație de bază afectează și lumea IT-ului. Suntem în mijlocul unei explozii de date. Chiar și obiectele de zi cu zi relativ simple acum generează în mod obișnuit date pe cont propriu datorită Internetul obiectelor (IoT) funcţionalitate. Niciodată în istorie nu au fost create, colectate și analizate atât de multe date. Și niciodată mai mulți manageri de date nu s-au luptat cu problema modului de a stoca atât de multe date.

O companie poate să nu recunoască inițial problema sau cât de mare poate deveni, iar apoi compania respectivă trebuie să găsească o soluție de stocare sporită. În timp, compania poate depăși și acel sistem de stocare, necesitând și mai multe investiții. În mod inevitabil, compania se va sătura de acest joc și va căuta o opțiune mai ieftină și mai simplă, ceea ce ne duce la deduplicarea datelor.

Deși multe organizații folosesc tehnici de deduplicare a datelor (sau „deduplicare”) ca parte a sistemului lor de gestionare a datelor, nu atât de multe înțeleg cu adevărat ce este procesul de deduplicare și ce este intenționat să facă. Deci, să demitificăm deduplicarea și să explicăm cum funcționează deduplicarea datelor.

Ce face deduplicarea?

În primul rând, să clarificăm termenul nostru principal. Deduplicarea datelor este un proces pe care organizațiile îl folosesc pentru a-și eficientiza stocurile de date și pentru a reduce cantitatea de date pe care le arhivează prin eliminarea copiilor redundante ale datelor.

Mai mult, ar trebui să subliniem că atunci când vorbim despre date redundante, vorbim de fapt la nivel de fișier și ne referim la o proliferare rampantă a fișierelor de date. Deci, atunci când discutăm despre eforturile de deduplicare a datelor, este de fapt necesar un sistem de deduplicare a fișierelor.

Care este scopul principal al deduplicarii?

Unii oameni poartă o noțiune incorectă despre natura datelor, vizându-le ca pe o marfă care pur și simplu există pentru a fi strânsă și recoltată - ca merele de pe un copac din propria curte.

Realitatea este că fiecare fișier nou de date costă bani. În primul rând, de obicei costă bani pentru a obține astfel de date (prin achiziționarea de liste de date). Sau necesită investiții financiare substanțiale pentru ca o organizație să fie capabilă să adune și să culeagă date pe cont propriu, chiar dacă sunt date pe care organizația însăși le produce și le colectează organic. Prin urmare, seturile de date sunt o investiție și, ca orice investiție valoroasă, trebuie protejate cu rigurozitate.

În acest caz, vorbim despre spațiul de stocare a datelor – fie că acesta este sub formă de servere hardware locale sau prin Stocare in cloud printr-un sistem bazat pe cloud centru de date— care trebuie cumpărat sau închiriat.

Copiile duplicate ale datelor care au fost supuse replicării, prin urmare, diminuează rezultatul prin impunerea unor costuri suplimentare de stocare dincolo de cele asociate cu sistemul de stocare primar și cu spațiul de stocare al acestuia. Pe scurt, mai multe active medii de stocare trebuie dedicate pentru a găzdui atât datele noi, cât și cele deja stocate. La un moment dat în traiectoria unei companii, datele duplicate pot deveni cu ușurință o datorie financiară.

Deci, pentru a rezuma, obiectivul principal al deduplicarii datelor este de a economisi bani, permițând organizațiilor să cheltuiască mai puțin pe spațiu de stocare suplimentar.

Beneficii suplimentare ale deduplicarii

Există și alte motive, în afara capacității de stocare, pentru ca companiile să adopte soluții de deduplicare a datelor – probabil niciunul mai esențial decât protecția și îmbunătățirea datelor pe care le oferă. Organizațiile rafinează și optimizează sarcinile de lucru deduplicate de date, astfel încât acestea să ruleze mai eficient decât datele care sunt pline de fișiere duplicate.

Un alt aspect important al dedupării este modul în care ajută la împuternicirea unei persoane rapide și de succes dezastru efort de recuperare și minimizează cantitatea de pierderi de date care poate rezulta adesea dintr-un astfel de eveniment. Dedupeul ajută la activarea unui proces de backup robust, astfel încât sistemul de backup al unei organizații să fie egal cu sarcina de a gestiona datele de backup. Pe lângă faptul că ajută la backup-urile complete, deduplicarea ajută și la eforturile de reținere.

Un alt beneficiu al deduplicării datelor este cât de bine funcționează împreună cu infrastructura desktop virtual (VDI) implementări, datorită faptului că hard disk-urile virtuale din spatele desktopurilor la distanță ale VDI funcționează identic. Popular Desktop ca serviciu (DaaS) produsele includ Azure Virtual Desktop de la Microsoft și Windows VDI. Aceste produse creează mașini virtuale (VM), care sunt create în timpul procesului de virtualizare a serverului. La rândul lor, aceste mașini virtuale împuternicesc tehnologia VDI.

Metodologia deduplicarii

Cea mai frecvent utilizată formă de deduplicare a datelor este deduplicarea în bloc. Această metodă funcționează prin utilizarea funcțiilor automate pentru a identifica dublările în blocuri de date și apoi pentru a elimina dublările respective. Lucrând la acest nivel de bloc, bucăți de date unice pot fi analizate și specificate ca fiind demne de validare și conservare. Apoi, atunci când software-ul de deduplicare detectează o repetiție a aceluiași bloc de date, acea repetiție este eliminată și o referință la datele originale este inclusă în locul său.

Aceasta este principala formă de deducție, dar cu greu singura metodă. În alte cazuri de utilizare, o metodă alternativă de deduplicare a datelor operează la nivel de fișier. Stocarea cu o singură instanță compară copiile complete ale datelor din serverul de fișiere, dar nu bucăți sau blocuri de date. La fel ca metoda omoloage, deduplicarea fișierelor depinde de păstrarea fișierului original în sistemul de fișiere și de eliminarea copiilor suplimentare.

Trebuie remarcat faptul că tehnicile de deduplicare nu funcționează în același mod ca algoritmii de comprimare a datelor (de exemplu, LZ77, LZ78), deși este adevărat că ambele urmăresc același obiectiv general de reducere a redundanțelor de date. Tehnicile de deduplicare realizează acest lucru la o scară macro mai mare decât algoritmii de compresie, al căror scop este mai puțin înlocuirea fișierelor identice cu copii partajate și mai mult despre codificarea mai eficientă a redundanțelor de date.

Tipuri de deduplicare a datelor

Există diferite tipuri de deduplicare a datelor, în funcție de cand are loc procesul de deduplicare:

  • Deduplicare inline: Această formă de deduplicare a datelor are loc în acest moment, în timp real, pe măsură ce datele circulă în sistemul de stocare. Sistemul de deduplicare inline transportă mai puțin trafic de date, deoarece nici nu transferă și nici nu stochează date duplicate. Acest lucru poate duce la o reducere a cantității totale de lățime de bandă necesară organizației respective.
  • Deduplicarea post-proces: Acest tip de deduplicare are loc după ce datele au fost scrise și plasate pe un anumit tip de dispozitiv de stocare.

Aici merită explicat faptul că ambele tipuri de deduplicare a datelor sunt afectate de calculele hash inerente deduplicarii datelor. Aceste criptografic calculele sunt esențiale pentru identificarea tiparelor repetate în date. În timpul deduplicărilor în linie, acele calcule sunt efectuate în momentul de față, ceea ce poate domina și copleși temporar funcționalitatea computerului. În deduplicarile de post-procesare, calculele hash pot fi efectuate în orice moment după ce datele sunt adăugate într-un mod și într-un moment care nu suprasolicita resursele informatice ale organizației.

Diferențele subtile dintre tipurile de deduplicare nu se termină aici. Un alt mod de a clasifica tipurile de deduplicare se bazează pe Unde apar astfel de procese.

  • Deduplicarea sursei: Această formă de deduplicare are loc în apropierea locului unde sunt de fapt generate noi date. Sistemul scanează acea zonă și detectează noi copii ale fișierelor, care sunt apoi eliminate.
  • Deduplicare țintă: Un alt tip de deduplicare este ca o inversare a deduplicarii sursei. În deduplicarea țintă, sistemul deduplică orice copii care se găsesc în alte zone decât cele în care au fost create datele originale.

Deoarece există diferite tipuri de deduplicare practicate, organizațiile care se înclină spre viitor trebuie să ia decizii atente și luate în considerare cu privire la tipul de deduplicare ales, echilibrând acea metodă cu nevoile specifice ale acelei companii.

În multe cazuri de utilizare, metoda de deduplicare aleasă de o organizație se poate reduce foarte bine la o varietate de variabile interne, cum ar fi următoarele:

  • Câte și ce tip de seturi de date sunt create
  • Sistemul principal de stocare al organizației
  • Ce medii virtuale sunt utilizate
  • Pe ce aplicații se bazează compania

Evoluții recente în deduplicarea datelor

La fel ca toate ieșirile computerizate, deduplicarea datelor este gata să folosească din ce în ce mai mult inteligență artificială (AI) pe măsură ce continuă să evolueze. Dedupe va deveni din ce în ce mai sofisticat pe măsură ce dezvoltă și mai multe nuanțe care îl ajută în căutarea modelelor de redundanță pe măsură ce blocurile de date sunt scanate.

O tendință emergentă în dedupare este învățarea prin consolidare. Acesta utilizează un sistem de recompense și penalități (cum ar fi în antrenamentul de întărire) și aplică o politică optimă pentru separarea înregistrărilor sau îmbinarea lor.

O altă tendință care merită urmărită este utilizarea metodelor de ansamblu, în care diferite modele sau algoritmi sunt utilizați în tandem pentru a asigura o acuratețe și mai mare în cadrul procesului de deducție.

Dilema în curs

Lumea IT devine din ce în ce mai concentrată pe problema în curs de desfășurare a proliferării datelor și ce trebuie făcut în acest sens. Multe companii se trezesc în situația incomodă de a dori simultan să rețină toate datele pe care au muncit să le strângă și, de asemenea, să dorească să-și pună noile date debordante în orice container de stocare posibil, chiar dacă doar pentru a le scoate din drum.

În timp ce o astfel de dilemă persistă, accentul pus pe eforturile de deduplicare a datelor va continua, deoarece organizațiile văd deduplicarea ca alternativă mai ieftină la achiziționarea mai multor spațiu de stocare. Pentru că în cele din urmă, deși înțelegem intuitiv că afacerea are nevoie de date, știm, de asemenea, că datele necesită foarte adesea deduplicare.

Aflați cum IBM Storage FlashSystem vă poate ajuta cu nevoile dvs. de stocare

A fost util acest articol?

DaNu


Mai multe de la Cloud




Continuitatea afacerii vs. recuperare în caz de dezastru: care plan este potrivit pentru dvs.?

7 citește min - Continuitatea afacerii și planurile de recuperare în caz de dezastru sunt strategii de gestionare a riscurilor pe care se bazează companiile pentru a se pregăti pentru incidente neașteptate. Deși termenii sunt strâns legați, există câteva diferențe cheie care merită luate în considerare atunci când alegeți care este potrivit pentru dvs.: Planul de continuitate a afacerii (BCP): Un BCP este un plan detaliat care subliniază pașii pe care o organizație va face pentru a reveni la funcțiile normale de afaceri în evenimentul unui dezastru. Acolo unde alte tipuri de planuri s-ar putea concentra pe un aspect specific al recuperării și întreruperii...




IBM Tech Now: 29 ianuarie 2024

<1 citește min - Bine ați venit IBM Tech Now, seria noastră web video care prezintă cele mai recente și mai bune știri și anunțuri din lumea tehnologiei. Asigurați-vă că vă abonați la canalul nostru YouTube pentru a fi notificat de fiecare dată când este publicat un nou videoclip IBM Tech Now. IBM Tech Now: Episodul 91 În acest episod, acoperim următoarele subiecte: IBM Think 2024 IBM Cloud Rezervări pe IBM Cloud Virtual Servers pentru VPC Green Quadrant Verdantix Rămâneți conectat Puteți consulta IBM...




Acum se acceptă rezervări: IBM Cloud Virtual Servers pentru VPC

2 citește min - Pe măsură ce organizațiile lucrează pentru a reduce cheltuielile în mediile cloud de întreprindere, ele se confruntă adesea cu provocarea opțiunilor de plată unice pentru toate prin intermediul furnizorilor lor de cloud. Pe măsură ce foile de parcurs și prioritățile se schimbă pe fundalul capitalului redus și al rentabilității investițiilor mai stricte, organizațiile își propun să minimizeze riscul de cheltuieli pe tot parcursul anului și să creeze medii de bugetare mai previzibile. Când vine vorba de proiectarea operațiunilor dvs. de cloud computing, planificarea avansată dă roade cu IBM Cloud Reservations pe IBM Cloud Virtual Servers pentru VPC. Ce sunt IBM...




Cum să construiți o strategie de succes de recuperare în caz de dezastru

6 citește min - Indiferent dacă industria dvs. se confruntă cu provocări din cauza conflictelor geopolitice, a consecințelor unei pandemii globale sau a unei agresiuni în creștere în spațiul securității cibernetice, vectorul de amenințare pentru întreprinderile moderne este incontestabil puternic. Strategiile de recuperare în caz de dezastru oferă cadrul pentru membrii echipei pentru a reporni o afacere după un eveniment neplanificat. La nivel mondial, popularitatea strategiilor de recuperare în caz de dezastru este în mod clar în creștere. Anul trecut, companiile au cheltuit 219 miliarde USD numai pentru securitate cibernetică și soluții, o creștere cu 12% față de 2022, potrivit unui raport recent al...

Buletine informative IBM

Primiți buletinele noastre informative și actualizările subiectelor care oferă cele mai recente idei de lider și perspective despre tendințele emergente.

Abonează-te acum

Mai multe buletine informative

Timestamp-ul:

Mai mult de la IBM