Kako deluje deduplikacija podatkov? - IBM-ov blog

Ponovno objavil Platon

Spremljevalci: 0

Kako deluje deduplikacija podatkov? – IBM-ov blog

V zadnjih letih smo bili priča eksploziji širjenja samoshranjevalnih enot. Te velike skladiščne enote so se pojavile po vsej državi kot cvetoča industrija zaradi enega razloga – povprečen človek ima zdaj več imetja, kot ve, s čim bi počel.

Ista osnovna situacija pesti tudi svet IT. Smo sredi eksplozije podatkov. Tudi razmeroma preprosti vsakdanji predmeti zdaj rutinsko sami ustvarjajo podatke zahvaljujoč Internet stvari (IoT) funkcionalnost. Še nikoli v zgodovini ni bilo ustvarjenih, zbranih in analiziranih toliko podatkov. In nikoli prej se ni več upravljavcev podatkov borilo s problemom, kako shraniti toliko podatkov.

Podjetje morda sprva ne prepozna težave ali kako velike lahko postane, nato pa mora poiskati rešitev za povečano shranjevanje. Sčasoma lahko podjetje tudi preraste ta skladiščni sistem, kar bo zahtevalo še več naložb. Neizogibno se bo podjetje naveličalo te igre in bo iskalo cenejšo in enostavnejšo možnost – kar nas pripelje do deduplikacijo podatkov.

Čeprav veliko organizacij uporablja tehnike odpravljanja podvojenih podatkov (ali »dedupe«) kot del svojega sistema za upravljanje podatkov, jih niti približno ne razume, kaj je postopek deduplikacije in čemu je namenjen. Torej, demistificirajmo deduplikacijo in razložimo, kako deluje deduplikacija podatkov.

Kaj naredi deduplikacija?

Najprej razjasnimo naš glavni izraz. Odstranjevanje podvojenih podatkov je proces, ki ga organizacije uporabljajo za racionalizacijo svojih podatkovnih imetij in zmanjšanje količine podatkov, ki jih arhivirajo, tako da odstranijo odvečne kopije podatkov.

Poleg tega moramo poudariti, da ko govorimo o redundantnih podatkih, dejansko govorimo na ravni datoteke in se nanašamo na divje širjenje podatkovnih datotek. Torej, ko govorimo o prizadevanjih za odstranjevanje dvojnikov podatkov, je dejansko potreben sistem za odstranjevanje dvojnikov datotek.

Kaj je glavni cilj deduplikacije?

Nekateri ljudje imajo napačno predstavo o naravi podatkov in nanje gledajo kot na blago, ki preprosto obstaja zato, da se ga zbira in obira – kot jabolka z drevesa z lastnega dvorišča.

Dejstvo je, da vsaka nova datoteka s podatki stane denar. Prvič, pridobivanje takšnih podatkov običajno stane (z nakupom podatkovnih seznamov). Ali pa zahteva znatne finančne naložbe, da lahko organizacija sama zbira in zbira podatke, tudi če gre za podatke, ki jih organsko proizvaja in zbira sama. Podatkovni nizi so torej naložba in kot vsako dragoceno naložbo jih je treba strogo zaščititi.

V tem primeru govorimo o prostoru za shranjevanje podatkov – naj bo to v obliki strežnikov strojne opreme na mestu uporabe ali prek Cloud Storage prek oblaka podatkovni center— ki jih je treba kupiti ali najeti.

Podvojene kopije podatkov, ki so bili podvojeni, torej zmanjšujejo rezultat, saj nalagajo dodatne stroške shranjevanja poleg tistih, ki so povezani s primarnim sistemom shranjevanja in njegovim prostorom za shranjevanje. Skratka, več medijskih sredstev za shranjevanje je treba nameniti za sprejem novih in že shranjenih podatkov. Na neki točki na poti podjetja lahko podvojeni podatki zlahka postanejo finančna odgovornost.

Torej, če povzamemo, je glavni cilj deduplikacije podatkov prihraniti denar tako, da organizacijam omogoči manjšo porabo za dodatno shranjevanje.

Dodatne prednosti deduplikacije

Poleg zmogljivosti shranjevanja obstajajo tudi drugi razlogi, da podjetja sprejmejo rešitve za odstranjevanje podvojitev podatkov – verjetno nič bolj bistvenega pomena kot zaščita podatkov in izboljšava, ki jo zagotavljajo. Organizacije izpopolnijo in optimizirajo delovne obremenitve z odstranjenimi podvojenimi podatki, tako da bodo delovale učinkoviteje kot podatki, ki so polni podvojenih datotek.

Drug pomemben vidik dedupeja je, kako pomaga opolnomočiti hitro in uspešno katastrofa obnovitev in zmanjša količino izgube podatkov, ki je lahko pogosto posledica takšnega dogodka. Dedupe pomaga omogočiti stabilen postopek varnostnega kopiranja, tako da sistem varnostnega kopiranja organizacije ustreza nalogi ravnanja z varnostnimi kopijami podatkov. Poleg tega, da pomaga pri popolnih varnostnih kopijah, dedupe pomaga tudi pri prizadevanjih za hrambo.

Še ena prednost deduplikacije podatkov je, kako dobro deluje v povezavi z infrastruktura navideznega namizja (VDI) uvajanja, zahvaljujoč dejstvu, da virtualni trdi diski za oddaljenimi namizji VDI delujejo enako. Priljubljeno Namizje kot storitev (DaaS) izdelki vključujejo Azure Virtual Desktop od Microsofta in njegov Windows VDI. Ti izdelki ustvarjajo virtualni stroji (VM), ki nastanejo med postopkom virtualizacije strežnika. Po drugi strani ti virtualni stroji krepijo tehnologijo VDI.

Metodologija deduplikacije

Najpogosteje uporabljena oblika deduplikacije podatkov je deduplikacija blokov. Ta metoda deluje z uporabo avtomatiziranih funkcij za prepoznavanje podvojitev v blokih podatkov in nato odstranitev teh podvojitev. Z delom na tej ravni blokov je mogoče analizirati dele edinstvenih podatkov in določiti, da so vredni potrditve in ohranitve. Nato, ko programska oprema za odstranjevanje podvojitev zazna ponavljanje istega podatkovnega bloka, se to ponavljanje odstrani in na njegovo mesto se vključi sklic na izvirne podatke.

To je glavna oblika odstranjevanja dvojčkov, a komaj edina metoda. V drugih primerih uporabe deluje alternativna metoda deduplikacije podatkov na ravni datoteke. Shranjevanje z enim primerkom primerja celotne kopije podatkov v datotečnem strežniku, ne pa kosov ali blokov podatkov. Tako kot njegova nasprotna metoda je tudi deduplikacija datotek odvisna od ohranjanja izvirne datoteke v datotečnem sistemu in odstranjevanja dodatnih kopij.

Opozoriti je treba, da tehnike deduplikacije ne delujejo povsem enako kot algoritmi za stiskanje podatkov (npr. LZ77, LZ78), čeprav je res, da obe sledita istemu splošnemu cilju zmanjšanja odvečnosti podatkov. Tehnike deduplikacije to dosežejo v večjem, makro obsegu kot algoritmi stiskanja, katerih cilj je manj zamenjava enakih datotek s kopijami v skupni rabi in bolj učinkovito kodiranje odvečnih podatkov.

Vrste deduplikacije podatkov

Obstajajo različne vrste deduplikacije podatkov, odvisno od kdaj pride do postopka deduplikacije:

Inline deduplication: Ta oblika deduplikacije podatkov se pojavi v trenutku – v realnem času – med pretokom podatkov znotraj sistema za shranjevanje. Inline dedupe sistem prenaša manj podatkovnega prometa, ker niti ne prenaša niti ne shranjuje podvojenih podatkov. To lahko vodi do zmanjšanja skupne količine pasovne širine, ki jo potrebuje ta organizacija.
Deduplikacija po procesu: Ta vrsta deduplikacije se izvede, potem ko so bili podatki zapisani in nameščeni na neko vrsto pomnilniške naprave.

Tukaj je vredno pojasniti, da na obe vrsti deduplikacije podatkov vplivajo izračuni zgoščevanja, ki so del deduplikacije podatkov. te kriptografijo izračuni so sestavni del prepoznavanja ponavljajočih se vzorcev v podatkih. Med sprotnimi deduplikacijami se ti izračuni izvajajo v trenutku, kar lahko prevlada in začasno preobremeni funkcionalnost računalnika. Pri deduplikacijah po obdelavi se lahko izračuni zgoščevanja izvedejo kadar koli po dodajanju podatkov na način in ob času, ki ne obremenjuje računalniških virov organizacije.

Subtilne razlike med vrstami deduplikacije se tu ne končajo. Drug način za razvrščanje vrst deduplikacije temelji na Kje pride do takih procesov.

Deduplikacija vira: Ta oblika deduplikacije poteka v bližini mesta, kjer se dejansko ustvarijo novi podatki. Sistem pregleda to območje in zazna nove kopije datotek, ki se nato odstranijo.
Ciljna deduplikacija: Druga vrsta deduplikacije je kot inverzija izvorne deduplikacije. Pri ciljni deduplikaciji sistem odstrani dvojnike vseh kopij, ki so najdene na območjih, kjer niso bili ustvarjeni izvirni podatki.

Ker se uporabljajo različne vrste deduplikacije, morajo napredne organizacije sprejemati previdne in premišljene odločitve glede izbrane vrste deduplikacije, tako da to metodo uravnotežijo s posebnimi potrebami podjetja.

V mnogih primerih uporabe se lahko izbrana metoda deduplikacije organizacije zelo dobro zmanjša na različne notranje spremenljivke, kot so naslednje:

Koliko in kakšne vrste nizov podatkov se ustvarjajo
Primarni sistem za shranjevanje v organizaciji
Katera virtualna okolja so v uporabi
Na katere aplikacije se podjetje zanaša

Nedavni razvoj deduplikacije podatkov

Tako kot vsak računalniški izhod je tudi deduplikacija podatkov pripravljena na vse večjo uporabo umetna inteligenca (AI) saj se še naprej razvija. Dedupe bo postajal vse bolj izpopolnjen, saj bo razvijal še več odtenkov, ki mu bodo pomagali pri iskanju vzorcev odvečnosti, ko bodo skenirani bloki podatkov.

Eden od nastajajočih trendov pri dedupeju je učenje z okrepitvijo. To uporablja sistem nagrad in kazni (kot pri usposabljanju za okrepitev) in namesto tega uporablja optimalno politiko za ločevanje zapisov ali njihovo združevanje.

Drug trend, ki ga je vredno opazovati, je uporaba ansambelskih metod, pri katerih se različni modeli ali algoritmi uporabljajo v tandemu, da se zagotovi še večja natančnost v procesu odstranjevanja dvojčkov.

Stalna dilema

Svet IT postaja vse bolj fiksiran na nenehno vprašanje širjenja podatkov in kaj storiti glede tega. Številna podjetja se znajdejo v nerodnem položaju, ko želijo hkrati obdržati vse podatke, ki so jih zbrali, in želijo svoje prepolne nove podatke vtakniti v vse možne vsebnike za shranjevanje, pa čeprav samo zato, da bi jih odstranili s poti.

Medtem ko taka dilema ostaja, se bo poudarek na prizadevanjih za odstranjevanje dvojnikov podatkov nadaljeval, saj organizacije vidijo deduplikacijo kot cenejšo alternativo nakupu dodatnega prostora za shranjevanje. Ker na koncu, čeprav intuitivno razumemo, da podjetje potrebuje podatke, vemo tudi, da podatki zelo pogosto zahtevajo deduplikacijo.

Naučite se, kako vam lahko IBM Storage FlashSystem pomaga pri vaših potrebah po shranjevanju

Je bil ta članek v pomoč?

DaNe

Več od Oblaka

Januar 29, 2024

Neprekinjeno poslovanje v primerjavi z obnovitvijo po katastrofi: kateri načrt je pravi za vas?

7 min branja - Načrti neprekinjenega poslovanja in obnovitve po katastrofi so strategije za obvladovanje tveganja, na katere se podjetja zanašajo, da se pripravijo na nepričakovane incidente. Čeprav sta izraza tesno povezana, obstaja nekaj ključnih razlik, ki jih je vredno upoštevati pri izbiri tistega, ki je pravi za vas: Načrt neprekinjenega poslovanja (BCP): BCP je podroben načrt, ki opisuje korake, ki jih bo organizacija sprejela, da se vrne k običajnim poslovnim funkcijam v dogodek katastrofe. Kadar se lahko druge vrste načrtov osredotočajo na en poseben vidik okrevanja in prekinitve ...

Januar 29, 2024

IBM Tech Now: 29. januar 2024

<1 min branja - Dobrodošli IBM Tech Now, naša spletna serija video posnetkov, ki prikazuje najnovejše in najboljše novice in objave v svetu tehnologije. Prepričajte se, da se naročite na naš YouTube kanal, da boste obveščeni vsakič, ko bo objavljen nov video IBM Tech Now. IBM Tech Now: Epizoda 91 V tej epizodi obravnavamo naslednje teme: IBM Think 2024 IBM Cloud Rezervacije na virtualnih strežnikih IBM Cloud za zeleni kvadrant VPC Verdantix Ostanite priključeni Lahko si ogledate IBM…

Moški z očali sedi na stolu s prekrižano nogo in eno roko na tipkovnici odprtega prenosnika

Januar 22, 2024

Zdaj sprejemam rezervacije: IBM Cloud Virtual Servers za VPC

2 min branja - Ker si organizacije prizadevajo zmanjšati porabo v podjetniških oblačnih okoljih, se pogosto soočajo z izzivom enotnih plačilnih možnosti prek svojih ponudnikov v oblaku. Ker se časovni načrti in prednostne naloge spreminjajo v ozadju zmanjšanega kapitala in strožje donosnosti naložbe, si organizacije prizadevajo zmanjšati tveganje porabe skozi vse leto in ustvariti bolj predvidljivo proračunsko okolje. Ko gre za načrtovanje vaših operacij računalništva v oblaku, se napredno načrtovanje izplača z IBM Cloud Reservations na IBM Cloud Virtual Servers za VPC. Kaj so IBM…

Januar 19, 2024

Kako zgraditi uspešno strategijo za obnovitev po katastrofi

6 min branja - Ne glede na to, ali se vaša panoga sooča z izzivi zaradi geopolitičnih sporov, posledic globalne pandemije ali naraščajoče agresije v prostoru kibernetske varnosti, je vektor groženj za sodobna podjetja nedvomno močan. Strategije za obnovitev po nesreči zagotavljajo okvir za člane skupine, da po nenačrtovanem dogodku znova vzpostavijo in začnejo delovati podjetje. Priljubljenost strategij za obnovo po katastrofi po vsem svetu razumljivo narašča. Lansko leto so podjetja porabila 219 milijard USD samo za kibernetsko varnost in rešitve, kar je 12 % več kot leta 2022, glede na nedavno poročilo ...

IBM-ove novice

Prejemajte naša glasila in posodobitve tem, ki prinašajo najnovejše miselno vodstvo in vpogled v nastajajoče trende.

Naročite zdaj

Več glasil

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
vir: https://www.ibm.com/blog/how-does-data-deduplication-work/

Časovni žig: Januar 29, 2024

Časovni žig: Februar 8, 2023

Ponovno objavil Platon

Kaj naredi deduplikacija?

Kaj je glavni cilj deduplikacije?

Dodatne prednosti deduplikacije

Metodologija deduplikacije

Vrste deduplikacije podatkov

Nedavni razvoj deduplikacije podatkov

Stalna dilema

Več od Oblaka

Neprekinjeno poslovanje v primerjavi z obnovitvijo po katastrofi: kateri načrt je pravi za vas?

IBM Tech Now: 29. januar 2024

Zdaj sprejemam rezervacije: IBM Cloud Virtual Servers za VPC

Kako zgraditi uspešno strategijo za obnovitev po katastrofi

OpenShift različica 4.13 je zdaj na voljo v Red Hat OpenShift v IBM Cloud – IBM Blog

Podjetja potrebujejo generativno umetno inteligenco, prilagojeno njihovim edinstvenim potrebam, z lastnimi edinstvenimi podatki

Poenostavitev skladnosti z IBM Cloud Infrastructure kot kodo in pristopom premikanja v levo – IBM Blog

Upravljanje vaših ekosistemov v oblaku: Ohranjanje kontinuitete delovne obremenitve med nadgradnjami delovnega vozlišča – IBM-ov blog

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun