Hvordan fungerer datadeduplisering? - IBM-bloggen

Hvordan fungerer datadeduplisering? – IBM-bloggen

Kilde node: 3088770


Hvordan fungerer datadeduplisering? – IBM-bloggen



Overhead-bilde av en fabrikk

De siste årene har vært vitne til en eksplosjon i spredningen av selvlagringsenheter. Disse store lagerenhetene har dukket opp nasjonalt som en blomstrende industri på grunn av én grunn - den gjennomsnittlige personen har nå flere eiendeler enn de vet hva de skal gjøre med.

Den samme grunnsituasjonen plager også IT-verdenen. Vi er midt i en eksplosjon av data. Selv relativt enkle, hverdagslige objekter genererer nå rutinemessig data på egen hånd takket være Internet of Things (IOT) funksjonalitet. Aldri før i historien har så mye data blitt opprettet, samlet inn og analysert. Og aldri før har flere databehandlere kjempet med problemet med hvordan man lagrer så mye data.

Et selskap kan i utgangspunktet ikke gjenkjenne problemet eller hvor stort det kan bli, og deretter må selskapet finne en økt lagringsløsning. Med tiden kan selskapet også vokse ut av det lagringssystemet, noe som krever enda mer investering. Uunngåelig vil selskapet bli lei av dette spillet, og vil søke et billigere og enklere alternativ – noe som bringer oss til datadeduplisering.

Selv om mange organisasjoner bruker datadedupliseringsteknikker (eller "deduplisering") som en del av databehandlingssystemet, er det ikke på langt nær så mange som virkelig forstår hva dedupliseringsprosessen er og hva den er ment å gjøre. Så la oss avmystifisere deduplisering og forklare hvordan datadeduplisering fungerer.

Hva gjør deduplisering?

Først, la oss avklare hovedbegrepet vårt. Datadeduplisering er en prosess organisasjoner bruker for å strømlinjeforme databeholdningen og redusere mengden data de arkiverer ved å eliminere overflødige kopier av data.

Videre bør vi påpeke at når vi snakker om overflødige data, snakker vi faktisk på filnivå og refererer til en voldsom spredning av datafiler. Så når vi diskuterer datadedupliseringsinnsats, er det faktisk et fildedupliseringssystem som trengs.

Hva er hovedmålet med deduplisering?

Noen mennesker har en feilaktig oppfatning av dataens natur, og ser på det som en vare som ganske enkelt eksisterer for å samles og høstes – som epler fra et tre fra din egen bakgård.

Realiteten er at hver ny fil med data koster penger. I første omgang koster det som regel penger å skaffe slike data (gjennom kjøp av datalister). Eller det krever betydelige økonomiske investeringer for en organisasjon å kunne samle inn og samle inn data på egen hånd, selv om det er data som organisasjonen selv produserer og samler inn organisk. Datasett er derfor en investering, og som enhver verdifull investering må de beskyttes strengt.

I dette tilfellet snakker vi om datalagringsplass – enten det er i form av lokale maskinvareservere eller gjennom sky lagring via en skybasert datasenter– som må kjøpes eller leases.

Dupliserte kopier av data som har gjennomgått replikering, reduserer derfor bunnlinjen ved å pålegge ekstra lagringskostnader utover de som er knyttet til det primære lagringssystemet og dets lagringsplass. Kort sagt, flere lagringsmedier må brukes til å imøtekomme både nye data og allerede lagrede data. På et tidspunkt i en bedrifts bane kan dupliserte data lett bli en økonomisk forpliktelse.

Så, for å oppsummere, er hovedmålet med datadeduplisering å spare penger ved å gjøre det mulig for organisasjoner å bruke mindre på ekstra lagring.

Ytterligere fordeler med deduplisering

Det er også andre grunner utover lagringskapasitet for selskaper til å omfavne datadedupliseringsløsninger – sannsynligvis ingen viktigere enn databeskyttelsen og forbedringen de gir. Organisasjoner avgrenser og optimaliserer dedupliserte dataarbeidsbelastninger slik at de kjører mer effektivt enn data som er fulle av dupliserte filer.

Et annet viktig aspekt ved dedupe er hvordan det bidrar til å styrke en rask og vellykket katastrofe gjenopprettingsarbeid og minimerer mengden datatap som ofte kan oppstå fra en slik hendelse. Dedupe bidrar til å aktivere en solid sikkerhetskopieringsprosess slik at en organisasjons backup-system er lik oppgaven med å håndtere sikkerhetskopieringsdataene. I tillegg til å hjelpe med full sikkerhetskopiering, hjelper dedupe også med oppbevaring.

Enda en fordel med datadeduplisering er hvor godt det fungerer sammen med virtuell skrivebordsinfrastruktur (VDI) distribusjoner, takket være det faktum at de virtuelle harddiskene bak VDIs eksterne skrivebord fungerer identisk. Populær Desktop as a Service (DaaS) produktene inkluderer Azure Virtual Desktop fra Microsoft og Windows VDI. Disse produktene skaper virtuelle maskiner (VM-er), som opprettes under servervirtualiseringsprosessen. I sin tur styrker disse virtuelle maskinene VDI-teknologien.

Dedupliseringsmetodikk

Den mest brukte formen for datadeduplisering er blokkdeduplisering. Denne metoden fungerer ved å bruke automatiserte funksjoner for å identifisere dupliseringer i datablokker og deretter fjerne disse duplikasjonene. Ved å jobbe på dette blokknivået kan biter av unike data analyseres og spesifiseres som verdig validering og bevaring. Så, når dedupliseringsprogramvaren oppdager en repetisjon av den samme datablokken, fjernes denne repetisjonen og en referanse til de originale dataene inkluderes i stedet.

Det er hovedformen for dedupe, men neppe den eneste metoden. I andre brukstilfeller fungerer en alternativ metode for datadeduplisering på filnivå. Enkeltforekomstlagring sammenligner fullstendige kopier av data i filserveren, men ikke biter eller blokker av data. I likhet med sin motpartsmetode avhenger fildeduplisering av å beholde den originale filen i filsystemet og fjerne ekstra kopier.

Det skal bemerkes at dedupliseringsteknikker ikke fungerer på helt samme måte som datakomprimeringsalgoritmer (f.eks. LZ77, LZ78), selv om det er sant at begge forfølger det samme generelle målet om å redusere dataredundanser. Dedupliseringsteknikker oppnår dette i en større makroskala enn komprimeringsalgoritmer, hvis mål er mindre om å erstatte identiske filer med delte kopier og mer om mer effektiv koding av dataredundanser.

Typer datadeduplisering

Det finnes ulike typer datadeduplisering avhengig av når dedupliseringsprosessen skjer:

  • Inline deduplisering: Denne formen for datadeduplisering skjer i øyeblikket – i sanntid – mens data flyter i lagringssystemet. Det inline dedupe-systemet bærer mindre datatrafikk fordi det verken overfører eller lagrer dupliserte data. Dette kan føre til en reduksjon i den totale mengden båndbredde som organisasjonen trenger.
  • Deduplisering etter prosess: Denne typen deduplisering finner sted etter at data er skrevet og plassert på en eller annen type lagringsenhet.

Her er det verdt å forklare at begge typer datadeduplisering påvirkes av hash-beregningene som er iboende til datadeduplisering. Disse kryptografisk beregninger er integrert for å identifisere gjentatte mønstre i data. Under in-line dedupliseringer utføres disse beregningene i øyeblikket, noe som kan dominere og midlertidig overvelde datamaskinens funksjonalitet. Ved etterbehandling av deduplikasjoner kan hash-beregningene utføres når som helst etter at dataene er lagt til på en måte og på et tidspunkt som ikke overbelaster organisasjonens dataressurser.

De subtile forskjellene mellom dedupliseringstyper slutter ikke der. En annen måte å klassifisere dedupliseringstyper er basert på hvor slike prosesser forekommer.

  • Kilde deduplisering: Denne formen for deduplisering finner sted nær der nye data faktisk genereres. Systemet skanner dette området og oppdager nye kopier av filer, som deretter fjernes.
  • Mål deduplisering: En annen type deduplisering er som en inversjon av kildededuplisering. Ved måldeduplisering dedupliserer systemet alle kopier som finnes i andre områder enn der de originale dataene ble opprettet.

Fordi det er forskjellige typer deduplisering som praktiseres, må fremoverlente organisasjoner ta forsiktige og veloverveide beslutninger angående hvilken type deduplisering som er valgt, og balansere den metoden mot det selskapets spesielle behov.

I mange brukstilfeller kan en organisasjons valg av dedupliseringsmetode meget vel komme ned til en rekke interne variabler, for eksempel følgende:

  • Hvor mange og hvilken type datasett som blir opprettet
  • Organisasjonens primære lagringssystem
  • Hvilke virtuelle miljøer er i bruk
  • Hvilke apper selskapet er avhengig av

Nylig utvikling av datadeduplisering

Som all datamaskinutgang er datadeduplisering klar til å gjøre økende bruk av kunstig intelligens (AI) ettersom den fortsetter å utvikle seg. Dedupe vil bli stadig mer sofistikert ettersom den utvikler enda flere nyanser som hjelper den i jakten på å finne redundansmønstre når blokker med data skannes.

En ny trend innen dedupe er forsterkende læring. Dette bruker et system med belønninger og straffer (som i forsterkningstrening) og bruker en optimal policy for å skille poster eller slå dem sammen i stedet.

En annen trend som er verdt å se er bruken av ensemblemetoder, der forskjellige modeller eller algoritmer brukes i tandem for å sikre enda større nøyaktighet i dedupeprosessen.

Det pågående dilemmaet

IT-verdenen blir stadig mer fiksert på det pågående problemet med dataspredning og hva man skal gjøre med det. Mange bedrifter befinner seg i den vanskelige posisjonen at de samtidig ønsker å beholde alle dataene de har jobbet med å samle, og ønsker også å legge sine overfylte nye data i en hvilken som helst lagringsbeholder som er mulig, om så bare for å få dem ut av veien.

Selv om et slikt dilemma vedvarer, vil vektleggingen av datadeduplisering fortsette ettersom organisasjoner ser på dedupe som det billigere alternativet til å kjøpe mer lagringsplass. For til syvende og sist, selv om vi intuitivt forstår at virksomheten trenger data, vet vi også at data veldig ofte krever deduplisering.

Finn ut hvordan IBM Storage FlashSystem kan hjelpe deg med dine lagringsbehov

Var denne artikkelen til hjelp?

JaNei


Mer fra Cloud




Forretningskontinuitet vs. katastrofegjenoppretting: Hvilken plan passer for deg?

7 min lest - Forretningskontinuitet og katastrofegjenopprettingsplaner er risikostyringsstrategier som bedrifter er avhengige av for å forberede seg på uventede hendelser. Selv om begrepene er nært beslektede, er det noen viktige forskjeller som er verdt å vurdere når du velger den som er riktig for deg: Business Continuity Plan (BCP): En BCP er en detaljert plan som skisserer trinnene en organisasjon vil ta for å gå tilbake til normale forretningsfunksjoner i hendelsen av en katastrofe. Der andre typer planer kan fokusere på ett spesifikt aspekt ved utvinning og avbrudd ...




IBM Tech Now: 29. januar 2024

<1 min lest - ​Velkommen IBM Tech Now, vår videonettserie med de siste og beste nyhetene og kunngjøringene innen teknologiens verden. Sørg for at du abonnerer på YouTube-kanalen vår for å bli varslet hver gang en ny IBM Tech Now-video publiseres. IBM Tech Now: Episode 91 I denne episoden dekker vi følgende emner: IBM Think 2024 IBM Cloud Reservations på IBM Cloud Virtual Servers for VPC Verdantix's Green Quadrant Bli tilkoblet Du kan sjekke ut IBM...




Tar nå reservasjoner: IBM Cloud Virtual Servers for VPC

2 min lest - Ettersom organisasjoner jobber for å redusere utgifter i skymiljøer for bedrifter, står de ofte overfor utfordringen med å passe alle betalingsalternativer gjennom sine skyleverandører. Ettersom veikart og prioriteringer endres på bakgrunn av redusert kapital og strammet ROI, tar organisasjoner sikte på å minimere utgiftsrisikoen gjennom året og skape mer forutsigbare budsjettmiljøer. Når det gjelder utforming av cloud computing-operasjoner, lønner avansert planlegging seg med IBM Cloud Reservations på IBM Cloud Virtual Servers for VPC. Hva er IBM...




Hvordan bygge en vellykket katastrofegjenopprettingsstrategi

6 min lest - Enten din bransje står overfor utfordringer fra geopolitiske stridigheter, nedfall fra en global pandemi eller økende aggresjon i cybersikkerhetsområdet, er trusselvektoren for moderne bedrifter unektelig kraftig. Katastrofegjenopprettingsstrategier gir rammene for teammedlemmer for å få en virksomhet i gang igjen etter en uplanlagt hendelse. Over hele verden øker forståelig nok populariteten til katastrofegjenopprettingsstrategier. I fjor brukte selskaper 219 milliarder USD på nettsikkerhet og løsninger alene, en økning på 12 % fra 2022, ifølge en fersk rapport fra...

IBMs nyhetsbrev

Få våre nyhetsbrev og emneoppdateringer som gir den siste tankeledelsen og innsikt om nye trender.

Abonner nå

Flere nyhetsbrev

Tidstempel:

Mer fra IBM