De siste årene har vært vitne til en eksplosjon i spredningen av selvlagringsenheter. Disse store lagerenhetene har dukket opp nasjonalt som en blomstrende industri på grunn av én grunn - den gjennomsnittlige personen har nå flere eiendeler enn de vet hva de skal gjøre med.
Den samme grunnsituasjonen plager også IT-verdenen. Vi er midt i en eksplosjon av data. Selv relativt enkle, hverdagslige objekter genererer nå rutinemessig data på egen hånd takket være Internet of Things (IOT) funksjonalitet. Aldri før i historien har så mye data blitt opprettet, samlet inn og analysert. Og aldri før har flere databehandlere kjempet med problemet med hvordan man lagrer så mye data.
Et selskap kan i utgangspunktet ikke gjenkjenne problemet eller hvor stort det kan bli, og deretter må selskapet finne en økt lagringsløsning. Med tiden kan selskapet også vokse ut av det lagringssystemet, noe som krever enda mer investering. Uunngåelig vil selskapet bli lei av dette spillet, og vil søke et billigere og enklere alternativ – noe som bringer oss til datadeduplisering.
Selv om mange organisasjoner bruker datadedupliseringsteknikker (eller "deduplisering") som en del av databehandlingssystemet, er det ikke på langt nær så mange som virkelig forstår hva dedupliseringsprosessen er og hva den er ment å gjøre. Så la oss avmystifisere deduplisering og forklare hvordan datadeduplisering fungerer.
Hva gjør deduplisering?
Først, la oss avklare hovedbegrepet vårt. Datadeduplisering er en prosess organisasjoner bruker for å strømlinjeforme databeholdningen og redusere mengden data de arkiverer ved å eliminere overflødige kopier av data.
Videre bør vi påpeke at når vi snakker om overflødige data, snakker vi faktisk på filnivå og refererer til en voldsom spredning av datafiler. Så når vi diskuterer datadedupliseringsinnsats, er det faktisk et fildedupliseringssystem som trengs.
Hva er hovedmålet med deduplisering?
Noen mennesker har en feilaktig oppfatning av dataens natur, og ser på det som en vare som ganske enkelt eksisterer for å samles og høstes – som epler fra et tre fra din egen bakgård.
Realiteten er at hver ny fil med data koster penger. I første omgang koster det som regel penger å skaffe slike data (gjennom kjøp av datalister). Eller det krever betydelige økonomiske investeringer for en organisasjon å kunne samle inn og samle inn data på egen hånd, selv om det er data som organisasjonen selv produserer og samler inn organisk. Datasett er derfor en investering, og som enhver verdifull investering må de beskyttes strengt.
I dette tilfellet snakker vi om datalagringsplass – enten det er i form av lokale maskinvareservere eller gjennom sky lagring via en skybasert datasenter– som må kjøpes eller leases.
Dupliserte kopier av data som har gjennomgått replikering, reduserer derfor bunnlinjen ved å pålegge ekstra lagringskostnader utover de som er knyttet til det primære lagringssystemet og dets lagringsplass. Kort sagt, flere lagringsmedier må brukes til å imøtekomme både nye data og allerede lagrede data. På et tidspunkt i en bedrifts bane kan dupliserte data lett bli en økonomisk forpliktelse.
Så, for å oppsummere, er hovedmålet med datadeduplisering å spare penger ved å gjøre det mulig for organisasjoner å bruke mindre på ekstra lagring.
Ytterligere fordeler med deduplisering
Det er også andre grunner utover lagringskapasitet for selskaper til å omfavne datadedupliseringsløsninger – sannsynligvis ingen viktigere enn databeskyttelsen og forbedringen de gir. Organisasjoner avgrenser og optimaliserer dedupliserte dataarbeidsbelastninger slik at de kjører mer effektivt enn data som er fulle av dupliserte filer.
Et annet viktig aspekt ved dedupe er hvordan det bidrar til å styrke en rask og vellykket katastrofe gjenopprettingsarbeid og minimerer mengden datatap som ofte kan oppstå fra en slik hendelse. Dedupe bidrar til å aktivere en solid sikkerhetskopieringsprosess slik at en organisasjons backup-system er lik oppgaven med å håndtere sikkerhetskopieringsdataene. I tillegg til å hjelpe med full sikkerhetskopiering, hjelper dedupe også med oppbevaring.
Enda en fordel med datadeduplisering er hvor godt det fungerer sammen med virtuell skrivebordsinfrastruktur (VDI) distribusjoner, takket være det faktum at de virtuelle harddiskene bak VDIs eksterne skrivebord fungerer identisk. Populær Desktop as a Service (DaaS) produktene inkluderer Azure Virtual Desktop fra Microsoft og Windows VDI. Disse produktene skaper virtuelle maskiner (VM-er), som opprettes under servervirtualiseringsprosessen. I sin tur styrker disse virtuelle maskinene VDI-teknologien.
Dedupliseringsmetodikk
Den mest brukte formen for datadeduplisering er blokkdeduplisering. Denne metoden fungerer ved å bruke automatiserte funksjoner for å identifisere dupliseringer i datablokker og deretter fjerne disse duplikasjonene. Ved å jobbe på dette blokknivået kan biter av unike data analyseres og spesifiseres som verdig validering og bevaring. Så, når dedupliseringsprogramvaren oppdager en repetisjon av den samme datablokken, fjernes denne repetisjonen og en referanse til de originale dataene inkluderes i stedet.
Det er hovedformen for dedupe, men neppe den eneste metoden. I andre brukstilfeller fungerer en alternativ metode for datadeduplisering på filnivå. Enkeltforekomstlagring sammenligner fullstendige kopier av data i filserveren, men ikke biter eller blokker av data. I likhet med sin motpartsmetode avhenger fildeduplisering av å beholde den originale filen i filsystemet og fjerne ekstra kopier.
Det skal bemerkes at dedupliseringsteknikker ikke fungerer på helt samme måte som datakomprimeringsalgoritmer (f.eks. LZ77, LZ78), selv om det er sant at begge forfølger det samme generelle målet om å redusere dataredundanser. Dedupliseringsteknikker oppnår dette i en større makroskala enn komprimeringsalgoritmer, hvis mål er mindre om å erstatte identiske filer med delte kopier og mer om mer effektiv koding av dataredundanser.
Typer datadeduplisering
Det finnes ulike typer datadeduplisering avhengig av når dedupliseringsprosessen skjer:
- Inline deduplisering: Denne formen for datadeduplisering skjer i øyeblikket – i sanntid – mens data flyter i lagringssystemet. Det inline dedupe-systemet bærer mindre datatrafikk fordi det verken overfører eller lagrer dupliserte data. Dette kan føre til en reduksjon i den totale mengden båndbredde som organisasjonen trenger.
- Deduplisering etter prosess: Denne typen deduplisering finner sted etter at data er skrevet og plassert på en eller annen type lagringsenhet.
Her er det verdt å forklare at begge typer datadeduplisering påvirkes av hash-beregningene som er iboende til datadeduplisering. Disse kryptografisk beregninger er integrert for å identifisere gjentatte mønstre i data. Under in-line dedupliseringer utføres disse beregningene i øyeblikket, noe som kan dominere og midlertidig overvelde datamaskinens funksjonalitet. Ved etterbehandling av deduplikasjoner kan hash-beregningene utføres når som helst etter at dataene er lagt til på en måte og på et tidspunkt som ikke overbelaster organisasjonens dataressurser.
De subtile forskjellene mellom dedupliseringstyper slutter ikke der. En annen måte å klassifisere dedupliseringstyper er basert på hvor slike prosesser forekommer.
- Kilde deduplisering: Denne formen for deduplisering finner sted nær der nye data faktisk genereres. Systemet skanner dette området og oppdager nye kopier av filer, som deretter fjernes.
- Mål deduplisering: En annen type deduplisering er som en inversjon av kildededuplisering. Ved måldeduplisering dedupliserer systemet alle kopier som finnes i andre områder enn der de originale dataene ble opprettet.
Fordi det er forskjellige typer deduplisering som praktiseres, må fremoverlente organisasjoner ta forsiktige og veloverveide beslutninger angående hvilken type deduplisering som er valgt, og balansere den metoden mot det selskapets spesielle behov.
I mange brukstilfeller kan en organisasjons valg av dedupliseringsmetode meget vel komme ned til en rekke interne variabler, for eksempel følgende:
- Hvor mange og hvilken type datasett som blir opprettet
- Organisasjonens primære lagringssystem
- Hvilke virtuelle miljøer er i bruk
- Hvilke apper selskapet er avhengig av
Nylig utvikling av datadeduplisering
Som all datamaskinutgang er datadeduplisering klar til å gjøre økende bruk av kunstig intelligens (AI) ettersom den fortsetter å utvikle seg. Dedupe vil bli stadig mer sofistikert ettersom den utvikler enda flere nyanser som hjelper den i jakten på å finne redundansmønstre når blokker med data skannes.
En ny trend innen dedupe er forsterkende læring. Dette bruker et system med belønninger og straffer (som i forsterkningstrening) og bruker en optimal policy for å skille poster eller slå dem sammen i stedet.
En annen trend som er verdt å se er bruken av ensemblemetoder, der forskjellige modeller eller algoritmer brukes i tandem for å sikre enda større nøyaktighet i dedupeprosessen.
Det pågående dilemmaet
IT-verdenen blir stadig mer fiksert på det pågående problemet med dataspredning og hva man skal gjøre med det. Mange bedrifter befinner seg i den vanskelige posisjonen at de samtidig ønsker å beholde alle dataene de har jobbet med å samle, og ønsker også å legge sine overfylte nye data i en hvilken som helst lagringsbeholder som er mulig, om så bare for å få dem ut av veien.
Selv om et slikt dilemma vedvarer, vil vektleggingen av datadeduplisering fortsette ettersom organisasjoner ser på dedupe som det billigere alternativet til å kjøpe mer lagringsplass. For til syvende og sist, selv om vi intuitivt forstår at virksomheten trenger data, vet vi også at data veldig ofte krever deduplisering.
Finn ut hvordan IBM Storage FlashSystem kan hjelpe deg med dine lagringsbehov
Var denne artikkelen til hjelp?
JaNei
Mer fra Cloud
IBMs nyhetsbrev
Få våre nyhetsbrev og emneoppdateringer som gir den siste tankeledelsen og innsikt om nye trender.
Abonner nå
Flere nyhetsbrev
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
- PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
- PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
- PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
- kilde: https://www.ibm.com/blog/how-does-data-deduplication-work/
- : har
- :er
- :ikke
- :hvor
- $OPP
- 1
- 17
- 19
- 2022
- 2024
- 22
- 28
- 29
- 30
- 300
- 36
- 400
- 41
- 7
- 84
- 9
- 91
- a
- I stand
- Om oss
- om det
- imøtekomme
- Ifølge
- nøyaktighet
- Oppnå
- faktisk
- la til
- tillegg
- Ytterligere
- avansert
- Annonsering
- påvirkes
- Etter
- mot
- AI
- hjelpemidler
- sikte
- algoritmer
- Alle
- alene
- også
- alternativ
- Selv
- beløp
- amp
- an
- analytics
- analysert
- og
- Kunngjøringer
- En annen
- noen
- gjelder
- apps
- ER
- AREA
- områder
- Artikkel
- AS
- aspektet
- Eiendeler
- bistå
- assosiert
- At
- forfatter
- Automatisert
- gjennomsnittlig
- Azure
- tilbake
- bakteppe
- Backup
- sikkerhetskopier
- balansering
- Båndbredde
- basert
- grunnleggende
- BE
- fordi
- bli
- bli
- vært
- før du
- bak
- være
- nytte
- Fordeler
- mellom
- Beyond
- Milliarder
- Blokker
- Blocks
- Blogg
- blogger
- Blå
- både
- Bunn
- Bringer
- budsjettering
- bygge
- virksomhet
- Forretnings kontinuitet
- bedrifter
- men
- knapp
- by
- CAN
- Kapasitet
- hovedstad
- karbon
- kort
- Kort
- forsiktig
- bære
- saker
- CAT
- Kategori
- Chair
- utfordre
- utfordringer
- Kanal
- billigere
- sjekk
- valg
- velge
- valgt ut
- sirkler
- CIS
- klasse
- Klassifisere
- tett
- Cloud
- cloud computing
- Samle
- farge
- Kom
- kommer
- handelsvare
- vanligvis
- Selskaper
- Selskapet
- Selskapets
- datamaskin
- databehandling
- sammen
- ansett
- vurderer
- Container
- fortsette
- fortsetter
- kontinuitet
- kopier
- Kostnader
- motstykke
- dekker
- skape
- opprettet
- Crossed
- CSS
- skikk
- Cybersecurity
- daas
- dato
- Data Loss
- Dataledelse
- databeskyttelse
- datasett
- datalagring
- Dato
- avgjørelser
- Misligholde
- definisjoner
- leverer
- avmystifisere
- avhengig
- avhenger
- distribusjoner
- beskrivelse
- utforme
- desktop
- detaljert
- utvikler
- enhet
- forskjeller
- forskjellig
- katastrofe
- diskutere
- do
- gjør
- ikke
- dominerer
- ikke
- ned
- under
- e
- hver enkelt
- lett
- effektivt
- innsats
- innsats
- eliminere
- omfavne
- Emery
- vekt
- bemyndige
- muliggjøre
- muliggjør
- koding
- slutt
- ekstrautstyr
- sikre
- Enter
- Enterprise
- bedrifter
- miljøer
- episode
- lik
- avgjørende
- Eter (ETH)
- Selv
- Event
- Hver
- hverdagen
- utvikle seg
- finnes
- Utgang
- Forklar
- forklare
- eksplosjon
- ekstra
- Face
- ansikter
- Faktisk
- fabrikk
- FAIL
- nedfall
- falsk
- Featuring
- filet
- Filer
- finansiell
- Finn
- finne
- Først
- Flows
- Fokus
- følge
- etter
- fonter
- Til
- skjema
- funnet
- Rammeverk
- fra
- fullt
- funksjonalitet
- funksjoner
- spill
- samle
- samlet
- general
- generere
- generert
- generator
- geopolitiske
- få
- briller
- Global
- global pandemi
- mål
- større
- størst
- Grønn
- Grid
- Grow
- hånd
- Håndtering
- Hard
- maskinvare
- hash
- Ha
- Overskrift
- høyde
- hjelpe
- nyttig
- hjelpe
- hjelper
- historie
- Holdings
- Hvordan
- Hvordan
- HTTPS
- IBM
- IBM Cloud
- ICO
- ICON
- identiske
- identifisere
- identifisering
- if
- bilde
- viktig
- viktig aspekt
- pålegge
- in
- I andre
- hendelser
- inkludere
- inkludert
- Øke
- økt
- økende
- stadig
- indeks
- industri
- uunngåelig
- Infrastruktur
- iboende
- i utgangspunktet
- innsikt
- f.eks
- i stedet
- integrert
- Intelligens
- tiltenkt
- intern
- inversjon
- investering
- IOT
- utstedelse
- IT
- DET ER
- selv
- Januar
- jpg
- holde
- nøkkel
- Vet
- laptop
- stor
- større
- Siste
- I fjor
- siste
- føre
- Ledelse
- læring
- mindre
- Nivå
- ansvar
- i likhet med
- linje
- lister
- lokal
- lokale
- tap
- maskiner
- Makro
- Hoved
- gjøre
- mann
- ledelse
- styringssystem
- Ledere
- måte
- mange
- max bredde
- Kan..
- Media
- medlemmer
- sammenslåing
- metode
- metoder
- Microsoft
- kunne
- minutter
- minimere
- minimerer
- minutter
- Mobil
- modeller
- Moderne
- øyeblikk
- penger
- mer
- mest
- mye
- må
- nasjonalt
- Natur
- Navigasjon
- Nær
- nesten
- nødvendig
- behov
- Ingen
- aldri
- Ny
- nyheter
- nyhetsbrev
- none
- eller
- bemerket
- ingenting
- Forestilling
- nå
- skyggelegging
- gjenstander
- få
- forekomme
- of
- off
- ofte
- on
- ONE
- pågående
- bare
- åpen
- betjene
- opererer
- Drift
- optimal
- Optimalisere
- optimalisert
- alternativer
- or
- organisk
- organisasjon
- organisasjoner
- original
- Annen
- vår
- ut
- skisserer
- produksjon
- egen
- side
- pandemi
- del
- Spesielt
- mønstre
- betaling
- land
- straffer
- Ansatte
- utført
- vedvarer
- person
- PHP
- Sted
- plasseres
- Plager
- fly
- planlegging
- planer
- plato
- Platon Data Intelligence
- PlatonData
- Tilkoblet
- plugg inn
- Point
- klar
- politikk
- Populær
- popularitet
- posisjon
- eiendeler
- mulig
- Post
- post-prosessering
- Powell
- kraftig
- Forutsigbar
- Forbered
- bevaring
- primære
- Problem
- prosess
- Prosesser
- produserende
- Produkter
- beskyttet
- beskyttelse
- gi
- tilbydere
- publisert
- Kjøp
- kjøpt
- innkjøp
- forfølge
- forfølgelse
- ganske
- RE
- Lesning
- Reality
- grunner
- nylig
- gjenkjenne
- poster
- utvinning
- redusere
- Redusert
- redusere
- reduksjon
- referanse
- avgrense
- om
- forsterkning læring
- i slekt
- relativt
- avhengige
- fjernkontroll
- fjerne
- fjernet
- fjerne
- gjentatt
- replikering
- rapporterer
- Krever
- Ressurser
- responsive
- resultere
- beholde
- oppbevaring
- retur
- Belønninger
- ikke sant
- stiger
- Risiko
- risikostyring
- veikart
- roboter
- rom
- rutinemessig
- Kjør
- rennende
- samme
- Spar
- Skala
- skanner
- Skjerm
- skript
- se
- Søke
- SEO
- separering
- Serien
- server
- servere
- tjeneste
- sett
- delt
- skift
- Kort
- shot
- bør
- Enkelt
- enklere
- ganske enkelt
- samtidig
- nettstedet
- Sittende
- situasjon
- liten
- So
- Software
- løsning
- Solutions
- noen
- sofistikert
- kilde
- Rom
- snakke
- sett
- spesifikk
- spesifisert
- bruke
- utgifter
- brukt
- Sponset
- firkanter
- Begynn
- opphold
- Steps
- Stick
- lagring
- oppbevare
- butikker
- strategier
- Strategi
- effektivisere
- solid
- abonnere
- betydelig
- vellykket
- slik
- sum
- sikker
- SVG
- system
- Ta
- tar
- ta
- snakker
- tandem
- Target
- Oppgave
- lag
- Lag medlemmer
- tech
- teknikker
- Teknologi
- begrep
- vilkår
- tertiære
- enn
- Takk
- Det
- De
- verden
- deres
- Dem
- tema
- seg
- deretter
- Der.
- derfor
- Disse
- de
- ting
- tror
- denne
- De
- trodde
- tenkte ledelse
- trussel
- Gjennom
- hele
- strammet
- tid
- dekk
- Tittel
- til
- topp
- Tema
- temaer
- Totalt
- trafikk
- Kurs
- bane
- overføringer
- Treet
- Trend
- Trender
- sant
- virkelig
- SVING
- typen
- typer
- Til syvende og sist
- unektelig
- gått
- forstå
- Forståelig
- Uventet
- unik
- lomper
- oppdateringer
- upon
- URL
- us
- USD
- bruke
- brukt
- bruker
- ved hjelp av
- vanligvis
- validering
- Verdifull
- variasjon
- veldig
- av
- video
- ser
- virtuelle
- virtuelt skrivebord
- vs
- W
- ønsker
- Warehouse
- var
- se
- Vei..
- we
- web
- VI VIL
- Hva
- når
- hvilken
- mens
- hvem sin
- vil
- vinduer
- med
- innenfor
- vitne
- WordPress
- Arbeid
- arbeidet
- arbeid
- virker
- verden
- verdensomspennende
- verdt
- verdig
- skrevet
- år
- år
- du
- Din
- youtube
- zephyrnet