De senaste åren har vi sett en explosion i spridningen av självlagringsenheter. Dessa stora lagerenheter har vuxit upp nationellt som en blomstrande industri på grund av en anledning - den genomsnittliga personen har nu fler ägodelar än de vet vad de ska göra med.
Samma grundsituation plågar också IT-världen. Vi är mitt i en explosion av data. Även relativt enkla, vardagliga föremål genererar nu rutinmässigt data på egen hand tack vare Internet av saker (IoT) funktionalitet. Aldrig tidigare i historien har så mycket data skapats, samlats in och analyserats. Och aldrig tidigare har fler datahanterare brottats med problemet med hur man lagrar så mycket data.
Ett företag kan initialt misslyckas med att känna igen problemet eller hur stort det kan bli, och sedan måste företaget hitta en utökad lagringslösning. Med tiden kan företaget också växa ur det lagringssystemet, vilket kräver ännu mer investeringar. Oundvikligen kommer företaget att tröttna på det här spelet och kommer att söka ett billigare och enklare alternativ – vilket för oss till dataduplicering.
Även om många organisationer använder sig av datadedupliceringstekniker (eller "dedupe") som en del av sitt datahanteringssystem, är det inte alls lika många som verkligen förstår vad dedupliceringsprocessen är och vad den är avsedd att göra. Så låt oss avmystifiera dedupering och förklara hur datadeduplicering fungerar.
Vad gör deduplicering?
Låt oss först förtydliga vår huvudterm. Datadeduplicering är en process som organisationer använder för att effektivisera sina datalagringar och minska mängden data som de arkiverar genom att eliminera redundanta kopior av data.
Dessutom bör vi påpeka att när vi talar om redundant data, talar vi faktiskt på filnivå och hänvisar till en skenande spridning av datafiler. Så när vi diskuterar insatser för deduplicering av data är det faktiskt ett fildedupliceringssystem som behövs.
Vad är huvudmålet med deduplicering?
Vissa människor har en felaktig uppfattning om datas natur och ser det som en vara som helt enkelt existerar för att samlas in och skördas – som äpplen från ett träd från din egen bakgård.
Verkligheten är att varje ny fil med data kostar pengar. I första hand brukar det kosta pengar att skaffa sådan data (genom köp av datalistor). Eller så krävs det stora ekonomiska investeringar för att en organisation ska kunna samla in och samla in data på egen hand, även om det är data som organisationen själv producerar och samlar in. Datauppsättningar är därför en investering, och precis som alla värdefulla investeringar måste de skyddas strikt.
I det här fallet talar vi om datalagringsutrymme – vare sig det är i form av lokala hårdvaruservrar eller genom Cloud Storage via en molnbaserad datacenter– som måste köpas eller leasas.
Dubblettkopior av data som har genomgått replikering försämrar därför resultatet genom att lägga på ytterligare lagringskostnader utöver de som är förknippade med det primära lagringssystemet och dess lagringsutrymme. Kort sagt, fler lagringsmedietillgångar måste ägnas åt både ny data och redan lagrad data. Någon gång i ett företags bana kan duplicerade data lätt bli en finansiell skuld.
Så, för att sammanfatta, är huvudmålet med datadeduplicering att spara pengar genom att göra det möjligt för organisationer att spendera mindre på extra lagring.
Ytterligare fördelar med deduplicering
Det finns också andra skäl utöver lagringskapacitet för företag att ta till sig lösningar för datadeduplicering – förmodligen ingen viktigare än dataskyddet och förbättringen de tillhandahåller. Organisationer förfinar och optimerar deduplicerade dataarbetsbelastningar så att de körs mer effektivt än data som är full av dubbletter av filer.
En annan viktig aspekt av dedupe är hur det hjälper till att ge en snabb och framgångsrik katastrof återställningsarbete och minimerar mängden dataförlust som ofta kan bli resultatet av en sådan händelse. Dedupe hjälper till att möjliggöra en stabil säkerhetskopieringsprocess så att en organisations säkerhetskopieringssystem är lika med uppgiften att hantera säkerhetskopieringsdata. Förutom att hjälpa till med fullständiga säkerhetskopior, hjälper dedupe också till att behålla arbetet.
Ytterligare en fördel med datadeduplicering är hur bra det fungerar tillsammans med virtuell skrivbordsinfrastruktur (VDI) distributioner, tack vare det faktum att de virtuella hårddiskarna bakom VDI:s fjärrskrivbord fungerar identiskt. Populär Desktop as a Service (DaaS) produkter inkluderar Azure Virtual Desktop från Microsoft och dess Windows VDI. Dessa produkter skapar virtuella maskiner (VM), som skapas under servervirtualiseringsprocessen. Dessa virtuella maskiner förstärker i sin tur VDI-tekniken.
Dedupliceringsmetod
Den vanligaste formen av datadeduplicering är blockdeduplicering. Denna metod fungerar genom att använda automatiserade funktioner för att identifiera dubbletter i datablock och sedan ta bort dessa dubbletter. Genom att arbeta på denna blocknivå kan bitar av unik data analyseras och specificeras som värda att validera och bevara. Sedan, när dedupliceringsmjukvaran upptäcker en upprepning av samma datablock, tas den upprepningen bort och en referens till originaldata inkluderas i dess ställe.
Det är den huvudsakliga formen av dedupe, men knappast den enda metoden. I andra användningsfall fungerar en alternativ metod för datadeduplicering på filnivå. Engångslagring jämför fullständiga kopior av data inom filservern, men inte bitar eller datablock. Liksom dess motsvarighetsmetod beror fildeduplicering på att behålla originalfilen i filsystemet och ta bort extra kopior.
Det bör noteras att dedupliceringstekniker inte fungerar på riktigt samma sätt som datakomprimeringsalgoritmer (t.ex. LZ77, LZ78), även om det är sant att båda strävar efter samma allmänna mål att minska dataredundanser. Dedupliceringstekniker uppnår detta i en större makroskala än komprimeringsalgoritmer, vars mål är mindre om att ersätta identiska filer med delade kopior och mer om att koda dataredundanser mer effektivt.
Typer av datadeduplicering
Det finns olika typer av datadeduplicering beroende på när dedupliceringsprocessen sker:
- Inline deduplicering: Denna form av datadeduplicering sker i ögonblicket – i realtid – när data strömmar inom lagringssystemet. Inline dedupe-systemet bär mindre datatrafik eftersom det varken överför eller lagrar duplicerad data. Detta kan leda till en minskning av den totala mängden bandbredd som organisationen behöver.
- Deduplicering efter process: Denna typ av deduplicering sker efter att data har skrivits och placerats på någon typ av lagringsenhet.
Här är det värt att förklara att båda typerna av datadeduplicering påverkas av hashberäkningarna som är inneboende i datadeduplicering. Dessa kryptografisk beräkningar är viktiga för att identifiera upprepade mönster i data. Under in-line-dedupliceringar utförs dessa beräkningar i ögonblicket, vilket kan dominera och tillfälligt överväldiga datorfunktionalitet. I efterbearbetningsdedupliceringar kan hashberäkningarna utföras när som helst efter att data har lagts till på ett sätt och vid en tidpunkt som inte överbeskattar organisationens datorresurser.
De subtila skillnaderna mellan dedupliceringstyper slutar inte där. Ett annat sätt att klassificera dedupliceringstyper är baserat på var sådana processer inträffar.
- Källdeduplicering: Denna form av deduplicering sker nära där ny data faktiskt genereras. Systemet skannar det området och upptäcker nya kopior av filer, som sedan tas bort.
- Mål deduplicering: En annan typ av deduplicering är som en inversion av källdeduplicering. Vid måldeduplicering deduplicerar systemet alla kopior som finns i andra områden än där originaldatan skapades.
Eftersom det finns olika typer av deduplicering som praktiseras måste framåtlutande organisationer fatta noggranna och övervägda beslut om vilken typ av deduplicering som väljs, och balansera den metoden mot det företagets särskilda behov.
I många användningsfall kan en organisations val av dedupliceringsmetod mycket väl bero på en mängd olika interna variabler, såsom följande:
- Hur många och vilken typ av datamängder skapas
- Organisationens primära lagringssystem
- Vilka virtuella miljöer som används
- Vilka appar företaget litar på
Den senaste utvecklingen av datadeduplicering
Liksom all datorutmatning är datadeduplicering redo att göra allt större användning av artificiell intelligens (AI) allt eftersom det fortsätter att utvecklas. Dedupe kommer att bli allt mer sofistikerad när den utvecklar ännu fler nyanser som hjälper den i jakten på att hitta mönster av redundans när datablock skannas.
En framväxande trend inom dedupe är förstärkningsinlärning. Detta använder ett system med belöningar och straff (som i förstärkningsträning) och tillämpar en optimal policy för att separera poster eller slå samman dem istället.
En annan trend som är värd att titta på är användningen av ensemblemetoder, där olika modeller eller algoritmer används i tandem för att säkerställa ännu större noggrannhet i dedupeprocessen.
Det pågående dilemmat
IT-världen blir allt mer fixerad vid den pågående frågan om dataspridning och vad man ska göra åt det. Många företag befinner sig i den besvärliga situationen att de samtidigt vill behålla all data som de har arbetat med att samla och vill också lägga sin överfulla nya data i vilken lagringsbehållare som helst, om så bara för att få den ur vägen.
Även om ett sådant dilemma kvarstår, kommer tyngdpunkten på datadeduplicering att fortsätta eftersom organisationer ser dedupe som det billigare alternativet till att köpa mer lagring. För i slutändan, även om vi intuitivt förstår att företag behöver data, vet vi också att data mycket ofta kräver deduplicering.
Lär dig hur IBM Storage FlashSystem kan hjälpa dig med dina lagringsbehov
var den här artikeln hjälpsam?
JaNej
Mer från Cloud
IBMs nyhetsbrev
Få våra nyhetsbrev och ämnesuppdateringar som ger det senaste tankeledarskapet och insikter om nya trender.
Prenumerera nu
Fler nyhetsbrev
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
- Källa: https://www.ibm.com/blog/how-does-data-deduplication-work/
- : har
- :är
- :inte
- :var
- $UPP
- 1
- 17
- 19
- 2022
- 2024
- 22
- 28
- 29
- 30
- 300
- 36
- 400
- 41
- 7
- 84
- 9
- 91
- a
- Able
- Om oss
- om det
- rymma
- Enligt
- noggrannhet
- Uppnå
- faktiskt
- lagt till
- Dessutom
- Annat
- avancerat
- reklam
- påverkas
- Efter
- mot
- AI
- AIDS
- Syftet
- algoritmer
- Alla
- ensam
- också
- alternativ
- Även
- mängd
- amp
- an
- analytics
- analyseras
- och
- Meddelanden
- Annan
- vilken som helst
- applicerar
- appar
- ÄR
- OMRÅDE
- områden
- Artikeln
- AS
- aspekt
- Tillgångar
- bistå
- associerad
- At
- Författaren
- Automatiserad
- genomsnitt
- Azure
- tillbaka
- bakgrund
- säkerhetskopiering
- säkerhetskopior
- balansering
- Bandbredd
- baserat
- grundläggande
- BE
- därför att
- blir
- passande
- varit
- innan
- bakom
- Där vi får lov att vara utan att konstant prestera,
- fördel
- Fördelarna
- mellan
- Bortom
- Miljarder
- Blockera
- Block
- Blogg
- bloggar
- Blå
- båda
- Botten
- Bringar
- budgetering
- SLUTRESULTAT
- företag
- kontinuitet i verksamheten
- företag
- men
- Knappen
- by
- KAN
- Kapacitet
- kapital
- kol
- kortet
- Kort
- noggrann
- bära
- fall
- KATT
- Kategori
- Ordförande
- utmanar
- utmaningar
- Kanal
- billigare
- ta
- val
- välja
- valda
- cirklar
- CIS
- klass
- klassificera
- nära
- cloud
- cloud computing
- Samla
- färg
- komma
- kommer
- råvara
- vanligen
- Företag
- företag
- Företagets
- dator
- databehandling
- förening
- anses
- med tanke på
- Behållare
- fortsätta
- fortsätter
- kontinuitet
- kopior
- Kostar
- motsvarighet
- beläggning
- skapa
- skapas
- Korsade
- CSS
- beställnings
- Cybersäkerhet
- daas
- datum
- dataförlust
- datahantering
- dataskydd
- datauppsättningar
- datalagring
- Datum
- beslut
- Standard
- definitioner
- leverera
- avmystifiera
- beroende
- beror
- distributioner
- beskrivning
- design
- desktop
- detaljerad
- utvecklar
- anordning
- skillnader
- olika
- katastrof
- diskutera
- do
- gör
- inte
- dominera
- inte
- ner
- under
- e
- varje
- lätt
- effektivt
- ansträngning
- ansträngningar
- eliminera
- omfamna
- smärgel
- vikt
- ge
- möjliggöra
- möjliggör
- kodning
- änden
- förbättring
- säkerställa
- ange
- Företag
- företag
- miljöer
- episod
- lika
- väsentlig
- Eter (ETH)
- Även
- händelse
- Varje
- dagliga
- utvecklas
- finns
- Utgång
- Förklara
- förklara
- Explosionen
- extra
- Ansikte
- ytorna
- Faktum
- fabrik
- MISSLYCKAS
- Fallout
- falsk
- Med
- Fil
- Filer
- finansiella
- hitta
- finna
- Förnamn
- flöden
- Fokus
- följer
- efter
- typsnitt
- För
- formen
- hittade
- Ramverk
- från
- full
- funktionalitet
- funktioner
- lek
- samla
- samlade ihop
- Allmänt
- generera
- genereras
- Generatorn
- geopolitiska
- skaffa sig
- glas
- Välgörenhet
- global pandemi
- Målet
- större
- störst
- Grön
- Rutnät
- Väx
- sidan
- Arbetsmiljö
- Hård
- hårdvara
- hash
- Har
- Rubrik
- höjd
- hjälpa
- hjälp
- hjälpa
- hjälper
- historia
- Innehav
- Hur ser din drömresa ut
- How To
- HTTPS
- IBM
- IBM Cloud
- ICO
- IKON
- identiska
- identifiera
- identifiera
- if
- bild
- med Esport
- viktig aspekt
- imponerande
- in
- I andra
- incidenter
- innefattar
- ingår
- Öka
- ökat
- ökande
- alltmer
- index
- industrin
- oundvikligen
- Infrastruktur
- inneboende
- initialt
- insikter
- exempel
- istället
- integrerad
- Intelligens
- avsedd
- inre
- invertering
- investering
- iot
- fråga
- IT
- DESS
- sig
- Januari
- jpg
- hålla
- Nyckel
- Vet
- laptop
- Large
- större
- Efternamn
- Förra året
- senaste
- leda
- Ledarskap
- inlärning
- mindre
- Nivå
- ansvar
- tycka om
- linje
- listor
- lokal
- locale
- förlust
- Maskiner
- Makro
- Huvudsida
- göra
- människa
- ledning
- ledningssystem
- chefer
- sätt
- många
- max-bredd
- Maj..
- Media
- Medlemmar
- sammanslagning
- metod
- metoder
- Microsoft
- kanske
- min
- minimera
- minimerar
- minuter
- Mobil
- modeller
- Modern Konst
- ögonblick
- pengar
- mer
- mest
- mycket
- måste
- nationell
- Natur
- Navigering
- Nära
- nästan
- behövs
- behov
- Varken
- aldrig
- Nya
- nyheter
- nyhetsbrev
- Ingen
- inte heller
- noterade
- inget
- Begrepp
- nu
- nyanser
- objekt
- få
- inträffa
- of
- sänkt
- Ofta
- on
- ONE
- pågående
- endast
- öppet
- driva
- fungerar
- Verksamhet
- optimala
- Optimera
- optimerad
- Tillbehör
- or
- organiskt
- organisation
- organisationer
- ursprungliga
- Övriga
- vår
- ut
- konturer
- produktion
- egen
- sida
- pandemi
- del
- särskilt
- mönster
- betalning
- land
- påföljder
- Personer
- utfört
- kvarstår
- personen
- PHP
- Plats
- placeras
- plågor
- Planen
- planering
- planer
- plato
- Platon Data Intelligence
- PlatonData
- Ansluten
- plugin
- Punkt
- redo
- policy
- Populära
- popularitet
- placera
- ägodelar
- möjlig
- Inlägg
- efterbehandling
- Powell
- den mäktigaste
- Förutsägbar
- Förbered
- konservering
- primär
- Problem
- process
- processer
- producerande
- Produkter
- skyddad
- skydd
- ge
- leverantörer
- publicerade
- inköp
- köpt
- inköp
- bedriva
- utförandet
- ganska
- RE
- Läsning
- Verkligheten
- skäl
- senaste
- känner igen
- register
- återvinning
- minska
- Minskad
- reducerande
- reduktion
- referens
- förfina
- om
- förstärkning lärande
- relaterad
- relativt
- förlita
- avlägsen
- ta bort
- avlägsnas
- bort
- upprepade
- replikation
- rapport
- Kräver
- Resurser
- mottaglig
- resultera
- behålla
- retentionstid
- avkastning
- Belöningar
- höger
- stigande
- Risk
- riskhanterings
- färdplaner
- robotar
- Rum
- rutinmässigt
- Körning
- rinnande
- Samma
- Save
- Skala
- skannar
- screen
- skript
- se
- Seek
- SEO
- separerande
- Serier
- server
- servrar
- service
- uppsättningar
- delas
- skifta
- Kort
- skott
- skall
- Enkelt
- enklare
- helt enkelt
- samtidigt
- webbplats
- Sittande
- Situationen
- Small
- So
- Mjukvara
- lösning
- Lösningar
- några
- sofistikerade
- Källa
- Utrymme
- tala
- tala
- specifik
- specificerade
- spendera
- Spendera
- spent
- Sponsrade
- kvadrater
- starta
- bo
- Steg
- Stick
- förvaring
- lagra
- lagrar
- strategier
- Strategi
- effektivisera
- kraftig
- prenumerera
- väsentlig
- framgångsrik
- sådana
- summan
- säker
- SVG
- system
- Ta
- tar
- tar
- tala
- Tandem
- Målet
- uppgift
- grupp
- Gruppmedlemmar
- tech
- tekniker
- Teknologi
- termin
- villkor
- tertiär
- än
- tack
- den där
- Smakämnen
- världen
- deras
- Dem
- tema
- sig själva
- sedan
- Där.
- därför
- Dessa
- de
- saker
- tror
- detta
- de
- trodde
- tanke ledarskap
- hot
- Genom
- hela
- åtdragna
- tid
- Däcket
- Titel
- till
- topp
- ämne
- ämnen
- Totalt
- trafik
- Utbildning
- bana
- överföringar
- träd
- Trend
- Trender
- sann
- verkligen
- SVÄNG
- Typ
- typer
- Ytterst
- onekligen
- genomgått
- förstå
- Förstående
- Oväntat
- unika
- enheter
- Uppdateringar
- på
- URL
- us
- USD
- användning
- Begagnade
- användningar
- med hjälp av
- vanligen
- godkännande
- Värdefulla
- mängd
- mycket
- via
- Video
- visning
- Virtuell
- virtuellt skrivbord
- vs
- W
- önskar
- Warehouse
- var
- tittar
- Sätt..
- we
- webb
- VÄL
- Vad
- när
- som
- medan
- vars
- kommer
- fönster
- med
- inom
- bevittnat
- Wordpress
- Arbete
- arbetade
- arbetssätt
- fungerar
- världen
- inom hela sverige
- värt
- värdiga
- skriven
- år
- år
- dig
- Din
- Youtube
- zephyrnet