How Does Data Deduplication Work? - IBM Blog

Újra kiadta Platón

Követő: 0

Hogyan működik az adatduplikáció? – IBM Blog

Az elmúlt években robbanásszerűen megnőtt az öntároló egységek elterjedése. Ezek a nagy raktáregységek országosan virágzó iparággá nőttek fel egy ok miatt – az átlagembernek ma már több vagyona van, mint amennyivel tud mit kezdeni.

Ugyanez az alaphelyzet sújtja az IT világát is. Az adatrobbanás kellős közepén vagyunk. Még a viszonylag egyszerű, hétköznapi tárgyak is ma már rutinszerűen generálnak adatokat maguktól, köszönhetően Internet of Things (IoT) funkcionalitás. A történelem során még soha nem hoztak létre, gyűjtöttek és elemeztek ennyi adatot. És még soha nem birkózott több adatkezelő azzal a problémával, hogy hogyan lehet ennyi adatot tárolni.

Előfordulhat, hogy egy vállalat kezdetben nem ismeri fel a problémát, vagy annak mértékét, majd a vállalatnak nagyobb tárolási megoldást kell találnia. Idővel a vállalat is kinőheti ezt a tárolórendszert, ami még több beruházást igényel. A cég elkerülhetetlenül belefárad ebbe a játékba, és olcsóbb és egyszerűbb megoldást keres majd – ami elvezet bennünket adatduplikáció.

Bár sok szervezet adatduplikációs technikákat (vagy „deduplikálást”) alkalmaz adatkezelési rendszerének részeként, közel sem értik igazán, hogy mi a deduplikációs folyamat, és mi a célja. Tehát demisztifikáljuk a deduplikációt, és magyarázzuk el, hogyan működik az adatduplikáció.

Mit csinál a deduplikáció?

Először is tisztázzuk a fő fogalmunkat. Az adatok deduplikációja egy folyamat, amelyet a szervezetek az adatállomány egyszerűsítésére és az archiválásra kerülő adatok mennyiségének csökkentésére használnak azáltal, hogy megszüntetik az adatok redundáns másolatait.

Ezenkívül hangsúlyoznunk kell, hogy amikor redundáns adatokról beszélünk, valójában fájlszintről beszélünk, és az adatfájlok burjánzó elterjedésére utalunk. Tehát amikor az adatok deduplikációs erőfeszítéseiről beszélünk, akkor valójában egy fájl deduplikációs rendszerre van szükség.

Mi a deduplikáció fő célja?

Vannak, akik téves elképzelést hordoznak az adatok természetéről, és olyan árunak tekintik őket, amely egyszerűen csak azért létezik, hogy összegyűjtsék és betakarítsák – mint az alma a fáról a saját kertjében.

A valóság az, hogy minden új adatfájl pénzbe kerül. Először is általában pénzbe kerül az ilyen adatok megszerzése (adatlisták vásárlása révén). Vagy jelentős pénzügyi befektetésre van szükség ahhoz, hogy egy szervezet önállóan tudjon adatokat gyűjteni és gyűjteni, még akkor is, ha olyan adatokat, amelyeket a szervezet maga állít elő és gyűjt szervesen. Az adatkészletek ezért befektetést jelentenek, és mint minden értékes befektetést, ezeket is szigorúan védeni kell.

Ebben az esetben adattárhelyről beszélünk – legyen szó helyszíni hardverkiszolgálókról vagy felhő tárolási felhő alapú adatközpont– amelyet meg kell vásárolni vagy lízingelni kell.

A replikáción átesett adatok duplikált másolatai ezért az elsődleges tárolórendszerrel és annak tárterületével kapcsolatos költségeken túlmenően rontják a lényeget. Röviden, több adathordozó eszközt kell fordítani az új adatok és a már tárolt adatok befogadására. Egy vállalat pályájának egy pontján a megkettőzött adatok könnyen pénzügyi kötelezettséggé válhatnak.

Összefoglalva tehát, az adatok deduplikációjának fő célja a pénzmegtakarítás, mivel lehetővé teszi a szervezetek számára, hogy kevesebbet költsenek extra tárhelyre.

A deduplikáció további előnyei

A tárolókapacitáson kívül más okok is vannak arra, hogy a vállalatok elfogadják az adatduplikációs megoldásokat – valószínűleg semmi sem lényegesebb, mint az általuk biztosított adatvédelem és fejlesztés. A szervezetek finomítják és optimalizálják a deduplikált adatterheléseket, így azok hatékonyabban fognak futni, mint a duplikált fájloktól hemzsegő adatok.

A dedupe másik fontos szempontja, hogy miként segíti a gyors és sikeres munkavégzést katasztrófa helyreállítási erőfeszítést, és minimálisra csökkenti az ilyen eseményekből gyakran előforduló adatvesztést. A Dedupe lehetővé teszi a stabil biztonsági mentési folyamatot, így a szervezet biztonsági mentési rendszere egyenlő a biztonsági mentési adatok kezelésével. Amellett, hogy segít a teljes biztonsági mentésben, a dedupe a megőrzési erőfeszítéseket is segíti.

Az adatduplikáció további előnye, hogy mennyire jól működik együtt virtuális asztali infrastruktúra (VDI) telepítések, köszönhetően annak, hogy a VDI távoli asztalai mögötti virtuális merevlemezek azonosan működnek. Népszerű Desktop as a Service (DaaS) termékek közé tartozik a Microsoft Azure Virtual Desktop és a Windows VDI. Ezek a termékek létrehoznak virtuális gépek (VM-ek), amelyek a szerver virtualizációs folyamata során jönnek létre. Ezek a virtuális gépek viszont lehetővé teszik a VDI technológiát.

Deduplikációs módszertan

Az adatduplikáció leggyakrabban használt formája a blokkduplikáció. Ez a módszer úgy működik, hogy automatizált funkciókat használ az adatblokkok ismétlődéseinek azonosítására, majd az ismétlődések eltávolítására. Ezen a blokkszinten dolgozva egyedi adatok darabjai elemezhetők, és meghatározhatók, hogy érdemesek validálásra és megőrzésre. Ezután, amikor a deduplikációs szoftver ugyanazon adatblokk ismétlődését észleli, az ismétlődés törlődik, és az eredeti adatokra való hivatkozás kerül a helyére.

Ez a dedupe fő formája, de aligha az egyetlen módszer. Más felhasználási esetekben az adatduplikáció egy másik módszere működik fájlszinten. Az egypéldányos tárolás a fájlszerveren belüli adatok teljes másolatait hasonlítja össze, de nem adatdarabokat vagy adatblokkokat. A megfelelő módszerhez hasonlóan a fájlok deduplikációja attól függ, hogy az eredeti fájlt a fájlrendszerben kell tartani, és eltávolítani a felesleges másolatokat.

Meg kell jegyezni, hogy a deduplikációs technikák nem teljesen úgy működnek, mint az adattömörítési algoritmusok (pl. LZ77, LZ78), bár igaz, hogy mindkettő ugyanazt az általános célt szolgálja, az adatredundanciák csökkentését. A deduplikációs technikák ezt nagyobb, makró léptékben érik el, mint a tömörítési algoritmusok, amelyek célja nem az azonos fájlok megosztott másolatokkal való helyettesítése, hanem az adatredundanciák hatékonyabb kódolása.

Az adatduplikáció típusai

Az adatok deduplikációjának különböző típusai vannak attól függően amikor a deduplikációs folyamat megy végbe:

Soron belüli deduplikáció: Az adatok deduplikációjának ez a formája a tárolórendszeren belüli adatáramlás pillanatában – valós időben – megtörténik. Az inline dedupe rendszer kevesebb adatforgalmat hordoz, mivel nem továbbít és nem tárol duplikált adatokat. Ez a szervezet által igényelt teljes sávszélesség csökkenéséhez vezethet.
Folyamat utáni deduplikáció: Az ilyen típusú deduplikáció az adatok írása és bizonyos típusú tárolóeszközön való elhelyezése után történik.

Itt érdemes elmagyarázni, hogy mindkét típusú adatduplikációt érintik az adatduplikációban rejlő hash-számítások. Ezek kriptográfiai A számítások szerves részét képezik az adatok ismétlődő mintáinak azonosításának. A soron belüli deduplikáció során azokat a számításokat a pillanatban hajtják végre, amelyek dominálhatják és átmenetileg túlterhelhetik a számítógép funkcionalitását. Az utófeldolgozási deduplikációk során a hash-számítások az adatok hozzáadását követően bármikor elvégezhetők olyan módon és időben, amely nem terheli túl a szervezet számítógépes erőforrásait.

A deduplikációs típusok közötti finom különbségek még nem értek véget. A deduplikációs típusok osztályozásának másik módja a ahol ilyen folyamatok fordulnak elő.

Forrás deduplikáció: A deduplikáció ezen formája az új adatok tényleges előállítási helyének közelében történik. A rendszer átvizsgálja ezt a területet, és észleli a fájlok új másolatait, amelyeket ezután eltávolít.
Cél deduplikáció: A deduplikáció egy másik típusa a forrás deduplikáció megfordítása. A cél deduplikáció során a rendszer minden olyan másolatot deduplikál, amely nem az eredeti adatok létrehozásának helyén található.

Mivel a deduplikációnak különböző típusai vannak, az előremutató szervezeteknek körültekintő és megfontolt döntéseket kell hozniuk a választott deduplikáció típusát illetően, egyensúlyba hozva ezt a módszert a vállalat sajátos igényeivel.

Sok esetben a szervezet által választott deduplikációs módszer nagyon sokféle belső változóra vezethető vissza, például a következőkre:

Hány és milyen típusú adatkészlet készül
A szervezet elsődleges tárolórendszere
Milyen virtuális környezetek vannak használatban
Milyen alkalmazásokra támaszkodik a vállalat

Legutóbbi adatduplikációs fejlesztések

Mint minden számítógépes kimenet, az adatok deduplikációja is egyre inkább kihasználható mesterséges intelligencia (AI) ahogy tovább fejlődik. A Dedupe egyre kifinomultabb lesz, ahogy még több árnyalatot fejleszt ki, amelyek segítik a redundancia mintáinak keresésében az adatblokkok szkennelésekor.

A dedupe egyik feltörekvő trendje a megerősítéses tanulás. Ez jutalmazási és büntetési rendszert használ (mint a megerősítő képzésben), és optimális házirendet alkalmaz a rekordok szétválasztására vagy egyesítésére.

Egy másik figyelemre méltó tendencia az ensemble metódusok használata, amelyek során különböző modelleket vagy algoritmusokat használnak párhuzamosan, hogy még nagyobb pontosságot biztosítsanak a dedupe folyamaton belül.

Folyamatos dilemma

Az informatikai világ egyre jobban foglalkozik az adatszaporodás folyamatban lévő kérdésével és azzal, hogy mit kell tenni ellene. Sok vállalat kerül abba a kínos helyzetbe, hogy egyszerre meg akarja őrizni az összes felhalmozott adatot, és a túlcsorduló új adatait bármilyen tárolóedénybe szeretné helyezni, már csak azért is, hogy eltüntesse azokat.

Bár ez a dilemma továbbra is fennáll, az adatok deduplikációjára tett erőfeszítések hangsúlya továbbra is megmarad, mivel a szervezetek a dedupe-ot a több tárhely vásárlásának olcsóbb alternatívájának tekintik. Mert végső soron, bár intuitív módon megértjük, hogy az üzleti életnek adatokra van szüksége, azt is tudjuk, hogy az adatok gyakran megkövetelik a deduplikációt.

Ismerje meg, hogyan segíthet az IBM Storage FlashSystem a tárolási igényeinek kielégítésében

Hasznos volt ez a cikk?

IgenNem

Továbbiak a Cloudból

Január 29, 2024

Üzleti folytonosság kontra katasztrófa utáni helyreállítás: melyik terv a megfelelő az Ön számára?

7 min olvasni - Az üzletmenet-folytonossági és katasztrófa-helyreállítási tervek olyan kockázatkezelési stratégiák, amelyekre a vállalkozások támaszkodnak, hogy felkészüljenek a váratlan eseményekre. Bár a kifejezések szorosan összefüggenek, van néhány kulcsfontosságú különbség, amelyet érdemes figyelembe venni, amikor kiválasztja, melyik az Ön számára megfelelő: Üzletmenet-folytonossági terv (BCP): A BCP egy részletes terv, amely felvázolja azokat a lépéseket, amelyeket a szervezet megtesz, hogy visszatérjen a normál üzleti funkciókhoz. a katasztrófa eseménye. Ahol más típusú tervek a helyreállítás és a megszakítás egy konkrét aspektusára összpontosíthatnak…

Január 29, 2024

IBM Tech Now: 29. január 2024

<1 min olvasni - Üdvözöljük az IBM Tech Now webes videósorozatunkban, amely a technológia világának legújabb és legjobb híreit és bejelentéseit tartalmazza. Feltétlenül iratkozzon fel YouTube-csatornánkra, hogy minden alkalommal értesítést kapjon, amikor új IBM Tech Now videót tesznek közzé. IBM Tech Now: 91. epizód Ebben az epizódban a következő témákkal foglalkozunk: IBM Think 2024 IBM felhőfoglalások IBM felhőalapú virtuális szervereken a VPC Verdantix Green Quadrant számára Maradjon csatlakoztatva Megnézheti az IBM…

Szemüveges ember ül egy széken, keresztbe tett lábbal, és egyik kezével a nyitott laptop billentyűzetén

Január 22, 2024

Foglalások most: IBM Cloud Virtual Servers for VPC

2 min olvasni - Miközben a szervezetek azon fáradoznak, hogy csökkentsék a kiadásaikat a vállalati felhőkörnyezeteken belül, gyakran szembesülnek azzal a kihívással, hogy felhőszolgáltatóikon keresztül minden fizetési lehetőség egy méretben használható. Ahogy az ütemtervek és a prioritások a csökkentett tőke és a szigorodó ROI hátterében változnak, a szervezetek célja a kiadások kockázatának minimalizálása az év során, és kiszámíthatóbb költségvetési környezet kialakítása. Amikor a számítási felhő műveletek tervezéséről van szó, a fejlett tervezés kifizetődik az IBM Cloud Reservations segítségével az IBM Cloud Virtual Servers for VPC-n. Mik azok az IBM…

Január 19, 2024

Hogyan építsünk fel egy sikeres katasztrófa-helyreállítási stratégiát

6 min olvasni - Akár a geopolitikai viszályok, akár a globális világjárvány következményei, akár a kiberbiztonsági tér növekvő agressziója miatti kihívásokkal néz szembe az Ön iparága, a modern vállalatok fenyegetési vektora tagadhatatlanul erős. A katasztrófa utáni helyreállítási stratégiák keretet biztosítanak a csapattagoknak ahhoz, hogy egy nem tervezett esemény után újra üzembe helyezhessék az üzletet. Világszerte érthető módon növekszik a katasztrófa utáni helyreállítási stratégiák népszerűsége. Tavaly a vállalatok 219 milliárd USD-t költöttek csak a kiberbiztonságra és a megoldásokra, ami 12%-os növekedés 2022-hez képest – derül ki a…

IBM hírlevelek

Szerezze meg hírleveleinket és témafrissítéseinket, amelyek a legújabb gondolatvezetést és betekintést nyújtanak a feltörekvő trendekre.

Kattintson ide!

További hírlevelek

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://www.ibm.com/blog/how-does-data-deduplication-work/

Időbélyeg: Január 29, 2024

Időbélyeg: 8. február 2023.

Újra kiadta Platón

Mit csinál a deduplikáció?

Mi a deduplikáció fő célja?

A deduplikáció további előnyei

Deduplikációs módszertan

Az adatduplikáció típusai

Legutóbbi adatduplikációs fejlesztések

Folyamatos dilemma

Továbbiak a Cloudból

Üzleti folytonosság kontra katasztrófa utáni helyreállítás: melyik terv a megfelelő az Ön számára?

IBM Tech Now: 29. január 2024

Foglalások most: IBM Cloud Virtual Servers for VPC

Hogyan építsünk fel egy sikeres katasztrófa-helyreállítási stratégiát

Az OpenShift 4.13-as verziója már elérhető a Red Hat OpenShiftben az IBM Cloudon – IBM Blog

A vállalatoknak egyedi igényeikre szabott, saját egyedi adataikkal rendelkező generatív AI-ra van szükségük

Az IBM Cloud Infrastructure mint kóddal való megfelelés egyszerűsítése és balra váltás – IBM Blog

Felhő-ökoszisztémák kezelése: A munkaterhelés folytonosságának fenntartása a dolgozói csomópontok frissítése során – IBM Blog

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók