Jak działa deduplikacja danych? - Blog IBM

Opublikowane ponownie przez Plato

Obserwuje: 0

Jak działa deduplikacja danych? — Blog IBM

W ostatnich latach nastąpił gwałtowny wzrost liczby modułów typu self-storage. Te duże magazyny stały się dynamicznie rozwijającym się przemysłem w całym kraju z jednego powodu — przeciętny człowiek ma obecnie więcej rzeczy, niż wie, co zrobić.

Ta sama podstawowa sytuacja nęka także świat IT. Jesteśmy w trakcie eksplozji danych. Nawet stosunkowo proste przedmioty codziennego użytku rutynowo generują obecnie dane samodzielnie, dzięki Internet przedmiotów (Internet przedmiotów) funkcjonalność. Nigdy wcześniej w historii nie stworzono, nie zebrano i nie przeanalizowano tak dużej ilości danych. Nigdy wcześniej więcej menedżerów danych nie zmagało się z problemem przechowywania tak dużej ilości danych.

Firma może początkowo nie rozpoznać problemu ani tego, jak duży może być, a następnie musi znaleźć lepsze rozwiązanie w zakresie przechowywania. Z czasem firma może również przerosnąć ten system przechowywania, co będzie wymagało jeszcze większych inwestycji. Nieuchronnie firma zmęczy się tą grą i będzie szukać tańszej i prostszej opcji – co nas prowadzi deduplikacja danych.

Chociaż wiele organizacji korzysta z technik deduplikacji danych („deduplikacji”) w ramach swoich systemów zarządzania danymi, niewiele z nich tak naprawdę rozumie, na czym polega proces deduplikacji i do czego jest przeznaczony. Wyjaśnijmy więc, jak działa deduplikacja danych i wyjaśnijmy, jak działa deduplikacja.

Do czego służy deduplikacja?

Najpierw wyjaśnijmy nasz główny termin. Deduplikacja danych to proces stosowany przez organizacje w celu usprawnienia przechowywania danych i zmniejszenia ilości archiwizowanych danych poprzez eliminację zbędnych kopii danych.

Ponadto powinniśmy podkreślić, że mówiąc o zbędnych danych, w rzeczywistości mówimy na poziomie pliku i mamy na myśli szalejące rozprzestrzenianie się plików danych. Kiedy więc omawiamy wysiłki związane z deduplikacją danych, tak naprawdę potrzebny jest system deduplikacji plików.

Jaki jest główny cel deduplikacji?

Niektórzy ludzie żywią błędne wyobrażenie o naturze danych, postrzegając je jako towar, który po prostu istnieje po to, aby go gromadzić i zbierać – jak jabłka z drzewa z własnego podwórka.

Rzeczywistość jest taka, że każdy nowy plik danych kosztuje. Po pierwsze, uzyskanie takich danych jest zwykle kosztowne (poprzez zakup list danych). Lub też wymaga znacznych inwestycji finansowych, aby organizacja mogła samodzielnie gromadzić i gromadzić dane, nawet jeśli są to dane, które sama organizacja wytwarza i gromadzi w sposób organiczny. Zbiory danych stanowią zatem inwestycję i jak każda wartościowa inwestycja muszą być rygorystycznie chronione.

W tym przypadku mówimy o przestrzeni do przechowywania danych — czy to w postaci lokalnych serwerów sprzętowych, czy za pośrednictwem przechowywanie w chmurze za pośrednictwem chmury centrum danych– które należy kupić lub wydzierżawić.

Zduplikowane kopie danych, które zostały poddane replikacji, pogarszają zatem wyniki finansowe, narzucając dodatkowe koszty przechowywania, wykraczające poza te związane z podstawowym systemem pamięci masowej i jego przestrzenią do przechowywania. Krótko mówiąc, należy przeznaczyć więcej zasobów nośników pamięci, aby pomieścić zarówno nowe, jak i już przechowywane dane. Na pewnym etapie działalności firmy zduplikowane dane mogą łatwo stać się obciążeniem finansowym.

Podsumowując, głównym celem deduplikacji danych jest zaoszczędzenie pieniędzy poprzez umożliwienie organizacjom wydawania mniej na dodatkową pamięć masową.

Dodatkowe korzyści z deduplikacji

Oprócz pojemności pamięci masowej firmy decydują się na rozwiązania do deduplikacji danych także z innych powodów — prawdopodobnie żaden z nich nie jest bardziej istotny niż zapewniana przez nie ochrona i ulepszanie danych. Organizacje udoskonalają i optymalizują obciążenia związane z deduplikowanymi danymi, aby działały wydajniej niż dane zawierające duplikaty plików.

Innym ważnym aspektem dedupe jest to, jak pomaga zapewnić szybkość i skuteczność katastrofa wysiłku związanego z odzyskiwaniem danych i minimalizuje ilość utraty danych, która często może wynikać z takiego zdarzenia. Dedupe pomaga zapewnić solidny proces tworzenia kopii zapasowych, dzięki czemu system tworzenia kopii zapasowych organizacji jest w stanie sprostać zadaniu obsługi danych kopii zapasowych. Oprócz pomocy przy pełnych kopiach zapasowych, dedupe pomaga również w wysiłkach związanych z przechowywaniem.

Kolejną zaletą deduplikacji danych jest to, jak dobrze działa w połączeniu z infrastruktura wirtualnych pulpitów (VDI) wdrożeniach, dzięki temu, że wirtualne dyski twarde znajdujące się za zdalnymi pulpitami VDI działają identycznie. Popularny Pulpit jako usługa (DaaS) produkty obejmują Azure Virtual Desktop firmy Microsoft i jej Windows VDI. Te produkty tworzą maszyny wirtualne (VM), które powstają w procesie wirtualizacji serwerów. Z kolei te maszyny wirtualne wspierają technologię VDI.

Metodologia deduplikacji

Najpowszechniej stosowaną formą deduplikacji danych jest deduplikacja blokowa. Metoda ta opiera się na automatycznych funkcjach identyfikujących duplikacje w blokach danych, a następnie usuwających te duplikacje. Pracując na tym poziomie bloku, można analizować fragmenty unikalnych danych i określać je jako warte sprawdzenia i zachowania. Następnie, gdy oprogramowanie do deduplikacji wykryje powtórzenie tego samego bloku danych, powtórzenie to jest usuwane, a w jego miejsce umieszczane jest odniesienie do oryginalnych danych.

To główna forma deduplikacji, ale nie jedyna metoda. W innych przypadkach alternatywna metoda deduplikacji danych działa na poziomie pliku. Magazyn z pojedynczą instancją porównuje pełne kopie danych na serwerze plików, ale nie fragmenty lub bloki danych. Podobnie jak metoda odpowiednika, deduplikacja plików polega na przechowywaniu oryginalnego pliku w systemie plików i usuwaniu dodatkowych kopii.

Należy zauważyć, że techniki deduplikacji nie działają w taki sam sposób, jak algorytmy kompresji danych (np. LZ77, LZ78), chociaż prawdą jest, że oba mają ten sam ogólny cel, jakim jest zmniejszenie nadmiarowości danych. Techniki deduplikacji osiągają to na większą, makroskalę niż algorytmy kompresji, których celem nie jest zastępowanie identycznych plików udostępnionymi kopiami, a bardziej wydajne kodowanie nadmiarowości danych.

Rodzaje deduplikacji danych

W zależności od rodzaju deduplikacji danych istnieją różne typy deduplikacji jeśli chodzi o komunikację i motywację zachodzi proces deduplikacji:

Deduplikacja inline: Ta forma deduplikacji danych odbywa się w momencie – w czasie rzeczywistym – przepływu danych w systemie pamięci masowej. Wbudowany system deduplikacji przenosi mniejszy ruch danych, ponieważ nie przesyła ani nie przechowuje zduplikowanych danych. Może to prowadzić do zmniejszenia całkowitej przepustowości wymaganej przez tę organizację.
Deduplikacja poprocesowa: Ten typ deduplikacji ma miejsce po zapisaniu danych i umieszczeniu ich na jakimś urządzeniu magazynującym.

W tym miejscu warto wyjaśnić, że obliczenia skrótu właściwe dla deduplikacji danych mają wpływ na oba typy deduplikacji danych. Te kryptograficzny obliczenia są integralną częścią identyfikacji powtarzających się wzorców w danych. Podczas deduplikacji in-line obliczenia te wykonywane są w momencie, który może zdominować i chwilowo przeciążyć funkcjonalność komputera. W deduplikacjach postprocessingowych obliczenia skrótu można wykonać w dowolnym momencie po dodaniu danych w sposób i w czasie nie obciążającym zasobów komputerowych organizacji.

Na tym nie kończą się subtelne różnice między typami deduplikacji. Inny sposób klasyfikacji typów deduplikacji opiera się na gdzie takie procesy zachodzą.

Deduplikacja źródła: Ta forma deduplikacji ma miejsce w pobliżu miejsca, w którym faktycznie generowane są nowe dane. System skanuje ten obszar i wykrywa nowe kopie plików, które następnie usuwa.
Docelowa deduplikacja: Innym rodzajem deduplikacji jest odwrócenie deduplikacji źródłowej. W przypadku deduplikacji docelowej system deduplikuje wszelkie kopie znalezione w obszarach innych niż te, w których utworzono oryginalne dane.

Ponieważ stosowane są różne rodzaje deduplikacji, organizacje myślące przyszłościowo muszą podejmować ostrożne i przemyślane decyzje dotyczące wybranego rodzaju deduplikacji, równoważąc tę metodę ze szczególnymi potrzebami firmy.

W wielu przypadkach wybrana przez organizację metoda deduplikacji może równie dobrze sprowadzić się do różnych zmiennych wewnętrznych, takich jak następujące:

Ile i jakiego rodzaju zbiory danych są tworzone
Podstawowy system przechowywania danych w organizacji
Które środowiska wirtualne są używane
Na jakich aplikacjach firma polega

Najnowsze osiągnięcia w zakresie deduplikacji danych

Podobnie jak wszystkie dane wyjściowe komputera, deduplikacja danych będzie coraz częściej wykorzystywana sztuczna inteligencja (AI) w miarę dalszego rozwoju. Dedupe będzie coraz bardziej wyrafinowany w miarę opracowywania coraz większej liczby niuansów, które pomogą mu w poszukiwaniu wzorców nadmiarowości podczas skanowania bloków danych.

Jednym z pojawiających się trendów w deduplikacji jest uczenie się przez wzmacnianie. Wykorzystuje to system nagród i kar (jak w szkoleniu wzmacniającym) i stosuje optymalną politykę oddzielania rekordów lub ich łączenia.

Kolejnym trendem, na który warto zwrócić uwagę, jest stosowanie metod zespołowych, w których różne modele lub algorytmy są wykorzystywane w tandemie, aby zapewnić jeszcze większą dokładność w procesie deduplikacji.

Ciągły dylemat

Świat IT coraz bardziej koncentruje się na ciągłym problemie rozprzestrzeniania się danych i sposobach jego rozwiązania. Wiele firm znajduje się w niezręcznej sytuacji, chcąc jednocześnie zachować wszystkie dane, nad którymi pracowały, zgromadzić, a jednocześnie chcąc przechowywać nowe, przepełnione dane w dowolnym możliwym pojemniku do przechowywania, choćby po to, aby się ich pozbyć.

Chociaż taki dylemat nie ustąpi, nacisk na wysiłki w zakresie deduplikacji danych będzie nadal kładziony, ponieważ organizacje postrzegają deduplikację jako tańszą alternatywę dla zakupu większej ilości pamięci masowej. Bo ostatecznie, chociaż intuicyjnie rozumiemy, że biznes potrzebuje danych, wiemy też, że dane bardzo często wymagają deduplikacji.

Dowiedz się, jak IBM Storage FlashSystem może pomóc w zaspokojeniu Twoich potrzeb w zakresie pamięci masowej

Czy ten artykuł był pomocny?

TakNie

Więcej z chmury

29 stycznia 2024 r.

Ciągłość działania a odzyskiwanie po awarii: który plan będzie dla Ciebie odpowiedni?

7 czytaj min - Plany ciągłości działania i odzyskiwania po awarii to strategie zarządzania ryzykiem, na których opierają się firmy, aby przygotować się na nieoczekiwane zdarzenia. Chociaż terminy są ze sobą ściśle powiązane, przy wyborze odpowiedniego rozwiązania warto wziąć pod uwagę kilka kluczowych różnic: Plan ciągłości działania (BCP): BCP to szczegółowy plan określający kroki, jakie organizacja podejmie, aby powrócić do normalnych funkcji biznesowych w wypadek katastrofy. Tam, gdzie inne rodzaje planów mogą skupiać się na jednym konkretnym aspekcie przywracania sprawności i przerwania…

29 stycznia 2024 r.

IBM Tech Now: 29 stycznia 2024 r

<1 czytaj min - Witamy w IBM Tech Now, naszej internetowej serii filmów wideo zawierającej najnowsze i najlepsze wiadomości oraz ogłoszenia ze świata technologii. Subskrybuj nasz kanał YouTube, aby otrzymywać powiadomienia o każdej publikacji nowego filmu wideo IBM Tech Now. IBM Tech Now: Odcinek 91 W tym odcinku poruszamy następujące tematy: Rezerwacje IBM Cloud IBM Think 2024 na serwerach wirtualnych IBM Cloud dla zielonego kwadrantu VPC Verdantix Pozostań podłączony Możesz sprawdzić IBM…

Mężczyzna w okularach siedzi na krześle ze skrzyżowaną nogą i jedną ręką na klawiaturze otwartego laptopa

22 stycznia 2024 r.

Przyjmujemy rezerwacje: serwery wirtualne IBM Cloud dla VPC

2 czytaj min - Organizacje pracujące nad zmniejszeniem wydatków w korporacyjnych środowiskach chmurowych często stają przed wyzwaniem zapewnienia uniwersalnych opcji płatności za pośrednictwem dostawców usług w chmurze. W miarę jak plany działania i priorytety zmieniają się w kontekście zmniejszonego kapitału i zaostrzonych zwrotów z inwestycji, organizacje dążą do minimalizowania ryzyka wydatków w ciągu roku i tworzenia bardziej przewidywalnych środowisk budżetowych. Jeśli chodzi o projektowanie operacji przetwarzania w chmurze, zaawansowane planowanie opłaca się dzięki IBM Cloud Reservations na serwerach wirtualnych IBM Cloud dla VPC. Czym są IBM…

19 stycznia 2024 r.

Jak zbudować skuteczną strategię odzyskiwania po awarii

6 czytaj min - Niezależnie od tego, czy Twoja branża stoi przed wyzwaniami wynikającymi z konfliktów geopolitycznych, skutków globalnej pandemii czy rosnącej agresji w przestrzeni cyberbezpieczeństwa, wektor zagrożeń dla współczesnych przedsiębiorstw jest niezaprzeczalnie potężny. Strategie odzyskiwania po awarii zapewniają członkom zespołu ramy umożliwiające przywrócenie działalności firmy po nieplanowanym zdarzeniu. Na całym świecie popularność strategii odzyskiwania po awarii rośnie, co jest zrozumiałe. Jak wynika z najnowszego raportu…

Biuletyny IBM

Otrzymuj nasze biuletyny i aktualizacje tematów, które dostarczają najnowszych informacji i spostrzeżeń na temat pojawiających się trendów.

Subskrybuj teraz

Więcej biuletynów

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
Źródło: https://www.ibm.com/blog/how-does-data-deduplication-work/

Znak czasu: 29 stycznia 2024 r.

Znak czasu: Luty 8, 2023

Opublikowane ponownie przez Plato

Do czego służy deduplikacja?

Jaki jest główny cel deduplikacji?

Dodatkowe korzyści z deduplikacji

Metodologia deduplikacji

Rodzaje deduplikacji danych

Najnowsze osiągnięcia w zakresie deduplikacji danych

Ciągły dylemat

Więcej z chmury

Ciągłość działania a odzyskiwanie po awarii: który plan będzie dla Ciebie odpowiedni?

IBM Tech Now: 29 stycznia 2024 r

Przyjmujemy rezerwacje: serwery wirtualne IBM Cloud dla VPC

Jak zbudować skuteczną strategię odzyskiwania po awarii

OpenShift w wersji 4.13 jest już dostępny w Red Hat OpenShift na platformie IBM Cloud – IBM Blog

Przedsiębiorstwa potrzebują generatywnej sztucznej inteligencji dostosowanej do ich unikalnych potrzeb, z własnymi unikalnymi danymi

Usprawnianie zgodności z IBM Cloud Infrastructure as Code i podejście z przesunięciem w lewo – Blog IBM

Zarządzanie ekosystemami chmurowymi: Utrzymywanie ciągłości obciążenia podczas aktualizacji węzłów roboczych — blog IBM

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto