Як працює дедуплікація даних? - Блог IBM

Як працює дедуплікація даних? – Блог IBM

Вихідний вузол: 3088770


Як працює дедуплікація даних? – Блог IBM



Знімок фабрики зверху

Останніми роками стався вибух у поширенні самостійних пристроїв зберігання. Ці великі складські приміщення виникли в країні як бурхлива галузь з однієї причини: середня людина тепер має більше майна, ніж вона знає, що робити.

Така ж базова ситуація також турбує світ ІТ. Ми знаходимося в центрі вибуху даних. Навіть відносно прості повсякденні предмети тепер регулярно генерують дані самостійно завдяки Інтернет речей (IoT) функціональність. Ніколи раніше в історії не було створено, зібрано та проаналізовано так багато даних. І ніколи раніше більше менеджерів даних не боролися з проблемою, як зберігати стільки даних.

Компанія може спочатку не розпізнати проблему чи її розмір, а потім їй доведеться знайти рішення для збільшення обсягу пам’яті. З часом компанія також може перерости цю систему зберігання, вимагаючи ще більших інвестицій. Неминуче компанія втомиться від цієї гри, і вона буде шукати дешевший і простіший варіант, що приводить нас до дедуплікація даних.

Хоча багато організацій використовують методи дедуплікації даних (або «дедуплікацію») як частину своєї системи керування даними, не так багато справді розуміють, що таке процес дедуплікації та для чого він призначений. Отже, давайте демістифікуємо дедуплікацію та пояснимо, як працює дедуплікація даних.

Що робить дедуплікація?

Спочатку давайте уточнимо наш основний термін. Дедуплікація даних — це процес, який організації використовують для оптимізації своїх даних і зменшення обсягу даних, які вони архівують, шляхом усунення зайвих копій даних.

Крім того, слід зазначити, що коли ми говоримо про надлишкові дані, ми насправді говоримо на рівні файлів і маємо на увазі нестримне поширення файлів даних. Отже, коли ми обговорюємо спроби дедуплікації даних, насправді потрібна система дедуплікації файлів.

Яка основна мета дедуплікації?

Деякі люди мають неправильне уявлення про природу даних, розглядаючи їх як товар, який існує просто для того, щоб його збирати та збирати, як яблука з дерева з власного двору.

Реальність така, що кожен новий файл даних коштує грошей. По-перше, отримання таких даних зазвичай коштує грошей (через придбання списків даних). Або організація потребує значних фінансових інвестицій, щоб мати змогу самостійно збирати та отримувати дані, навіть якщо це дані, які сама організація органічно виробляє та збирає. Таким чином, набори даних є інвестицією, і, як і будь-які цінні інвестиції, їх потрібно суворо захищати.

У цьому випадку ми говоримо про простір для зберігання даних — будь то у формі локальних апаратних серверів або через Cloud Storage через хмару центр обробки даних— які необхідно придбати або взяти в оренду.

Дубльовані копії даних, які пройшли реплікацію, таким чином, зменшують кінцевий результат, накладаючи додаткові витрати на зберігання, крім тих, які пов’язані з основною системою зберігання та її простором для зберігання. Коротше кажучи, для розміщення як нових даних, так і даних, які вже зберігаються, необхідно виділити більше ресурсів носіїв. На певному етапі розвитку компанії дублікати даних можуть легко стати фінансовою небезпекою.

Отже, підсумовуючи, головна мета дедуплікації даних – заощадити гроші, дозволяючи організаціям витрачати менше на додаткове сховище.

Додаткові переваги дедуплікації

Існують також інші причини, окрім ємності для зберігання, для компаній використовувати рішення дедуплікації даних, імовірно, не більш важливі, ніж захист і покращення даних, які вони забезпечують. Організації вдосконалюють і оптимізують робочі навантаження з дедуплікованими даними, щоб вони працювали ефективніше, ніж дані, які рясніють дублікатами файлів.

Інший важливий аспект дедупування полягає в тому, як він допомагає розширити можливості швидкого та успішного катастрофа відновлення та мінімізує обсяг втрати даних, яка часто може виникнути внаслідок такої події. Dedupe допомагає забезпечити надійний процес резервного копіювання, щоб система резервного копіювання організації відповідала завданню обробки її резервних даних. На додаток до допомоги з повним резервним копіюванням, dedupe також допомагає у збереженні.

Ще однією перевагою дедуплікації даних є те, наскільки добре вона працює в поєднанні з інфраструктура віртуального робочого столу (VDI) розгортання завдяки тому, що віртуальні жорсткі диски за віддаленими робочими столами VDI працюють однаково. Популярний Робочий стіл як послуга (DaaS) серед продуктів Azure Virtual Desktop від Microsoft і її Windows VDI. Ці продукти створюють віртуальні машини (ВМ), які створюються в процесі віртуалізації сервера. У свою чергу, ці віртуальні машини розширюють можливості технології VDI.

Методологія дедуплікації

Найбільш часто використовуваною формою дедуплікації даних є дедуплікація блоків. Цей метод працює за допомогою автоматизованих функцій для виявлення дублікатів у блоках даних і видалення цих дублікатів. Працюючи на цьому рівні блоків, фрагменти унікальних даних можна проаналізувати та визначити як такі, що заслуговують на перевірку та збереження. Потім, коли програмне забезпечення для дедуплікації виявляє повторення того самого блоку даних, це повторення видаляється, а на його місце включається посилання на вихідні дані.

Це основна форма дедупування, але навряд чи єдиний метод. В інших випадках використання альтернативний метод дедуплікації даних працює на рівні файлу. Одноекземплярне сховище порівнює повні копії даних на файловому сервері, але не порції чи блоки даних. Як і аналогічний метод, дедуплікація файлів залежить від збереження оригінального файлу у файловій системі та видалення додаткових копій.

Слід зазначити, що методи дедуплікації не працюють так само, як алгоритми стиснення даних (наприклад, LZ77, LZ78), хоча це правда, що обидва переслідують ту саму загальну мету зменшення надмірності даних. Методи дедуплікації досягають цього в більшому макромасштабі, ніж алгоритми стиснення, мета яких полягає не в заміні ідентичних файлів спільними копіями, а в більш ефективному кодуванні надлишкових даних.

Типи дедуплікації даних

Існують різні типи дедуплікації даних залежно від коли відбувається процес дедуплікації:

  • Вбудована дедуплікація: Ця форма дедуплікації даних відбувається миттєво — у режимі реального часу — коли дані надходять у систему зберігання. Вбудована система дедупіювання передає менше трафіку даних, оскільки вона не передає та не зберігає дубльовані дані. Це може призвести до зменшення загальної пропускної здатності, необхідної цій організації.
  • Дедуплікація після обробки: Цей тип дедуплікації відбувається після того, як дані були записані та розміщені на певному типі пристрою зберігання.

Тут варто пояснити, що на обидва типи дедуплікації даних впливають хеш-обчислення, властиві дедуплікації даних. Ці криптографічні обчислення є невід’ємною частиною виявлення повторюваних шаблонів у даних. Під час вбудованої дедуплікації ці обчислення виконуються миттєво, що може домінувати та тимчасово перевантажувати функціональність комп’ютера. При дедуплікації після обробки хеш-обчислення можна виконувати в будь-який час після додавання даних таким чином і в такий час, щоб не перевантажувати ресурси комп’ютера організації.

На цьому тонкі відмінності між типами дедуплікації не закінчуються. Інший спосіб класифікації типів дедуплікації заснований на де відбуваються такі процеси.

  • Дедуплікація джерела: Ця форма дедуплікації відбувається поблизу місця, де фактично генеруються нові дані. Система сканує цю область і виявляє нові копії файлів, які потім видаляються.
  • Цільова дедуплікація: Інший тип дедуплікації схожий на інверсію дедуплікації джерела. У цільовій дедуплікації система дедуплікує будь-які копії, знайдені в областях, відмінних від тих, де були створені вихідні дані.

Оскільки існують різні типи дедуплікації, передові організації повинні приймати обережні та зважені рішення щодо обраного типу дедуплікації, збалансовуючи цей метод із конкретними потребами компанії.

У багатьох випадках використання метод дедуплікації, який вибирає організація, цілком може зводитися до низки внутрішніх змінних, наприклад таких:

  • Скільки та який тип наборів даних створюється
  • Система первинного зберігання інформації організації
  • Які віртуальні середовища використовуються
  • На які програми покладається компанія

Останні розробки дедуплікації даних

Як і будь-який комп’ютерний вихід, дедуплікація даних готова використовуватися все частіше штучний інтелект (ШІ) оскільки він продовжує розвиватися. Дедуплікація ставатиме все більш складною, оскільки вона розроблятиме ще більше нюансів, які допомагатимуть їй у пошуках шаблонів надмірності під час сканування блоків даних.

Однією з нових тенденцій дедупування є навчання з підкріпленням. Тут використовується система винагород і покарань (як у тренуванні з підкріпленням) і застосовується оптимальна політика для розділення записів або їх об’єднання.

Іншою тенденцією, на яку варто звернути увагу, є використання методів ансамблю, у яких різні моделі або алгоритми використовуються в тандемі, щоб забезпечити ще більшу точність у процесі дедупікції.

Постійна дилема

ІТ-світ стає все більше зосередженим на постійній проблемі поширення даних і на тому, що з цим робити. Багато компаній опиняються в незручному становищі, одночасно бажаючи зберегти всі дані, над якими вони працювали, і також бажають вставити свої переповнені нові дані в будь-який можливий контейнер для зберігання, хоча б лише для того, щоб позбавити їх шляху.

Хоча така дилема зберігається, наголос на зусиллях з дедуплікації даних продовжуватиметься, оскільки організації бачать дедуплікацію як дешевшу альтернативу купівлі додаткового сховища. Тому що, зрештою, хоча ми інтуїтивно розуміємо, що бізнес потребує даних, ми також знаємо, що дані дуже часто потребують дедуплікації.

Дізнайтеся, як IBM Storage FlashSystem може допомогти вам із вашими потребами в сховищі

Чи була ця стаття корисною?

ТакНемає


Більше від Cloud




Безперервність бізнесу проти аварійного відновлення: який план підходить саме вам?

7 хв читання - Плани безперервності бізнесу та аварійного відновлення — це стратегії управління ризиками, на які підприємства покладаються, щоб підготуватися до несподіваних інцидентів. Хоча терміни тісно пов’язані між собою, є деякі ключові відмінності, які варто враховувати, вибираючи той, який підходить саме вам: План безперервності бізнесу (BCP): BCP – це детальний план, у якому описано кроки, яких організація зробить для повернення до нормального функціонування бізнесу в подія катастрофи. Де інші типи планів можуть зосереджуватися на одному конкретному аспекті відновлення та переривання…




IBM Tech Now: 29 січня 2024 р

<1 хв читання - ​Ласкаво просимо до IBM Tech Now, нашої веб-серії відео, що містить найновіші та найкращі новини та оголошення у світі технологій. Переконайтеся, що ви підписалися на наш канал YouTube, щоб отримувати сповіщення щоразу, коли публікується нове відео IBM Tech Now. IBM Tech Now: Епізод 91 У цьому епізоді ми розглядаємо наступні теми: IBM Think 2024 IBM Cloud Reservations on IBM Cloud Virtual Servers for VPC Verdantix's Green Quadrant Залишайтеся підключеними Ви можете перевірити IBM…




Зараз приймаємо резервування: IBM Cloud Virtual Servers для VPC

2 хв читання - Оскільки організації працюють над скороченням витрат у корпоративних хмарних середовищах, вони часто стикаються з проблемою універсальних варіантів оплати через своїх хмарних постачальників. Оскільки дорожні карти та пріоритети змінюються на тлі скорочення капіталу та посилення рентабельності інвестицій, організації прагнуть мінімізувати ризик витрат протягом року та створити більш передбачуване середовище бюджетування. Коли справа доходить до розробки ваших операцій хмарних обчислень, розширене планування окупається завдяки IBM Cloud Reservations на IBM Cloud Virtual Servers для VPC. Що таке IBM…




Як створити успішну стратегію аварійного відновлення

6 хв читання - Незалежно від того, чи ваша галузь стикається з проблемами, пов’язаними з геополітичною боротьбою, наслідками глобальної пандемії чи зростанням агресії в просторі кібербезпеки, вектор загроз для сучасних підприємств, безсумнівно, потужний. Стратегії аварійного відновлення забезпечують основу для членів команди, щоб відновити роботу бізнесу після незапланованої події. Зрозуміло, що популярність стратегій аварійного відновлення в усьому світі зростає. Минулого року компанії витратили 219 мільярдів доларів США тільки на кібербезпеку та рішення, що на 12% більше, ніж у 2022 році, згідно з нещодавнім звітом…

Інформаційні бюлетені IBM

Отримуйте наші інформаційні бюлетені та оновлення тем, які містять найновіші думки про лідерство та ідеї щодо нових тенденцій.

Підпишись зараз

Більше бюлетенів

Часова мітка:

Більше від IBM