Останніми роками стався вибух у поширенні самостійних пристроїв зберігання. Ці великі складські приміщення виникли в країні як бурхлива галузь з однієї причини: середня людина тепер має більше майна, ніж вона знає, що робити.
Така ж базова ситуація також турбує світ ІТ. Ми знаходимося в центрі вибуху даних. Навіть відносно прості повсякденні предмети тепер регулярно генерують дані самостійно завдяки Інтернет речей (IoT) функціональність. Ніколи раніше в історії не було створено, зібрано та проаналізовано так багато даних. І ніколи раніше більше менеджерів даних не боролися з проблемою, як зберігати стільки даних.
Компанія може спочатку не розпізнати проблему чи її розмір, а потім їй доведеться знайти рішення для збільшення обсягу пам’яті. З часом компанія також може перерости цю систему зберігання, вимагаючи ще більших інвестицій. Неминуче компанія втомиться від цієї гри, і вона буде шукати дешевший і простіший варіант, що приводить нас до дедуплікація даних.
Хоча багато організацій використовують методи дедуплікації даних (або «дедуплікацію») як частину своєї системи керування даними, не так багато справді розуміють, що таке процес дедуплікації та для чого він призначений. Отже, давайте демістифікуємо дедуплікацію та пояснимо, як працює дедуплікація даних.
Що робить дедуплікація?
Спочатку давайте уточнимо наш основний термін. Дедуплікація даних — це процес, який організації використовують для оптимізації своїх даних і зменшення обсягу даних, які вони архівують, шляхом усунення зайвих копій даних.
Крім того, слід зазначити, що коли ми говоримо про надлишкові дані, ми насправді говоримо на рівні файлів і маємо на увазі нестримне поширення файлів даних. Отже, коли ми обговорюємо спроби дедуплікації даних, насправді потрібна система дедуплікації файлів.
Яка основна мета дедуплікації?
Деякі люди мають неправильне уявлення про природу даних, розглядаючи їх як товар, який існує просто для того, щоб його збирати та збирати, як яблука з дерева з власного двору.
Реальність така, що кожен новий файл даних коштує грошей. По-перше, отримання таких даних зазвичай коштує грошей (через придбання списків даних). Або організація потребує значних фінансових інвестицій, щоб мати змогу самостійно збирати та отримувати дані, навіть якщо це дані, які сама організація органічно виробляє та збирає. Таким чином, набори даних є інвестицією, і, як і будь-які цінні інвестиції, їх потрібно суворо захищати.
У цьому випадку ми говоримо про простір для зберігання даних — будь то у формі локальних апаратних серверів або через Cloud Storage через хмару центр обробки даних— які необхідно придбати або взяти в оренду.
Дубльовані копії даних, які пройшли реплікацію, таким чином, зменшують кінцевий результат, накладаючи додаткові витрати на зберігання, крім тих, які пов’язані з основною системою зберігання та її простором для зберігання. Коротше кажучи, для розміщення як нових даних, так і даних, які вже зберігаються, необхідно виділити більше ресурсів носіїв. На певному етапі розвитку компанії дублікати даних можуть легко стати фінансовою небезпекою.
Отже, підсумовуючи, головна мета дедуплікації даних – заощадити гроші, дозволяючи організаціям витрачати менше на додаткове сховище.
Додаткові переваги дедуплікації
Існують також інші причини, окрім ємності для зберігання, для компаній використовувати рішення дедуплікації даних, імовірно, не більш важливі, ніж захист і покращення даних, які вони забезпечують. Організації вдосконалюють і оптимізують робочі навантаження з дедуплікованими даними, щоб вони працювали ефективніше, ніж дані, які рясніють дублікатами файлів.
Інший важливий аспект дедупування полягає в тому, як він допомагає розширити можливості швидкого та успішного катастрофа відновлення та мінімізує обсяг втрати даних, яка часто може виникнути внаслідок такої події. Dedupe допомагає забезпечити надійний процес резервного копіювання, щоб система резервного копіювання організації відповідала завданню обробки її резервних даних. На додаток до допомоги з повним резервним копіюванням, dedupe також допомагає у збереженні.
Ще однією перевагою дедуплікації даних є те, наскільки добре вона працює в поєднанні з інфраструктура віртуального робочого столу (VDI) розгортання завдяки тому, що віртуальні жорсткі диски за віддаленими робочими столами VDI працюють однаково. Популярний Робочий стіл як послуга (DaaS) серед продуктів Azure Virtual Desktop від Microsoft і її Windows VDI. Ці продукти створюють віртуальні машини (ВМ), які створюються в процесі віртуалізації сервера. У свою чергу, ці віртуальні машини розширюють можливості технології VDI.
Методологія дедуплікації
Найбільш часто використовуваною формою дедуплікації даних є дедуплікація блоків. Цей метод працює за допомогою автоматизованих функцій для виявлення дублікатів у блоках даних і видалення цих дублікатів. Працюючи на цьому рівні блоків, фрагменти унікальних даних можна проаналізувати та визначити як такі, що заслуговують на перевірку та збереження. Потім, коли програмне забезпечення для дедуплікації виявляє повторення того самого блоку даних, це повторення видаляється, а на його місце включається посилання на вихідні дані.
Це основна форма дедупування, але навряд чи єдиний метод. В інших випадках використання альтернативний метод дедуплікації даних працює на рівні файлу. Одноекземплярне сховище порівнює повні копії даних на файловому сервері, але не порції чи блоки даних. Як і аналогічний метод, дедуплікація файлів залежить від збереження оригінального файлу у файловій системі та видалення додаткових копій.
Слід зазначити, що методи дедуплікації не працюють так само, як алгоритми стиснення даних (наприклад, LZ77, LZ78), хоча це правда, що обидва переслідують ту саму загальну мету зменшення надмірності даних. Методи дедуплікації досягають цього в більшому макромасштабі, ніж алгоритми стиснення, мета яких полягає не в заміні ідентичних файлів спільними копіями, а в більш ефективному кодуванні надлишкових даних.
Типи дедуплікації даних
Існують різні типи дедуплікації даних залежно від коли відбувається процес дедуплікації:
- Вбудована дедуплікація: Ця форма дедуплікації даних відбувається миттєво — у режимі реального часу — коли дані надходять у систему зберігання. Вбудована система дедупіювання передає менше трафіку даних, оскільки вона не передає та не зберігає дубльовані дані. Це може призвести до зменшення загальної пропускної здатності, необхідної цій організації.
- Дедуплікація після обробки: Цей тип дедуплікації відбувається після того, як дані були записані та розміщені на певному типі пристрою зберігання.
Тут варто пояснити, що на обидва типи дедуплікації даних впливають хеш-обчислення, властиві дедуплікації даних. Ці криптографічні обчислення є невід’ємною частиною виявлення повторюваних шаблонів у даних. Під час вбудованої дедуплікації ці обчислення виконуються миттєво, що може домінувати та тимчасово перевантажувати функціональність комп’ютера. При дедуплікації після обробки хеш-обчислення можна виконувати в будь-який час після додавання даних таким чином і в такий час, щоб не перевантажувати ресурси комп’ютера організації.
На цьому тонкі відмінності між типами дедуплікації не закінчуються. Інший спосіб класифікації типів дедуплікації заснований на де відбуваються такі процеси.
- Дедуплікація джерела: Ця форма дедуплікації відбувається поблизу місця, де фактично генеруються нові дані. Система сканує цю область і виявляє нові копії файлів, які потім видаляються.
- Цільова дедуплікація: Інший тип дедуплікації схожий на інверсію дедуплікації джерела. У цільовій дедуплікації система дедуплікує будь-які копії, знайдені в областях, відмінних від тих, де були створені вихідні дані.
Оскільки існують різні типи дедуплікації, передові організації повинні приймати обережні та зважені рішення щодо обраного типу дедуплікації, збалансовуючи цей метод із конкретними потребами компанії.
У багатьох випадках використання метод дедуплікації, який вибирає організація, цілком може зводитися до низки внутрішніх змінних, наприклад таких:
- Скільки та який тип наборів даних створюється
- Система первинного зберігання інформації організації
- Які віртуальні середовища використовуються
- На які програми покладається компанія
Останні розробки дедуплікації даних
Як і будь-який комп’ютерний вихід, дедуплікація даних готова використовуватися все частіше штучний інтелект (ШІ) оскільки він продовжує розвиватися. Дедуплікація ставатиме все більш складною, оскільки вона розроблятиме ще більше нюансів, які допомагатимуть їй у пошуках шаблонів надмірності під час сканування блоків даних.
Однією з нових тенденцій дедупування є навчання з підкріпленням. Тут використовується система винагород і покарань (як у тренуванні з підкріпленням) і застосовується оптимальна політика для розділення записів або їх об’єднання.
Іншою тенденцією, на яку варто звернути увагу, є використання методів ансамблю, у яких різні моделі або алгоритми використовуються в тандемі, щоб забезпечити ще більшу точність у процесі дедупікції.
Постійна дилема
ІТ-світ стає все більше зосередженим на постійній проблемі поширення даних і на тому, що з цим робити. Багато компаній опиняються в незручному становищі, одночасно бажаючи зберегти всі дані, над якими вони працювали, і також бажають вставити свої переповнені нові дані в будь-який можливий контейнер для зберігання, хоча б лише для того, щоб позбавити їх шляху.
Хоча така дилема зберігається, наголос на зусиллях з дедуплікації даних продовжуватиметься, оскільки організації бачать дедуплікацію як дешевшу альтернативу купівлі додаткового сховища. Тому що, зрештою, хоча ми інтуїтивно розуміємо, що бізнес потребує даних, ми також знаємо, що дані дуже часто потребують дедуплікації.
Дізнайтеся, як IBM Storage FlashSystem може допомогти вам із вашими потребами в сховищі
Чи була ця стаття корисною?
ТакНемає
Більше від Cloud
Інформаційні бюлетені IBM
Отримуйте наші інформаційні бюлетені та оновлення тем, які містять найновіші думки про лідерство та ідеї щодо нових тенденцій.
Підпишись зараз
Більше бюлетенів
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://www.ibm.com/blog/how-does-data-deduplication-work/
- : має
- :є
- : ні
- :де
- $UP
- 1
- 17
- 19
- 2022
- 2024
- 22
- 28
- 29
- 30
- 300
- 36
- 400
- 41
- 7
- 84
- 9
- 91
- a
- Здатний
- МЕНЮ
- про це
- розмістити
- За
- точність
- Achieve
- насправді
- доданий
- доповнення
- Додатковий
- просунутий
- реклама
- постраждалих
- після
- проти
- AI
- посібник
- мета
- алгоритми
- ВСІ
- тільки
- Також
- альтернатива
- хоча
- кількість
- amp
- an
- аналітика
- проаналізовані
- та
- Сповіщення
- Інший
- будь-який
- застосовується
- додатка
- ЕСТЬ
- ПЛОЩА
- області
- стаття
- AS
- зовнішній вигляд
- Активи
- допомогу
- асоційований
- At
- автор
- Автоматизований
- середній
- Лазурний
- назад
- задник
- резервна копія
- резервне копіювання
- Балансування
- ширина смуги
- заснований
- основний
- BE
- оскільки
- ставати
- становлення
- було
- перед тим
- за
- буття
- користь
- Переваги
- між
- За
- Мільярд
- Блокувати
- блоки
- Блог
- блоги
- синій
- обидва
- дно
- Приносить
- складання бюджету
- будувати
- бізнес
- забезпечення безперервності бізнесу
- підприємства
- але
- button
- by
- CAN
- потужність
- капітал
- вуглець
- карта
- Cards
- обережний
- нести
- випадків
- КПП
- Категорія
- Крісло
- виклик
- проблеми
- Канал
- більш дешевий
- перевірка
- вибір
- Вибираючи
- вибраний
- кола
- СНД
- клас
- Класифікувати
- тісно
- хмара
- хмарних обчислень
- Збір
- color
- Приходити
- приходить
- товар
- зазвичай
- Компанії
- компанія
- Компанії
- комп'ютер
- обчислення
- зв'язок
- вважається
- беручи до уваги
- Контейнер
- продовжувати
- триває
- безперервність
- copies
- витрати
- копія
- покриття
- створювати
- створений
- Схрещений
- CSS
- виготовлений на замовлення
- Кібербезпека
- даас
- дані
- втрати даних
- управління даними
- захист даних
- набори даних
- зберігання даних
- Дата
- рішення
- дефолт
- Визначення
- доставляти
- демістифікувати
- Залежно
- залежить
- розгортання
- description
- проектування
- робочий стіл
- докладно
- розвивається
- пристрій
- Відмінності
- різний
- катастрофа
- обговорювати
- do
- робить
- Ні
- домінувати
- Не знаю
- вниз
- під час
- e
- кожен
- легко
- продуктивно
- зусилля
- зусилля
- усуваючи
- обійняти
- з'являються
- акцент
- уповноважувати
- включіть
- дозволяє
- кодування
- кінець
- Посилення
- забезпечувати
- Що натомість? Створіть віртуальну версію себе у
- підприємство
- підприємств
- середовищах
- епізод
- рівним
- істотний
- Ефір (ETH)
- Навіть
- Event
- Кожен
- повсякденний
- еволюціонувати
- існує
- вихід
- Пояснювати
- пояснюючи
- вибух
- додатково
- Face
- особи
- факт
- завод
- FAIL
- опади
- false
- Показуючи
- філе
- Файли
- фінансовий
- знайти
- виявлення
- Перший
- Потоки
- Сфокусувати
- стежити
- після
- Шрифти
- для
- форма
- знайдений
- Рамки
- від
- Повний
- функціональність
- Функції
- гра
- збирати
- зібраний
- Загальне
- породжувати
- генерується
- generator
- геополітичний
- отримати
- окуляри
- Глобальний
- глобальна пандемія
- мета
- великий
- найбільший
- зелений
- сітка
- Рости
- рука
- Обробка
- Жорсткий
- апаратні засоби
- мішанина
- Мати
- Тема
- висота
- допомога
- корисний
- допомогу
- допомагає
- історія
- Авуари
- Як
- How To
- HTTPS
- IBM
- IBM Cloud
- ICO
- ICON
- однаковий
- ідентифікувати
- ідентифікує
- if
- зображення
- важливо
- важливий аспект
- накладення
- in
- В інших
- інцидентів
- включати
- включені
- Augmenter
- збільшений
- зростаючий
- все більше і більше
- індекс
- промисловість
- неминуче
- Інфраструктура
- притаманне
- спочатку
- розуміння
- екземпляр
- замість
- інтегральний
- Інтелект
- призначених
- внутрішній
- інверсія
- інвестиції
- КАТО
- питання
- IT
- ЙОГО
- сам
- січня
- JPG
- зберігання
- ключ
- Знати
- портативний комп'ютер
- великий
- більше
- останній
- Минулого року
- останній
- вести
- Керівництво
- вивчення
- менше
- рівень
- відповідальність
- як
- Лінія
- списки
- місцевий
- місце дії
- від
- Машинки для перманенту
- Macro
- головний
- зробити
- людина
- управління
- система управління
- Менеджери
- манера
- багато
- макс-ширина
- Може..
- Медіа
- члени
- злиття
- метод
- методика
- Microsoft
- може бути
- хвилин
- мінімізувати
- мінімізує
- протокол
- Mobile
- Моделі
- сучасний
- момент
- гроші
- більше
- найбільш
- багато
- повинен
- на національному рівні
- природа
- навігація
- Близько
- майже
- необхідний
- потреби
- ні
- ніколи
- Нові
- новини
- Інформаційні бюлетені
- ніхто
- ні
- зазначив,
- нічого
- поняття
- зараз
- нюанси
- об'єкти
- отримувати
- відбуваються
- of
- від
- часто
- on
- ONE
- постійний
- тільки
- відкрити
- працювати
- працює
- операції
- оптимальний
- Оптимізувати
- оптимізований
- Опції
- or
- органічно
- організація
- організації
- оригінал
- Інше
- наші
- з
- контури
- вихід
- власний
- сторінка
- пандемія
- частина
- приватність
- моделі
- оплата
- країна
- штрафні санкції
- Люди
- виконується
- зберігається
- людина
- PHP
- місце
- розміщений
- Чуми
- план
- планування
- плани
- plato
- Інформація про дані Платона
- PlatoData
- Підключено
- підключати
- точка
- готовий
- політика
- популярний
- популярність
- положення
- володіння
- це можливо
- пошта
- подальша обробка
- Пауелл
- потужний
- Передбачуваний
- Готувати
- збереження
- первинний
- Проблема
- процес
- процеси
- виробництво
- Продукти
- захищений
- захист
- забезпечувати
- провайдери
- опублікований
- покупка
- придбано
- покупка
- переслідувати
- переслідування
- досить
- RE
- читання
- Реальність
- Причини
- останній
- визнавати
- облік
- відновлення
- зменшити
- Знижений
- зниження
- скорочення
- посилання
- удосконалювати
- про
- навчання
- пов'язаний
- щодо
- покладатися
- віддалений
- видаляти
- Вилучено
- видалення
- повторний
- копіювання
- звітом
- Вимагається
- ресурси
- реагувати
- результат
- зберігати
- утримання
- повертати
- Нагороди
- право
- підвищення
- Risk
- управління ризиками
- дорожні карти
- роботи
- Кімната
- звичайно
- прогін
- біг
- то ж
- зберегти
- шкала
- сканування
- Екран
- scripts
- побачити
- Шукати
- пошукова оптимізація
- розділення
- Серія
- сервер
- сервери
- обслуговування
- набори
- загальні
- зсув
- Короткий
- постріл
- Повинен
- простий
- простий
- просто
- одночасно
- сайт
- Сидячий
- ситуація
- невеликий
- So
- Софтвер
- рішення
- Рішення
- деякі
- складний
- Source
- Простір
- говорити
- розмова
- конкретний
- зазначений
- витрачати
- Витрати
- відпрацьований
- Рекламні
- квадрати
- старт
- залишатися
- заходи
- палиця
- зберігання
- зберігати
- магазинів
- стратегії
- Стратегія
- раціоналізувати
- міцний
- підписуватися
- істотний
- успішний
- такі
- сума
- Переконайтеся
- SVG
- система
- Приймати
- приймає
- взяття
- говорити
- Тандем
- Мета
- Завдання
- команда
- Члени команди
- технології
- методи
- Технологія
- термін
- terms
- третинний
- ніж
- Дякую
- Що
- Команда
- світ
- їх
- Їх
- тема
- самі
- потім
- Там.
- отже
- Ці
- вони
- речі
- думати
- це
- ті
- думка
- думка лідерства
- загроза
- через
- по всьому
- підтягнуті
- час
- шина
- назва
- до
- топ
- тема
- теми
- Усього:
- трафік
- Навчання
- траєкторія
- переклади
- дерево
- Trend
- Тенденції
- правда
- по-справжньому
- ПЕРЕГЛЯД
- тип
- Типи
- Зрештою
- безперечно
- зазнав
- розуміти
- Зрозуміло
- Unexpected
- створеного
- одиниць
- Updates
- на
- URL
- us
- USD
- використання
- використовуваний
- використовує
- використання
- зазвичай
- перевірка достовірності
- Цінний
- різноманітність
- дуже
- через
- Відео
- перегляд
- Віртуальний
- віртуальний робочий стіл
- vs
- W
- бажаючий
- Склад
- було
- спостереження
- шлях..
- we
- Web
- ДОБРЕ
- Що
- коли
- який
- в той час як
- чий
- волі
- windows
- з
- в
- свідком
- WordPress
- Work
- працював
- робочий
- працює
- світ
- світовий
- вартість
- гідний
- письмовий
- рік
- років
- ви
- вашу
- YouTube
- зефірнет