Как работает дедупликация данных? - Блог IBM

Переиздано Платоном

Читают: 0

В последние годы произошел взрыв в распространении единиц самостоятельного хранения. Эти большие складские помещения возникли на национальном уровне как быстро развивающаяся отрасль по одной причине: у обычного человека теперь больше имущества, чем он знает, что с ним делать.

Та же основная ситуация преследует и мир информационных технологий. Мы находимся в процессе бурного роста данных. Даже относительно простые, повседневные объекты теперь регулярно генерируют данные самостоятельно благодаря Интернет вещей (IoT) функциональность. Никогда прежде в истории не создавалось, не собиралось и не анализировалось так много данных. И никогда раньше менеджеры данных не сталкивались с проблемой хранения такого большого количества данных.

Компания может сначала не осознать проблему или то, насколько большой она может стать, и тогда ей придется искать решение для увеличения объема хранилища. Со временем компания может перерасти и эту систему хранения, что потребует еще больших инвестиций. Неизбежно компания устанет от этой игры и будет искать более дешевый и простой вариант, что приводит нас к дедупликация данных.

Хотя многие организации используют методы дедупликации данных (или «дедупликацию») как часть своих систем управления данными, немногие по-настоящему понимают, что такое процесс дедупликации и для чего он предназначен. Итак, давайте раскроем тайну дедупликации и объясним, как работает дедупликация данных.

Что делает дедупликация?

Для начала давайте уточним наш основной термин. Дедупликация данных — это процесс, который организации используют для оптимизации хранения данных и уменьшения объема данных, которые они архивируют, путем устранения избыточных копий данных.

Более того, мы должны отметить, что когда мы говорим о избыточных данных, мы на самом деле говорим на уровне файлов и имеем в виду безудержное распространение файлов данных. Поэтому, когда мы обсуждаем усилия по дедупликации данных, на самом деле необходима система дедупликации файлов.

Какова основная цель дедупликации?

Некоторые люди придерживаются неправильного представления о природе данных, рассматривая их как товар, который просто существует для того, чтобы его собирать и собирать, как яблоки с дерева на вашем собственном заднем дворе.

Реальность такова, что каждый новый файл данных стоит денег. Во-первых, получение таких данных обычно стоит денег (путем покупки списков данных). Или для того, чтобы организация могла собирать и собирать данные самостоятельно, требуются значительные финансовые вложения, даже если это данные, которые сама организация производит и собирает органично. Таким образом, наборы данных — это инвестиции, и, как и любые ценные инвестиции, они должны быть строго защищены.

В данном случае мы говорим о пространстве для хранения данных — будь то в виде локальных аппаратных серверов или через облачного хранения через облачное хранилище центр обработки данных— его необходимо купить или взять в аренду.

Таким образом, дублирующиеся копии данных, подвергшихся репликации, снижают прибыль, вызывая дополнительные затраты на хранение, помимо тех, которые связаны с основной системой хранения и ее пространством для хранения. Короче говоря, необходимо выделить больше ресурсов носителей для размещения как новых, так и уже сохраненных данных. В какой-то момент развития компании дублирование данных может легко стать финансовым обязательством.

Подводя итог, можно сказать, что основная цель дедупликации данных — сэкономить деньги, позволяя организациям меньше тратить на дополнительное хранилище.

Дополнительные преимущества дедупликации

Помимо емкости хранилища, есть и другие причины, по которым компании используют решения по дедупликации данных. Вероятно, нет ничего более важного, чем защита и улучшение данных, которые они обеспечивают. Организации совершенствуют и оптимизируют рабочие нагрузки с дедуплицированными данными, чтобы они работали более эффективно, чем данные, изобилующие дубликатами файлов.

Еще одним важным аспектом дедупликации является то, как она помогает ускорить и успешно реализовать катастрофа усилия по восстановлению и минимизирует объем потери данных, которая часто может возникнуть в результате такого события. Dedupe помогает обеспечить надежный процесс резервного копирования, поэтому система резервного копирования организации способна справиться с задачей обработки данных резервного копирования. Помимо помощи в создании полных резервных копий, дедупликация также помогает в сохранении данных.

Еще одним преимуществом дедупликации данных является то, насколько хорошо она работает в сочетании с инфраструктура виртуальных рабочих столов (VDI) развертываний благодаря тому, что виртуальные жесткие диски за удаленными рабочими столами VDI работают одинаково. Популярный Рабочий стол как услуга (DaaS) продукты включают Azure Virtual Desktop от Microsoft и Windows VDI. Эти продукты создают виртуальные машины (ВМ), которые создаются в процессе виртуализации серверов. В свою очередь, эти виртуальные машины расширяют возможности технологии VDI.

Методика дедупликации

Наиболее часто используемой формой дедупликации данных является дедупликация блоков. Этот метод основан на использовании автоматизированных функций для выявления дубликатов в блоках данных и последующего их удаления. Работая на этом уровне блоков, можно анализировать фрагменты уникальных данных и определять их как заслуживающие проверки и сохранения. Затем, когда программное обеспечение дедупликации обнаруживает повторение одного и того же блока данных, это повторение удаляется и вместо него включается ссылка на исходные данные.

Это основная форма дедупликации, но далеко не единственный метод. В других случаях использования альтернативный метод дедупликации данных работает на уровне файлов. В хранилище единичных экземпляров сравниваются полные копии данных на файловом сервере, а не фрагменты или блоки данных. Как и аналогичный метод, дедупликация файлов зависит от сохранения исходного файла в файловой системе и удаления дополнительных копий.

Следует отметить, что методы дедупликации работают не совсем так же, как алгоритмы сжатия данных (например, LZ77, LZ78), хотя верно то, что оба преследуют одну и ту же общую цель — уменьшение избыточности данных. Методы дедупликации достигают этого в более крупном макромасштабе, чем алгоритмы сжатия, цель которых заключается не столько в замене идентичных файлов общими копиями, сколько в более эффективном кодировании избыточных данных.

Виды дедупликации данных

Существуют различные типы дедупликации данных в зависимости от когда происходит процесс дедупликации:

Встроенная дедупликация: Эта форма дедупликации данных происходит мгновенно — в режиме реального времени — по мере того, как данные передаются в системе хранения. Встроенная система дедупликации передает меньший трафик данных, поскольку она не передает и не хранит дублированные данные. Это может привести к уменьшению общего объема полосы пропускания, необходимой этой организации.
Постпроцессная дедупликация: Этот тип дедупликации происходит после того, как данные были записаны и помещены на устройство хранения определенного типа.

Здесь стоит пояснить, что на оба типа дедупликации данных влияют хэш-вычисления, присущие дедупликации данных. Эти криптографический Расчеты являются неотъемлемой частью выявления повторяющихся закономерностей в данных. Во время оперативной дедупликации эти вычисления выполняются мгновенно, что может доминировать и временно подавлять функциональность компьютера. При дедупликации постобработки хэш-вычисления могут выполняться в любое время после добавления данных таким способом и в такое время, которое не перегружает компьютерные ресурсы организации.

На этом тонкие различия между типами дедупликации не заканчиваются. Другой способ классификации типов дедупликации основан на в котором происходят такие процессы.

Исходная дедупликация: Эта форма дедупликации происходит рядом с местом фактического создания новых данных. Система сканирует эту область и обнаруживает новые копии файлов, которые затем удаляются.
Целевая дедупликация: Другой тип дедупликации похож на инверсию дедупликации источника. При целевой дедупликации система дедуплицирует все копии, обнаруженные в областях, отличных от тех, где были созданы исходные данные.

Поскольку существуют различные типы дедупликации, передовые организации должны принимать осторожные и взвешенные решения относительно выбранного типа дедупликации, сопоставляя этот метод с конкретными потребностями компании.

Во многих случаях выбор метода дедупликации в организации вполне может сводиться к множеству внутренних переменных, таких как следующие:

Сколько и какого типа наборов данных создается
Основная система хранения данных организации
Какие виртуальные среды используются
На какие приложения полагается компания

Последние разработки в области дедупликации данных

Как и вся компьютерная продукция, дедупликация данных предполагает более широкое использование искусственный интеллект (ИИ) поскольку он продолжает развиваться. Dedupe будет становиться все более изощренным по мере того, как в нем будет появляться все больше нюансов, которые помогут ему найти закономерности избыточности при сканировании блоков данных.

Одной из новых тенденций в дедупликации является обучение с подкреплением. При этом используется система поощрений и наказаний (как при обучении с подкреплением) и применяется оптимальная политика разделения записей или их объединения.

Еще одна тенденция, на которую стоит обратить внимание, — это использование ансамблевых методов, в которых различные модели или алгоритмы используются совместно, чтобы обеспечить еще большую точность в процессе дедупликации.

Продолжающаяся дилемма

Мир ИТ все больше зацикливается на продолжающейся проблеме распространения данных и на том, что с этим делать. Многие компании оказываются в неловком положении, одновременно желая сохранить все данные, над накоплением которых они работали, а также поместить переполняющиеся новые данные в любой возможный контейнер для хранения, хотя бы для того, чтобы убрать их с дороги.

Хотя такая дилемма сохраняется, упор на дедупликацию данных будет продолжаться, поскольку организации рассматривают дедупликацию как более дешевую альтернативу покупке большего объема хранилища. Потому что в конечном итоге, хотя мы интуитивно понимаем, что бизнесу нужны данные, мы также знаем, что данные очень часто требуют дедупликации.

Узнайте, как IBM Storage FlashSystem может помочь вам удовлетворить ваши потребности в хранении данных

Была ли эта статья полезна?

ДаНет

Еще от Облака

29 января 2024

Непрерывность бизнеса или аварийное восстановление: какой план подойдет именно вам?

7 мин чтения – Планы обеспечения непрерывности бизнеса и аварийного восстановления — это стратегии управления рисками, на которые предприятия полагаются, чтобы подготовиться к непредвиденным инцидентам. Хотя эти термины тесно связаны между собой, есть некоторые ключевые различия, которые стоит учитывать при выборе того, что подходит именно вам: План обеспечения непрерывности бизнеса (BCP): BCP — это подробный план, в котором описываются шаги, которые организация предпримет для возвращения к нормальным бизнес-функциям в событие катастрофы. В то время как другие типы планов могут быть сосредоточены на одном конкретном аспекте восстановления и прерывания…

29 января 2024

IBM Tech сейчас: 29 января 2024 г.

<1 мин чтения – Добро пожаловать в IBM Tech Now, нашу веб-серию видео, в которой представлены самые последние и важные новости и анонсы из мира технологий. Обязательно подпишитесь на наш канал YouTube, чтобы получать уведомления каждый раз, когда публикуется новое видео IBM Tech Now. IBM Tech Now: Эпизод 91. В этом выпуске мы рассматриваем следующие темы: IBM Think 2024 Резервирование IBM Cloud на виртуальных серверах IBM Cloud для VPC Зеленый квадрант Verdantix Оставайтесь на связи. Вы можете проверить IBM…

Мужчина в очках сидит на стуле со скрещенной ногой и одной рукой на клавиатуре открытого ноутбука

22 января 2024

Принимаем заказы: виртуальные серверы IBM Cloud для VPC

2 мин чтения – Поскольку организации работают над сокращением расходов в корпоративных облачных средах, они часто сталкиваются с проблемой выбора универсальных вариантов оплаты через своих облачных провайдеров. Поскольку дорожные карты и приоритеты меняются на фоне сокращения капитала и ужесточения рентабельности инвестиций, организации стремятся минимизировать риск расходов в течение года и создать более предсказуемую среду бюджетирования. Когда дело доходит до планирования операций облачных вычислений, расширенное планирование окупается с помощью IBM Cloud Reservations на виртуальных серверах IBM Cloud для VPC. Что такое IBM…

19 января 2024

Как построить успешную стратегию аварийного восстановления

6 мин чтения – Независимо от того, сталкивается ли ваша отрасль с проблемами геополитической борьбы, последствиями глобальной пандемии или растущей агрессией в сфере кибербезопасности, вектор угроз для современных предприятий, несомненно, является мощным. Стратегии аварийного восстановления предоставляют членам команды основу для восстановления работоспособности бизнеса после незапланированного события. Понятно, что во всем мире популярность стратегий аварийного восстановления растет. Согласно недавнему отчету…

Информационные бюллетени IBM

Получайте наши информационные бюллетени и обновления тем, в которых представлены последние передовые идеи и понимание новых тенденций.

Больше информационных бюллетеней

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://www.ibm.com/blog/how-does-data-deduplication-work/

Отметка времени: 29 января 2024

Отметка времени: 8 февраля, 2023

Переиздано Платоном

Что делает дедупликация?

Какова основная цель дедупликации?

Дополнительные преимущества дедупликации

Методика дедупликации

Виды дедупликации данных

Последние разработки в области дедупликации данных

Продолжающаяся дилемма

Еще от Облака

Непрерывность бизнеса или аварийное восстановление: какой план подойдет именно вам?

IBM Tech сейчас: 29 января 2024 г.

Принимаем заказы: виртуальные серверы IBM Cloud для VPC

Как построить успешную стратегию аварийного восстановления

Версия OpenShift 4.13 теперь доступна в Red Hat OpenShift в IBM Cloud — блог IBM

Предприятиям нужен генеративный ИИ, адаптированный к их уникальным потребностям, с их собственными уникальными данными.

Оптимизация соответствия с IBM Cloud Infrastructure as Code и подходом сдвига влево — блог IBM

Управление облачными экосистемами: обеспечение непрерывности рабочей нагрузки во время обновлений рабочих узлов — блог IBM

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись