В последние годы произошел взрыв в распространении единиц самостоятельного хранения. Эти большие складские помещения возникли на национальном уровне как быстро развивающаяся отрасль по одной причине: у обычного человека теперь больше имущества, чем он знает, что с ним делать.
Та же основная ситуация преследует и мир информационных технологий. Мы находимся в процессе бурного роста данных. Даже относительно простые, повседневные объекты теперь регулярно генерируют данные самостоятельно благодаря Интернет вещей (IoT) функциональность. Никогда прежде в истории не создавалось, не собиралось и не анализировалось так много данных. И никогда раньше менеджеры данных не сталкивались с проблемой хранения такого большого количества данных.
Компания может сначала не осознать проблему или то, насколько большой она может стать, и тогда ей придется искать решение для увеличения объема хранилища. Со временем компания может перерасти и эту систему хранения, что потребует еще больших инвестиций. Неизбежно компания устанет от этой игры и будет искать более дешевый и простой вариант, что приводит нас к дедупликация данных.
Хотя многие организации используют методы дедупликации данных (или «дедупликацию») как часть своих систем управления данными, немногие по-настоящему понимают, что такое процесс дедупликации и для чего он предназначен. Итак, давайте раскроем тайну дедупликации и объясним, как работает дедупликация данных.
Что делает дедупликация?
Для начала давайте уточним наш основной термин. Дедупликация данных — это процесс, который организации используют для оптимизации хранения данных и уменьшения объема данных, которые они архивируют, путем устранения избыточных копий данных.
Более того, мы должны отметить, что когда мы говорим о избыточных данных, мы на самом деле говорим на уровне файлов и имеем в виду безудержное распространение файлов данных. Поэтому, когда мы обсуждаем усилия по дедупликации данных, на самом деле необходима система дедупликации файлов.
Какова основная цель дедупликации?
Некоторые люди придерживаются неправильного представления о природе данных, рассматривая их как товар, который просто существует для того, чтобы его собирать и собирать, как яблоки с дерева на вашем собственном заднем дворе.
Реальность такова, что каждый новый файл данных стоит денег. Во-первых, получение таких данных обычно стоит денег (путем покупки списков данных). Или для того, чтобы организация могла собирать и собирать данные самостоятельно, требуются значительные финансовые вложения, даже если это данные, которые сама организация производит и собирает органично. Таким образом, наборы данных — это инвестиции, и, как и любые ценные инвестиции, они должны быть строго защищены.
В данном случае мы говорим о пространстве для хранения данных — будь то в виде локальных аппаратных серверов или через облачного хранения через облачное хранилище центр обработки данных— его необходимо купить или взять в аренду.
Таким образом, дублирующиеся копии данных, подвергшихся репликации, снижают прибыль, вызывая дополнительные затраты на хранение, помимо тех, которые связаны с основной системой хранения и ее пространством для хранения. Короче говоря, необходимо выделить больше ресурсов носителей для размещения как новых, так и уже сохраненных данных. В какой-то момент развития компании дублирование данных может легко стать финансовым обязательством.
Подводя итог, можно сказать, что основная цель дедупликации данных — сэкономить деньги, позволяя организациям меньше тратить на дополнительное хранилище.
Дополнительные преимущества дедупликации
Помимо емкости хранилища, есть и другие причины, по которым компании используют решения по дедупликации данных. Вероятно, нет ничего более важного, чем защита и улучшение данных, которые они обеспечивают. Организации совершенствуют и оптимизируют рабочие нагрузки с дедуплицированными данными, чтобы они работали более эффективно, чем данные, изобилующие дубликатами файлов.
Еще одним важным аспектом дедупликации является то, как она помогает ускорить и успешно реализовать катастрофа усилия по восстановлению и минимизирует объем потери данных, которая часто может возникнуть в результате такого события. Dedupe помогает обеспечить надежный процесс резервного копирования, поэтому система резервного копирования организации способна справиться с задачей обработки данных резервного копирования. Помимо помощи в создании полных резервных копий, дедупликация также помогает в сохранении данных.
Еще одним преимуществом дедупликации данных является то, насколько хорошо она работает в сочетании с инфраструктура виртуальных рабочих столов (VDI) развертываний благодаря тому, что виртуальные жесткие диски за удаленными рабочими столами VDI работают одинаково. Популярный Рабочий стол как услуга (DaaS) продукты включают Azure Virtual Desktop от Microsoft и Windows VDI. Эти продукты создают виртуальные машины (ВМ), которые создаются в процессе виртуализации серверов. В свою очередь, эти виртуальные машины расширяют возможности технологии VDI.
Методика дедупликации
Наиболее часто используемой формой дедупликации данных является дедупликация блоков. Этот метод основан на использовании автоматизированных функций для выявления дубликатов в блоках данных и последующего их удаления. Работая на этом уровне блоков, можно анализировать фрагменты уникальных данных и определять их как заслуживающие проверки и сохранения. Затем, когда программное обеспечение дедупликации обнаруживает повторение одного и того же блока данных, это повторение удаляется и вместо него включается ссылка на исходные данные.
Это основная форма дедупликации, но далеко не единственный метод. В других случаях использования альтернативный метод дедупликации данных работает на уровне файлов. В хранилище единичных экземпляров сравниваются полные копии данных на файловом сервере, а не фрагменты или блоки данных. Как и аналогичный метод, дедупликация файлов зависит от сохранения исходного файла в файловой системе и удаления дополнительных копий.
Следует отметить, что методы дедупликации работают не совсем так же, как алгоритмы сжатия данных (например, LZ77, LZ78), хотя верно то, что оба преследуют одну и ту же общую цель — уменьшение избыточности данных. Методы дедупликации достигают этого в более крупном макромасштабе, чем алгоритмы сжатия, цель которых заключается не столько в замене идентичных файлов общими копиями, сколько в более эффективном кодировании избыточных данных.
Виды дедупликации данных
Существуют различные типы дедупликации данных в зависимости от когда происходит процесс дедупликации:
- Встроенная дедупликация: Эта форма дедупликации данных происходит мгновенно — в режиме реального времени — по мере того, как данные передаются в системе хранения. Встроенная система дедупликации передает меньший трафик данных, поскольку она не передает и не хранит дублированные данные. Это может привести к уменьшению общего объема полосы пропускания, необходимой этой организации.
- Постпроцессная дедупликация: Этот тип дедупликации происходит после того, как данные были записаны и помещены на устройство хранения определенного типа.
Здесь стоит пояснить, что на оба типа дедупликации данных влияют хэш-вычисления, присущие дедупликации данных. Эти криптографический Расчеты являются неотъемлемой частью выявления повторяющихся закономерностей в данных. Во время оперативной дедупликации эти вычисления выполняются мгновенно, что может доминировать и временно подавлять функциональность компьютера. При дедупликации постобработки хэш-вычисления могут выполняться в любое время после добавления данных таким способом и в такое время, которое не перегружает компьютерные ресурсы организации.
На этом тонкие различия между типами дедупликации не заканчиваются. Другой способ классификации типов дедупликации основан на в котором происходят такие процессы.
- Исходная дедупликация: Эта форма дедупликации происходит рядом с местом фактического создания новых данных. Система сканирует эту область и обнаруживает новые копии файлов, которые затем удаляются.
- Целевая дедупликация: Другой тип дедупликации похож на инверсию дедупликации источника. При целевой дедупликации система дедуплицирует все копии, обнаруженные в областях, отличных от тех, где были созданы исходные данные.
Поскольку существуют различные типы дедупликации, передовые организации должны принимать осторожные и взвешенные решения относительно выбранного типа дедупликации, сопоставляя этот метод с конкретными потребностями компании.
Во многих случаях выбор метода дедупликации в организации вполне может сводиться к множеству внутренних переменных, таких как следующие:
- Сколько и какого типа наборов данных создается
- Основная система хранения данных организации
- Какие виртуальные среды используются
- На какие приложения полагается компания
Последние разработки в области дедупликации данных
Как и вся компьютерная продукция, дедупликация данных предполагает более широкое использование искусственный интеллект (ИИ) поскольку он продолжает развиваться. Dedupe будет становиться все более изощренным по мере того, как в нем будет появляться все больше нюансов, которые помогут ему найти закономерности избыточности при сканировании блоков данных.
Одной из новых тенденций в дедупликации является обучение с подкреплением. При этом используется система поощрений и наказаний (как при обучении с подкреплением) и применяется оптимальная политика разделения записей или их объединения.
Еще одна тенденция, на которую стоит обратить внимание, — это использование ансамблевых методов, в которых различные модели или алгоритмы используются совместно, чтобы обеспечить еще большую точность в процессе дедупликации.
Продолжающаяся дилемма
Мир ИТ все больше зацикливается на продолжающейся проблеме распространения данных и на том, что с этим делать. Многие компании оказываются в неловком положении, одновременно желая сохранить все данные, над накоплением которых они работали, а также поместить переполняющиеся новые данные в любой возможный контейнер для хранения, хотя бы для того, чтобы убрать их с дороги.
Хотя такая дилемма сохраняется, упор на дедупликацию данных будет продолжаться, поскольку организации рассматривают дедупликацию как более дешевую альтернативу покупке большего объема хранилища. Потому что в конечном итоге, хотя мы интуитивно понимаем, что бизнесу нужны данные, мы также знаем, что данные очень часто требуют дедупликации.
Была ли эта статья полезна?
ДаНет
Еще от Облака
Информационные бюллетени IBM
Получайте наши информационные бюллетени и обновления тем, в которых представлены последние передовые идеи и понимание новых тенденций.
Подписаться
Больше информационных бюллетеней
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://www.ibm.com/blog/how-does-data-deduplication-work/
- :имеет
- :является
- :нет
- :куда
- $UP
- 1
- 17
- 19
- 2022
- 2024
- 22
- 28
- 29
- 30
- 300
- 36
- 400
- 41
- 7
- 84
- 9
- 91
- a
- в состоянии
- О нас
- об этом
- вмещать
- По
- точность
- Достигать
- на самом деле
- добавленный
- дополнение
- дополнительный
- продвинутый
- Реклама
- пострадавших
- После
- против
- AI
- пособие
- цель
- алгоритмы
- Все
- в одиночестве
- причислены
- альтернатива
- Несмотря на то, что
- количество
- amp
- an
- аналитика
- проанализированы
- и
- Объявления
- Другой
- любой
- применяется
- Программы
- МЫ
- ПЛОЩАДЬ
- области
- гайд
- AS
- внешний вид
- Активы
- помощь
- связанный
- At
- автор
- Автоматизированный
- в среднем
- Лазурный
- назад
- задник
- Восстановление
- Операции резервного копирования
- Балансировка
- Пропускная способность
- основанный
- основной
- BE
- , так как:
- становиться
- становление
- было
- до
- за
- не являетесь
- польза
- Преимущества
- между
- Beyond
- миллиард
- Заблокировать
- Блоки
- Блог
- блоги
- Синии
- изоферменты печени
- Дно
- Приносит
- составление бюджета
- строить
- бизнес
- Непрерывность бизнеса
- бизнес
- но
- кнопка
- by
- CAN
- Пропускная способность
- столица
- углерод
- карта
- Карты
- тщательный
- нести
- случаев
- КПП
- Категории
- Кресла
- вызов
- проблемы
- Канал
- более дешевый
- проверка
- выбор
- Выбирая
- выбранный
- круги
- СНГ
- класс
- классифицировать
- тесно
- облако
- облачных вычислений
- Сбор
- цвет
- как
- выходит
- товар
- обычно
- Компании
- Компания
- Компании
- компьютер
- вычисление
- связь
- считается
- принимая во внимание
- Container
- продолжать
- продолжается
- непрерывность
- копии
- Расходы
- контрагент
- покрытие
- Создайте
- создали
- Скрещенный
- CSS
- изготовленный на заказ
- Информационная безопасность
- даас
- данным
- Потеря данных
- управление данными
- защита данных
- наборы данных
- хранение данных
- Время
- решения
- По умолчанию
- Определения
- доставить
- демистифицировать
- в зависимости
- зависит
- развертывания
- описание
- проектирование
- компьютера
- подробный
- развивается
- устройство
- Различия
- различный
- катастрофа
- обсуждать
- do
- приносит
- не
- господствовать
- Dont
- вниз
- в течение
- e
- каждый
- легко
- эффективно
- усилие
- усилия
- уничтожение
- обниматься
- появление
- акцент
- расширение прав и возможностей
- включить
- позволяет
- кодирование
- конец
- усиление
- обеспечивать
- Enter
- Предприятие
- предприятий
- средах
- эпизод
- равный
- существенный
- Эфир (ETH)
- Даже
- События
- Каждая
- повседневный
- развивается
- существует
- Выход
- Объяснять
- объясняя
- взрыв
- дополнительно
- Face
- лица
- факт
- завод
- FAIL
- осадки
- ложный
- Показывая
- Файл
- Файлы
- финансовый
- Найдите
- обнаружение
- First
- Потоки
- Фокус
- следовать
- после
- шрифты
- Что касается
- форма
- найденный
- Рамки
- от
- полный
- функциональность
- Функции
- игра
- собирать
- собранный
- Общие
- порождать
- генерируется
- генератор
- геополитический
- получить
- очки
- Глобальный
- глобальная пандемия
- цель
- большой
- величайший
- Зелёная
- сетка
- Расти
- рука
- Управляемость
- Жесткий
- Аппаратные средства
- хэш
- Есть
- Заголовок
- высота
- помощь
- полезный
- помощь
- помогает
- история
- Авуары
- Как
- How To
- HTTPS
- IBM
- IBM Cloud
- ICO
- ICON
- идентичный
- определения
- идентифицирующий
- if
- изображение
- важную
- важный аспект
- внушительный
- in
- В других
- инцидентов
- включают
- включены
- Увеличение
- расширились
- повышение
- все больше и больше
- индекс
- промышленность
- неизбежно
- Инфраструктура
- свойственный
- первоначально
- размышления
- пример
- вместо
- рефлексологии
- Интеллекта
- предназначенных
- в нашей внутренней среде,
- инверсия
- инвестиций
- КАТО
- вопрос
- IT
- ЕГО
- саму трезвость
- январь
- JPG
- хранение
- Основные
- Знать
- портативный компьютер
- большой
- больше
- Фамилия
- В прошлом году
- последний
- вести
- Наша команда
- изучение
- Меньше
- уровень
- ответственность
- такое как
- линия
- Списки
- локальным
- местный
- от
- Продукция
- Макрос
- Главная
- сделать
- человек
- управление
- система управления
- Менеджеры
- способ
- многих
- макс-ширина
- Май..
- Медиа
- Участники
- объединение
- метод
- методы
- Microsoft
- может быть
- мин
- минимизировать
- сводит к минимуму
- минут
- Мобильный телефон
- Модели
- Модерн
- момент
- деньги
- БОЛЕЕ
- самых
- много
- должен
- в национальном
- природа
- Навигация
- Возле
- почти
- необходимый
- потребности
- ни
- никогда
- Новые
- Новости
- Рассылки
- Ничто
- ни
- отметил,
- ничего
- понятие
- сейчас
- нюансы
- объекты
- получать
- происходить
- of
- от
- .
- on
- ONE
- постоянный
- только
- открытый
- работать
- работает
- Операционный отдел
- оптимальный
- Оптимизировать
- оптимизированный
- Опции
- or
- органически
- организация
- организации
- оригинал
- Другое
- наши
- внешний
- контуры
- выходной
- собственный
- страница
- пандемия
- часть
- особый
- паттеранами
- оплата
- страна
- штрафов
- Люди
- выполнены
- сохраняется
- человек
- PHP
- Часть
- размещенный
- Язвы
- план
- планирование
- Планы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Сменная
- плагин
- Точка
- сбалансирован
- политика
- Популярное
- популярность
- должность
- имущество
- возможное
- После
- Постобработка
- Пауэлл
- мощный
- предсказуемый
- Подготовить
- сохранение
- первичный
- Проблема
- процесс
- Процессы
- производства
- Продукция
- защищенный
- защиту
- обеспечивать
- поставщики
- опубликованный
- покупки
- купленный
- покупка
- преследовать
- преследование
- вполне
- RE
- Reading
- Реальность
- причины
- последний
- признавать
- учет
- выздоровление
- уменьшить
- Цена снижена
- снижение
- снижение
- ссылка
- совершенствовать
- по
- усиление обучения
- Связанный
- относительно
- полагаться
- удаленные
- удаление
- удален
- удаление
- повторный
- копирование
- отчету
- требуется
- Полезные ресурсы
- отзывчивый
- результат
- сохранять
- сохранение
- возвращают
- Награды
- правую
- повышение
- Снижение
- управление рисками
- Дорожные карты
- Роботы
- Комната
- обычно
- Run
- Бег
- то же
- Сохранить
- Шкала
- сканирует
- экран
- скрипты
- посмотреть
- Искать
- поисковая оптимизация
- отделяющий
- Серии
- сервер
- серверы
- обслуживание
- Наборы
- общие
- сдвиг
- Короткое
- выстрел
- должен
- просто
- простой
- просто
- одновременно
- сайте
- Сидящий
- ситуация
- небольшой
- So
- Software
- Решение
- Решения
- некоторые
- сложный
- Источник
- Space
- говорить
- Говоря
- конкретный
- указанный
- тратить
- Расходы
- потраченный
- Спонсоров
- квадраты
- Начало
- оставаться
- Шаги
- Придерживаться
- диск
- магазин
- магазины
- стратегий
- Стратегия
- упорядочить
- крепкий
- подписаться
- существенный
- успешный
- такие
- сумма
- Убедитесь
- SVG
- система
- взять
- принимает
- с
- говорить
- Тандем
- цель
- Сложность задачи
- команда
- Члены команды
- технологии
- снижения вреда
- Технологии
- срок
- terms
- третичный
- чем
- благодаря
- который
- Ассоциация
- мир
- их
- Их
- тема
- сами
- тогда
- Там.
- следовательно
- Эти
- они
- вещи
- think
- этой
- те
- мысль
- продуманное лидерство
- угроза
- Через
- по всему
- ужесточены
- время
- шина
- Название
- в
- топ
- тема
- Темы
- Всего
- трафик
- Обучение
- траектория
- переводы
- дерево
- тенденция
- Тенденции
- правда
- по-настоящему
- ОЧЕРЕДЬ
- напишите
- Типы
- В конечном счете
- несомненно
- претерпели
- понимать
- По вполне понятным причинам
- Неожиданный
- созданного
- единиц
- Updates
- на
- URL
- us
- USD
- использование
- используемый
- использования
- через
- обычно
- Проверка
- ценный
- разнообразие
- очень
- с помощью
- Видео
- просмотр
- Виртуальный
- виртуальный рабочий стол
- vs
- W
- желая
- Склады
- законопроект
- наблюдение
- Путь..
- we
- Web
- ЧТО Ж
- Что
- когда
- который
- в то время как
- чья
- будете
- окна
- в
- свидетелем
- WordPress
- Работа
- работавший
- работает
- работает
- Мир
- по всему миру
- стоимость
- достойный
- письменный
- год
- лет
- являетесь
- ВАШЕ
- YouTube
- зефирнет