Como funciona a desduplicação de dados? -Blog da IBM

Como funciona a desduplicação de dados? –Blog da IBM

Nó Fonte: 3088770


Como funciona a desduplicação de dados? –Blog da IBM



Foto aérea de uma fábrica

Os últimos anos testemunharam uma explosão na proliferação de unidades de autoarmazenamento. Estas grandes unidades de armazém surgiram a nível nacional como uma indústria em expansão por uma razão: a pessoa média tem agora mais bens do que sabe o que fazer com eles.

A mesma situação básica também assola o mundo da TI. Estamos no meio de uma explosão de dados. Mesmo objetos relativamente simples, do dia a dia, agora geram dados rotineiramente por conta própria, graças a Internet of Things (IoT) funcionalidade. Nunca antes na história tantos dados foram criados, coletados e analisados. E nunca antes tantos gestores de dados lutaram com o problema de como armazenar tantos dados.

Uma empresa pode inicialmente não reconhecer o problema ou o quão grande ele pode se tornar, e então essa empresa terá que encontrar uma solução de armazenamento maior. Com o tempo, a empresa também poderá superar esse sistema de armazenamento, exigindo ainda mais investimentos. Inevitavelmente, a empresa se cansará desse jogo e buscará uma opção mais barata e simples – o que nos leva a desduplicação de dados.

Embora muitas organizações utilizem técnicas de desduplicação de dados (ou “desduplicação”) como parte de seu sistema de gerenciamento de dados, poucas realmente entendem o que é o processo de desduplicação e o que ele pretende fazer. Então, vamos desmistificar a desduplicação e explicar como funciona a desduplicação de dados.

O que a desduplicação faz?

Primeiro, vamos esclarecer nosso termo principal. A desduplicação de dados é um processo que as organizações usam para simplificar seus acervos de dados e reduzir a quantidade de dados arquivados, eliminando cópias redundantes de dados.

Além disso, devemos salientar que quando falamos de dados redundantes, estamos na verdade falando ao nível dos ficheiros e referindo-nos a uma proliferação desenfreada de ficheiros de dados. Portanto, quando discutimos os esforços de desduplicação de dados, na verdade é necessário um sistema de desduplicação de arquivos.

Qual é o principal objetivo da desduplicação?

Algumas pessoas têm uma noção incorreta sobre a natureza dos dados, vendo-os como uma mercadoria que simplesmente existe para ser recolhida e colhida – como maçãs de uma árvore no seu próprio quintal.

A realidade é que cada novo arquivo de dados custa dinheiro. Em primeiro lugar, normalmente custa dinheiro obter tais dados (através da compra de listas de dados). Ou requer um investimento financeiro substancial para que uma organização seja capaz de reunir e coletar dados por conta própria, mesmo que sejam dados que a própria organização esteja produzindo e coletando organicamente. Os conjuntos de dados, portanto, são um investimento e, como qualquer investimento valioso, devem ser protegidos rigorosamente.

Neste caso, estamos falando de espaço de armazenamento de dados – seja na forma de servidores de hardware locais ou através de armazenamento em nuvem através de um serviço baseado em nuvem centro de dados-que deve ser comprado ou alugado.

Cópias duplicadas de dados que foram replicados, portanto, prejudicam o resultado final, impondo custos de armazenamento adicionais além daqueles associados ao sistema de armazenamento primário e seu espaço de armazenamento. Em suma, mais ativos de mídia de armazenamento devem ser dedicados para acomodar tanto dados novos como dados já armazenados. Em algum momento da trajetória de uma empresa, dados duplicados podem facilmente se tornar um passivo financeiro.

Portanto, resumindo, o principal objetivo da desduplicação de dados é economizar dinheiro, permitindo que as organizações gastem menos em armazenamento extra.

Benefícios adicionais da desduplicação

Existem também outras razões, além da capacidade de armazenamento, para que as empresas adotem soluções de desduplicação de dados – provavelmente nenhuma mais essencial do que a proteção e o aprimoramento de dados que elas fornecem. As organizações refinam e otimizam cargas de trabalho de dados desduplicados para que sejam executadas com mais eficiência do que dados repletos de arquivos duplicados.

Outro aspecto importante da desduplicação é como ela ajuda a capacitar um processo rápido e bem-sucedido. desastre esforço de recuperação e minimiza a quantidade de perda de dados que muitas vezes pode resultar de tal evento. A desduplicação ajuda a permitir um processo de backup robusto para que o sistema de backup de uma organização esteja à altura da tarefa de lidar com seus dados de backup. Além de ajudar nos backups completos, a desduplicação também auxilia nos esforços de retenção.

Ainda outro benefício da desduplicação de dados é o quão bem ela funciona em conjunto com infraestrutura de área de trabalho virtual (VDI) implantações, graças ao fato de que os discos rígidos virtuais por trás dos desktops remotos do VDI operam de forma idêntica. Popular Desktop como serviço (DaaS) os produtos incluem o Azure Virtual Desktop da Microsoft e seu Windows VDI. Esses produtos criam máquinas virtuais (VMs), que são criados durante o processo de virtualização do servidor. Por sua vez, essas máquinas virtuais capacitam a tecnologia VDI.

Metodologia de desduplicação

A forma mais comumente usada de desduplicação de dados é a desduplicação em bloco. Este método opera usando funções automatizadas para identificar duplicações em blocos de dados e, em seguida, remover essas duplicações. Ao trabalhar neste nível de bloco, pedaços de dados exclusivos podem ser analisados ​​e especificados como dignos de validação e preservação. Então, quando o software de desduplicação detecta uma repetição do mesmo bloco de dados, essa repetição é removida e uma referência aos dados originais é incluída em seu lugar.

Essa é a principal forma de desduplicação, mas dificilmente é o único método. Em outros casos de uso, um método alternativo de desduplicação de dados opera no nível do arquivo. O armazenamento de instância única compara cópias completas de dados no servidor de arquivos, mas não pedaços ou blocos de dados. Assim como seu método equivalente, a desduplicação de arquivos depende da manutenção do arquivo original no sistema de arquivos e da remoção de cópias extras.

Deve-se notar que as técnicas de desduplicação não funcionam da mesma maneira que os algoritmos de compressão de dados (por exemplo, LZ77, LZ78), embora seja verdade que ambos perseguem o mesmo objetivo geral de reduzir redundâncias de dados. As técnicas de desduplicação conseguem isso em uma escala macro maior do que os algoritmos de compactação, cujo objetivo é menos substituir arquivos idênticos por cópias compartilhadas e mais codificar redundâncias de dados de maneira mais eficiente.

Tipos de desduplicação de dados

Existem diferentes tipos de desduplicação de dados, dependendo quando o processo de desduplicação ocorre:

  • Desduplicação em linha: Essa forma de desduplicação de dados ocorre instantaneamente – em tempo real – à medida que os dados fluem dentro do sistema de armazenamento. O sistema de desduplicação em linha transporta menos tráfego de dados porque não transfere nem armazena dados duplicados. Isso pode levar a uma redução na quantidade total de largura de banda necessária para aquela organização.
  • Desduplicação pós-processo: Esse tipo de desduplicação ocorre depois que os dados são gravados e colocados em algum tipo de dispositivo de armazenamento.

Aqui vale a pena explicar que ambos os tipos de desduplicação de dados são afetados pelos cálculos de hash inerentes à desduplicação de dados. Esses criptografia os cálculos são essenciais para identificar padrões repetidos nos dados. Durante as desduplicações em linha, esses cálculos são realizados no momento, o que pode dominar e sobrecarregar temporariamente a funcionalidade do computador. Nas desduplicações pós-processamento, os cálculos de hash podem ser realizados a qualquer momento após os dados serem adicionados de uma forma e em um momento que não sobrecarregue os recursos do computador da organização.

As diferenças sutis entre os tipos de desduplicação não param por aí. Outra maneira de classificar os tipos de desduplicação é baseada em onde tais processos ocorrem.

  • Desduplicação de origem: Essa forma de desduplicação ocorre perto de onde os novos dados são realmente gerados. O sistema verifica essa área e detecta novas cópias de arquivos, que são então removidas.
  • Desduplicação de destino: Outro tipo de desduplicação é como uma inversão da desduplicação de origem. Na desduplicação de destino, o sistema desduplica todas as cópias encontradas em áreas diferentes de onde os dados originais foram criados.

Como existem diferentes tipos de desduplicação praticados, as organizações voltadas para o futuro devem tomar decisões cuidadosas e ponderadas em relação ao tipo de desduplicação escolhido, equilibrando esse método com as necessidades específicas da empresa.

Em muitos casos de uso, o método de desduplicação escolhido por uma organização pode muito bem se resumir a uma variedade de variáveis ​​internas, como as seguintes:

  • Quantos e que tipo de conjuntos de dados estão sendo criados
  • O sistema de armazenamento primário da organização
  • Quais ambientes virtuais estão em uso
  • Em quais aplicativos a empresa confia

Desenvolvimentos recentes de desduplicação de dados

Como toda saída de computador, a desduplicação de dados está preparada para fazer uso crescente de inteligência artificial (AI) à medida que continua a evoluir. A desduplicação se tornará cada vez mais sofisticada à medida que desenvolve ainda mais nuances que a auxiliam na busca de padrões de redundância à medida que blocos de dados são verificados.

Uma tendência emergente na desduplicação é o aprendizado por reforço. Isto utiliza um sistema de recompensas e penalidades (como no treinamento de reforço) e aplica uma política ideal para separar registros ou fundi-los.

Outra tendência que vale a pena observar é o uso de métodos de conjunto, nos quais diferentes modelos ou algoritmos são usados ​​em conjunto para garantir uma precisão ainda maior no processo de desduplicação.

O dilema contínuo

O mundo da TI está cada vez mais concentrado na questão contínua da proliferação de dados e no que fazer a respeito. Muitas empresas encontram-se na posição incómoda de quererem simultaneamente reter todos os dados que trabalharam para acumular e também de quererem guardar os seus novos dados transbordantes em qualquer recipiente de armazenamento possível, mesmo que apenas para os tirar do caminho.

Embora esse dilema persista, a ênfase nos esforços de desduplicação de dados continuará, à medida que as organizações veem a desduplicação como a alternativa mais barata à compra de mais armazenamento. Porque, em última análise, embora entendamos intuitivamente que os negócios precisam de dados, também sabemos que os dados muitas vezes exigem desduplicação.

Saiba como o IBM Storage FlashSystem pode ajudá-lo com suas necessidades de armazenamento

Esse artigo foi útil?

SimNão


Mais da nuvem




Continuidade dos negócios versus recuperação de desastres: Qual plano é o certo para você?

7 min ler - Os planos de continuidade dos negócios e recuperação de desastres são estratégias de gestão de riscos nas quais as empresas confiam para se prepararem para incidentes inesperados. Embora os termos estejam intimamente relacionados, existem algumas diferenças importantes que vale a pena considerar ao escolher o que é certo para você: Plano de continuidade de negócios (BCP): Um BCP é um plano detalhado que descreve as etapas que uma organização executará para retornar às funções normais de negócios em caso de um desastre. Onde outros tipos de planos podem concentrar-se num aspecto específico de recuperação e interrupção…




IBM Tech agora: 29 de janeiro de 2024

<1 min ler - Bem-vindo ao IBM Tech Now, nossa série de vídeos na web apresentando as melhores e mais recentes notícias e anúncios do mundo da tecnologia. Certifique-se de se inscrever em nosso canal no YouTube para ser notificado sempre que um novo vídeo do IBM Tech Now for publicado. IBM Tech Now: Episódio 91 Neste episódio, abordamos os seguintes tópicos: IBM Think 2024 IBM Cloud Reservas em IBM Cloud Virtual Servers para VPC Quadrante Verde da Verdantix Fique conectado Você pode conferir o IBM…




Agora aceitando reservas: IBM Cloud Virtual Servers for VPC

2 min ler - À medida que as organizações trabalham para reduzir gastos em ambientes corporativos de nuvem, muitas vezes enfrentam o desafio de oferecer opções de pagamento únicas por meio de seus provedores de nuvem. À medida que os roteiros e as prioridades mudam num contexto de capital reduzido e ROIs mais restritos, as organizações pretendem minimizar o risco de despesas ao longo do ano e criar ambientes orçamentais mais previsíveis. Quando se trata de projetar suas operações de computação em nuvem, o planejamento avançado compensa com o IBM Cloud Reservations no IBM Cloud Virtual Servers for VPC. O que são IBM…




Como construir uma estratégia de recuperação de desastres bem-sucedida

6 min ler - Quer a sua indústria enfrente desafios decorrentes de conflitos geopolíticos, consequências de uma pandemia global ou agressões crescentes no espaço da segurança cibernética, o vetor de ameaças para as empresas modernas é inegavelmente poderoso. As estratégias de recuperação de desastres fornecem a estrutura para os membros da equipe colocarem um negócio de volta em funcionamento após um evento não planejado. Em todo o mundo, a popularidade das estratégias de recuperação de desastres está a aumentar, compreensivelmente. No ano passado, as empresas gastaram 219 mil milhões de dólares apenas em segurança e soluções cibernéticas, um aumento de 12% em relação a 2022, de acordo com um relatório recente de…

Boletins informativos da IBM

Receba nossos boletins informativos e atualizações de tópicos que oferecem as mais recentes lideranças inovadoras e insights sobre tendências emergentes.

Inscreva-se agora

Mais boletins informativos

Carimbo de hora:

Mais de IBM