Ces dernières années ont vu une explosion de la prolifération des unités de self-stockage. Ces grandes unités d’entrepôt sont devenues une industrie en plein essor à l’échelle nationale pour une raison : l’individu moyen possède désormais plus de biens qu’il ne sait quoi en faire.
La même situation fondamentale afflige également le monde de l’informatique. Nous sommes au milieu d’une explosion de données. Même les objets quotidiens relativement simples génèrent désormais systématiquement des données par eux-mêmes grâce à Internet des Objets (IoT) Fonctionnalité. Jamais auparavant dans l’histoire autant de données n’avaient été créées, collectées et analysées. Et jamais autant de gestionnaires de données n’ont été confrontés au problème du stockage d’une telle quantité de données.
Il se peut qu'une entreprise ne parvienne pas, au début, à reconnaître le problème ou l'ampleur qu'il peut prendre, et qu'elle doive alors trouver une solution de stockage accrue. Avec le temps, l’entreprise pourrait également devenir trop grande pour ce système de stockage, ce qui nécessiterait encore plus d’investissements. Inévitablement, l’entreprise se lassera de ce jeu et cherchera une option moins chère et plus simple, ce qui nous amène à déduplication des données.
Bien que de nombreuses organisations utilisent des techniques de déduplication de données (ou « déduplication ») dans le cadre de leur système de gestion de données, elles sont moins nombreuses à comprendre réellement ce qu'est le processus de déduplication et à quoi il est destiné. Alors, démystifions la déduplication et expliquons comment fonctionne la déduplication des données.
À quoi sert la déduplication ?
Tout d’abord, clarifions notre terme principal. La déduplication des données est un processus utilisé par les organisations pour rationaliser leurs bases de données et réduire la quantité de données qu'elles archivent en éliminant les copies redondantes de données.
Par ailleurs, il convient de souligner que lorsque nous parlons de données redondantes, nous parlons en réalité au niveau des fichiers et faisons référence à une prolifération effrénée de fichiers de données. Ainsi, lorsque nous discutons des efforts de déduplication des données, c'est en fait un système de déduplication de fichiers qui est nécessaire.
Quel est l’objectif principal de la déduplication ?
Certaines personnes ont une idée erronée de la nature des données, les considérant comme un produit qui existe simplement pour être collecté et récolté, comme les pommes d'un arbre dans votre propre jardin.
La réalité est que chaque nouveau fichier de données coûte de l’argent. En premier lieu, l’obtention de ces données coûte généralement de l’argent (par l’achat de listes de données). Ou encore, cela nécessite un investissement financier substantiel pour qu'une organisation soit capable de collecter et de glaner des données par elle-même, même s'il s'agit de données que l'organisation elle-même produit et collecte de manière organique. Les ensembles de données constituent donc un investissement et, comme tout investissement précieux, ils doivent être rigoureusement protégés.
Dans ce cas, nous parlons d'espace de stockage de données, que ce soit sous la forme de serveurs matériels sur site ou via stockage cloud via un cloud centre de données... qui doit être acheté ou loué.
Les copies en double des données qui ont été répliquées nuisent donc aux résultats en imposant des coûts de stockage supplémentaires au-delà de ceux associés au système de stockage principal et à son espace de stockage. En bref, davantage de supports de stockage doivent être consacrés pour accueillir à la fois les nouvelles données et les données déjà stockées. À un moment donné dans la trajectoire d’une entreprise, les données en double peuvent facilement devenir un fardeau financier.
En résumé, l’objectif principal de la déduplication des données est d’économiser de l’argent en permettant aux organisations de dépenser moins en stockage supplémentaire.
Avantages supplémentaires de la déduplication
Au-delà de la capacité de stockage, il existe également d'autres raisons pour lesquelles les entreprises adoptent des solutions de déduplication de données, sans doute la plus essentielle étant la protection et l'amélioration des données qu'elles offrent. Les organisations affinent et optimisent les charges de travail de données dédupliquées afin qu'elles fonctionnent plus efficacement que les données regorgeant de fichiers en double.
Un autre aspect important de la déduplication est la manière dont elle contribue à permettre un processus rapide et efficace. catastrophe effort de récupération et minimise la quantité de perte de données qui peut souvent résulter d'un tel événement. La déduplication permet de mettre en place un processus de sauvegarde robuste afin que le système de sauvegarde d'une organisation soit à la hauteur de la tâche de gestion de ses données de sauvegarde. En plus de faciliter les sauvegardes complètes, la déduplication facilite également les efforts de rétention.
Un autre avantage de la déduplication des données réside dans son bon fonctionnement en conjonction avec infrastructure de bureau virtuel (VDI) déploiements, grâce au fait que les disques durs virtuels derrière les postes de travail distants du VDI fonctionnent de manière identique. Populaire Bureau en tant que service (DaaS) les produits incluent Azure Virtual Desktop de Microsoft et son Windows VDI. Ces produits créent machines virtuelles (VM), qui sont créés lors du processus de virtualisation du serveur. À leur tour, ces machines virtuelles renforcent la technologie VDI.
Méthodologie de déduplication
La forme de déduplication de données la plus couramment utilisée est la déduplication par blocs. Cette méthode fonctionne en utilisant des fonctions automatisées pour identifier les duplications dans les blocs de données, puis supprimer ces duplications. En travaillant à ce niveau de bloc, des morceaux de données uniques peuvent être analysés et spécifiés comme méritant d'être validés et préservés. Ensuite, lorsque le logiciel de déduplication détecte une répétition du même bloc de données, cette répétition est supprimée et une référence aux données d'origine est incluse à sa place.
C’est la principale forme de déduplication, mais ce n’est pas la seule méthode. Dans d'autres cas d'utilisation, une autre méthode de déduplication des données fonctionne au niveau du fichier. Le stockage à instance unique compare les copies complètes des données au sein du serveur de fichiers, mais pas les morceaux ou les blocs de données. Comme sa méthode homologue, la déduplication de fichiers dépend de la conservation du fichier d'origine dans le système de fichiers et de la suppression des copies supplémentaires.
Il convient de noter que les techniques de déduplication ne fonctionnent pas tout à fait de la même manière que les algorithmes de compression de données (par exemple LZ77, LZ78), même s'il est vrai que les deux poursuivent le même objectif général : réduire les redondances de données. Les techniques de déduplication y parviennent à une plus grande échelle que les algorithmes de compression, dont l'objectif est moins de remplacer des fichiers identiques par des copies partagées que d'encoder plus efficacement les redondances de données.
Types de déduplication de données
Il existe différents types de déduplication de données selon quand le processus de déduplication se produit :
- Déduplication en ligne : Cette forme de déduplication des données se produit au moment même, en temps réel, lorsque les données circulent au sein du système de stockage. Le système de déduplication en ligne transporte moins de trafic de données car il ne transfère ni ne stocke les données dupliquées. Cela peut entraîner une réduction de la quantité totale de bande passante nécessaire à cette organisation.
- Déduplication post-traitement: Ce type de déduplication a lieu une fois que les données ont été écrites et placées sur un type de périphérique de stockage.
Il convient ici d'expliquer que les deux types de déduplication de données sont affectés par les calculs de hachage inhérents à la déduplication de données. Ces cryptographique les calculs font partie intégrante de l’identification de modèles répétés dans les données. Lors des déduplications en ligne, ces calculs sont effectués sur le moment, ce qui peut dominer et temporairement submerger les fonctionnalités de l'ordinateur. Dans les déduplications post-traitement, les calculs de hachage peuvent être effectués à tout moment après l'ajout des données, de manière à ne pas surcharger les ressources informatiques de l'organisation.
Les différences subtiles entre les types de déduplication ne s'arrêtent pas là. Une autre façon de classifier les types de déduplication est basée sur De de tels processus se produisent.
- Déduplication à la source: Cette forme de déduplication a lieu à proximité de l'endroit où les nouvelles données sont réellement générées. Le système analyse cette zone et détecte de nouvelles copies de fichiers, qui sont ensuite supprimées.
- Déduplication cible : Un autre type de déduplication s'apparente à une inversion de la déduplication source. Dans la déduplication cible, le système déduplique toutes les copies trouvées dans des zones autres que celles où les données d'origine ont été créées.
Étant donné qu'il existe différents types de déduplication, les organisations tournées vers l'avenir doivent prendre des décisions prudentes et réfléchies concernant le type de déduplication choisi, en équilibrant cette méthode avec les besoins particuliers de chaque entreprise.
Dans de nombreux cas d'utilisation, la méthode de déduplication choisie par une organisation peut très bien se résumer à diverses variables internes, telles que les suivantes :
- Combien et quel type d’ensembles de données sont créés
- Le système de stockage principal de l'organisation
- Quels environnements virtuels sont utilisés
- Sur quelles applications l'entreprise s'appuie
Développements récents en matière de déduplication de données
Comme toute production informatique, la déduplication des données est sur le point d'utiliser de plus en plus de intelligence artificielle (IA) à mesure qu'il continue d'évoluer. La déduplication deviendra de plus en plus sophistiquée à mesure qu'elle développera encore plus de nuances qui l'aideront à trouver des modèles de redondance à mesure que les blocs de données sont analysés.
Une tendance émergente en matière de déduplication est l’apprentissage par renforcement. Cela utilise un système de récompenses et de pénalités (comme dans la formation par renforcement) et applique une politique optimale pour séparer les enregistrements ou les fusionner.
Une autre tendance à surveiller est l’utilisation de méthodes d’ensemble, dans lesquelles différents modèles ou algorithmes sont utilisés en tandem pour garantir une précision encore plus grande dans le processus de déduplication.
Le dilemme actuel
Le monde informatique est de plus en plus préoccupé par le problème persistant de la prolifération des données et par les mesures à prendre pour y remédier. De nombreuses entreprises se retrouvent dans la position délicate de vouloir simultanément conserver toutes les données qu'elles ont accumulées et de vouloir également stocker leurs nouvelles données débordantes dans n'importe quel conteneur de stockage possible, ne serait-ce que pour les éliminer.
Même si ce dilemme persiste, l’accent sera mis sur les efforts de déduplication des données, car les entreprises considèrent la déduplication comme l’alternative la moins chère à l’achat de davantage de stockage. Car finalement, même si nous comprenons intuitivement que les entreprises ont besoin de données, nous savons aussi que les données nécessitent très souvent une déduplication.
Découvrez comment IBM Storage FlashSystem peut vous aider à répondre à vos besoins de stockage
Cet article a-t-il été utile?
OuiNon
Plus de Cloud
Bulletins d'information IBM
Recevez nos newsletters et nos mises à jour thématiques qui fournissent les dernières idées en matière de leadership éclairé et d'informations sur les tendances émergentes.
S'abonner
Plus de newsletters
- Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
- PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
- PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
- PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
- PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
- La source: https://www.ibm.com/blog/how-does-data-deduplication-work/
- :possède
- :est
- :ne pas
- :où
- $UP
- 1
- 17
- 19
- 2022
- 2024
- 22
- 28
- 29
- 30
- 300
- 36
- 400
- 41
- 7
- 84
- 9
- 91
- a
- Capable
- Qui sommes-nous
- à propos de ça
- accommoder
- Selon
- précision
- atteindre
- actually
- ajoutée
- ajout
- Supplémentaire
- Avancée
- Numérique
- affecté
- Après
- à opposer à
- AI
- SIDA
- objectif
- algorithmes
- Tous
- seul
- aussi
- alternative
- Bien que
- montant
- amp
- an
- analytique
- analysé
- ainsi que le
- Nombre d'annonces
- Une autre
- tous
- s'applique
- applications
- SONT
- Réservé
- domaines
- article
- AS
- d'aspect
- Outils
- aider
- associé
- At
- auteur
- Automatisation
- moyen
- Azure
- RETOUR
- toile de fond
- sauvegarde
- sauvegardes
- équilibrage
- Bande passante
- basé
- Essentiel
- BE
- car
- devenez
- devenir
- était
- before
- derrière
- va
- profiter
- avantages.
- jusqu'à XNUMX fois
- Au-delà
- Milliards
- Block
- Blocs
- Blog
- blogue
- Bleu
- tous les deux
- Bas et Leggings
- Apportez le
- budgétisation
- construire
- la performance des entreprises
- continuité de l'activité
- entreprises
- mais
- bouton (dans la fenêtre de contrôle qui apparaît maintenant)
- by
- CAN
- Compétences
- capital
- carbone
- carte
- Cartes
- prudent
- porter
- cas
- CHAT
- Catégories
- Président
- challenge
- globaux
- Développement
- moins chère
- vérifier
- le choix
- choose
- choisi
- cercles
- CIS
- classe
- Classer
- étroitement
- le cloud
- le cloud computing
- Collecte
- Couleur
- comment
- vient
- marchandise
- communément
- Sociétés
- Société
- De l'entreprise
- ordinateur
- informatique
- conjonction
- considéré
- considérant
- Contenant
- continuer
- continue
- continuité
- copies
- Costs
- Homologue
- couvrant
- engendrent
- créée
- Franchi
- CSS
- Customiser
- Cybersécurité
- das
- données
- La perte de données
- gestion des données
- protection des données
- ensembles de données
- stockage de données
- Date
- décisions
- Réglage par défaut
- définitions
- livrer
- démystifier
- Selon
- dépend
- déploiements
- la description
- conception
- à poser
- détaillé
- développe
- dispositif
- différences
- différent
- catastrophe
- discuter
- do
- Ne fait pas
- dominer
- Ne pas
- down
- pendant
- e
- chacun
- même
- efficacement
- effort
- efforts
- l'élimination
- embrasser
- économies émergentes.
- l'accent
- vous accompagner
- permettre
- permettant
- codage
- fin
- Ce renforcement
- assurer
- Entrer
- Entreprise
- entreprises
- environnements
- épisode
- égal
- essential
- Ether (ETH)
- Pourtant, la
- événement
- Chaque
- de tous les jours
- évolue
- existe
- Sortie
- Expliquer
- expliquant
- explosion
- supplémentaire
- Visage
- visages
- fait
- PERSONNEL
- FAIL
- retombées
- non
- Doté d'
- Déposez votre dernière attestation
- Fichiers
- la traduction de documents financiers
- Trouvez
- trouver
- Prénom
- Flux
- Focus
- suivre
- Abonnement
- polices
- Pour
- formulaire
- trouvé
- Framework
- De
- plein
- fonctions
- jeu
- recueillir
- recueillies
- Général
- générer
- généré
- générateur
- géopolitique
- obtenez
- lunettes
- Global
- pandémie mondiale
- objectif
- plus grand
- plus
- Vert
- Grille
- Croître
- main
- Maniabilité
- Dur
- Matériel
- hachage
- Vous avez
- Titre
- la taille
- vous aider
- utile
- aider
- aide
- Histoire
- Holdings
- Comment
- How To
- HTTPS
- IBM
- IBM Cloud
- ICO
- ICON
- identique
- identifier
- identifier
- if
- image
- important
- aspect important
- imposant
- in
- Dans d'autres
- incidents
- comprendre
- inclus
- Améliore
- increased
- croissant
- de plus en plus
- indice
- industrie
- inévitablement
- Infrastructure
- inhérent
- possible
- idées.
- instance
- plutôt ;
- intégrale
- Intelligence
- prévu
- interne
- inversion
- un investissement
- IOT
- aide
- IT
- SES
- lui-même
- Janvier
- jpg
- en gardant
- ACTIVITES
- Savoir
- portatif
- gros
- plus importantes
- Nom de famille
- L'année dernière
- Nouveautés
- conduire
- Leadership
- apprentissage
- moins
- Niveau
- responsabilité
- comme
- Gamme
- Liste
- locales
- local
- perte
- Les machines
- Macro
- Entrée
- a prendre une
- man
- gestion
- Système de gestion
- Gestionnaires
- manière
- de nombreuses
- largeur maximale
- Mai..
- Médias
- Membres
- fusion
- méthode
- méthodes
- Microsoft
- pourrait
- m.
- minimiser
- minimise
- minutes
- Breeze Mobile
- numériques jumeaux (digital twin models)
- Villas Modernes
- moment
- de l'argent
- PLUS
- (en fait, presque toutes)
- beaucoup
- must
- nationalement
- Nature
- Navigation
- Près
- presque
- nécessaire
- Besoins
- Ni
- n'allons jamais
- Nouveauté
- nouvelles
- Newsletters
- Aucun
- ni
- noté
- rien
- Notion
- maintenant
- nuances
- objets
- obtenir
- se produire
- of
- de rabais
- souvent
- on
- ONE
- en cours
- uniquement
- ouvert
- fonctionner
- exploite
- Opérations
- optimaux
- Optimiser
- optimisé
- Options
- or
- organiquement
- organisation
- organisations
- original
- Autre
- nos
- ande
- grandes lignes
- sortie
- propre
- page
- pandémie
- partie
- particulier
- motifs
- Paiement
- pays
- sanctions
- Personnes
- effectué
- persiste
- personne
- PHP
- Place
- mis
- Pestes
- plan
- et la planification de votre patrimoine
- plans
- Platon
- Intelligence des données Platon
- PlatonDonnées
- Branché
- plug-in
- Point
- en équilibre
- politique
- Populaire
- popularité
- position
- possessions
- possible
- Post
- post-traitement
- Powell
- solide
- Prévisible
- Préparer
- préservation
- primaire
- Problème
- processus
- les process
- produire
- Produits
- protégé
- protection
- fournir
- fournisseurs
- publié
- achat
- acheté
- achat
- poursuivre
- poursuite
- assez
- RE
- en cours
- Réalité
- Les raisons
- récent
- reconnaître
- Articles
- récupération
- réduire
- Prix Réduit
- réduire
- réduction
- référence
- affiner
- en ce qui concerne
- apprentissage par renforcement
- en relation
- relativement
- compter
- éloigné
- supprimez
- Supprimé
- enlever
- répété
- réplication
- rapport
- a besoin
- Resources
- sensible
- résultat
- conserver
- rétention
- retourner
- Programme de fidélité
- bon
- hausse
- Analyse
- la gestion des risques
- feuilles de route
- Collaboratif
- Salle
- régulièrement
- Courir
- pour le running
- même
- Épargnez
- Escaliers intérieurs
- analyse
- pour écran
- scripts
- sur le lien
- Chercher
- seo
- séparation
- Série
- serveur
- serveurs
- service
- Sets
- commun
- décalage
- Shorts
- coup
- devrait
- étapes
- plus simple
- simplement
- simultanément
- site
- Séance
- situation
- petit
- So
- Logiciels
- sur mesure
- Solutions
- quelques
- sophistiqué
- Identifier
- Space
- parler
- parlant
- groupe de neurones
- spécifié
- passer
- Dépenses
- dépensé
- Sponsorisé
- carrés
- Commencer
- rester
- Étapes
- bâton
- storage
- Boutique
- STORES
- les stratégies
- de Marketing
- rationaliser
- robuste
- inscrire
- Ces
- réussi
- tel
- somme
- sûr
- SVG
- combustion propre
- Prenez
- prend
- prise
- parlant
- tandem
- Target
- Tâche
- équipe
- Membres de l'équipe
- technologie
- techniques
- Technologie
- terme
- conditions
- tertiaire
- que
- à
- qui
- Les
- le monde
- leur
- Les
- thème
- se
- puis
- Là.
- donc
- Ces
- l'ont
- des choses
- penser
- this
- ceux
- pensée
- leadership éclairé
- menace
- Avec
- tout au long de
- serré
- fiable
- pneu
- Titre
- à
- top
- sujet
- Les sujets
- Total
- circulation
- Formation
- trajectoire
- transferts
- arbre
- Trend
- Trends
- oui
- vraiment
- TOUR
- type
- types
- En fin de compte
- indéniablement
- subit
- comprendre
- Bien entendu
- Inattendu
- expérience unique et authentique
- unités
- Actualités
- sur
- URL
- us
- USD
- utilisé
- d'utiliser
- Usages
- en utilisant
- d'habitude
- validation
- Précieux
- variété
- très
- via
- Vidéo
- visualisation
- Salle de conférence virtuelle
- bureau virtuel
- vs
- W
- vouloir
- Entrepots
- était
- personne(s) regarde(nt) cette fiche produit
- Façon..
- we
- web
- WELL
- Quoi
- quand
- qui
- tout en
- dont
- sera
- fenêtres
- comprenant
- dans les
- témoin
- Outils de gestion
- activités principales
- travaillé
- de travail
- vos contrats
- world
- partout dans le monde
- vaut
- digne
- code écrit
- an
- années
- you
- Votre
- Youtube
- zéphyrnet