重复数据删除如何工作? - IBM 博客

重复数据删除如何工作? – IBM 博客

源节点: 3088770


重复数据删除如何工作? – IBM 博客



工厂俯视图

近年来,自助仓储单位激增。这些大型仓库单位在全国范围内兴起,成为一个蓬勃发展的行业,原因有一个:普通人现在拥有的财产多得不知道该如何处理。

同样的基本情况也困扰着 IT 领域。我们正处于数据爆炸之中。即使是相对简单的日常物品现在也会定期自行生成数据,这要归功于 物联网(IOT) 功能。历史上从未有过如此多的数据被创建、收集和分析。前所未有的数据管理者面临如何存储如此多数据的问题。

公司最初可能无法认识到问题或问题会变得有多大,然后该公司必须找到增加存储的解决方案。随着时间的推移,公司的发展也可能会超出该存储系统的容量,从而需要更多的投资。不可避免地,该公司会厌倦这个游戏,并会寻求一种更便宜、更简单的选择——这让我们 重复数据删除.

尽管许多组织将重复数据删除技术(或“重复数据删除”)作为其数据管理系统的一部分,但真正了解重复数据删除过程是什么及其用途的人却很少。那么,让我们揭开重复数据删除的神秘面纱并解释重复数据删除的工作原理。

重复数据删除有什么作用?

首先,让我们澄清我们的主要术语。重复数据删除是组织用来简化数据持有并通过消除冗余数据副本来减少归档数据量的流程。

此外,我们应该指出,当我们谈论冗余数据时,我们实际上是在文件级别上谈论,指的是数据文件的猖獗扩散。因此,当我们讨论重复数据删除工作时,实际上需要一个文件重复删除系统。

重复数据删除的主要目标是什么?

有些人对数据的本质抱有错误的观念,将其视为一种商品,只是为了收集和收获而存在的,就像你家后院树上的苹果一样。

现实情况是,每个新数据文件都需要花钱。首先,获取这些数据通常需要花钱(通过购买数据列表)。或者,组织需要大量的财务投资才能自行收集和收集数据,即使这些数据是组织本身有机生产和收集的。因此,数据集是一项投资,就像任何有价值的投资一样,必须严格保护它们。

在这种情况下,我们讨论的是数据存储空间——无论是本地硬件服务器的形式还是通过 云存储 通过基于云的 数据中心——必须购买或租赁。

因此,经过复制的数据的重复副本会带来超出与主存储系统及其存储空间相关的额外存储成本,从而损害底线。简而言之,必须投入更多的存储介质资产来容纳新数据和已存储的数据。在公司发展轨迹的某个时刻,重复数据很容易成为一种财务负债。

因此,总而言之,重复数据删除的主要目标是通过使组织能够减少额外存储上的支出来节省资金。

重复数据删除的其他好处

除了存储容量之外,公司采用重复数据删除解决方案还有其他原因——可能最重要的莫过于它们提供的数据保护和增强功能。组织可以细化和优化重复数据删除的数据工作负载,以便它们比充满重复文件的数据更有效地运行。

重复数据删除的另一个重要方面是它如何帮助实现快速、成功的 灾害 恢复工作并最大限度地减少此类事件通常导致的数据丢失量。重复数据删除有助于实现强大的备份过程,因此组织的备份系统相当于处理其备份数据的任务。除了帮助进行完整备份之外,重复数据删除还有助于保留工作。

重复数据删除的另一个好处是它与 虚拟桌面基础架构 (VDI) 部署,这要归功于 VDI 远程桌面背后的虚拟硬盘运行相同。受欢迎的 桌面即服务 (DaaS) 产品包括 Microsoft 的 Azure 虚拟桌面及其 Windows VDI。这些产品创造 虚拟机 (VM),它们是在服务器虚拟化过程中创建的。反过来,这些虚拟机又为 VDI 技术提供了支持。

重复数据删除方法

最常用的重复数据删除形式是块重复数据删除。该方法通过使用自动化功能来识别数据块中的重复项,然后删除这些重复项。通过在此块级别工作,可以分析独特数据块并将其指定为值得验证和保存的数据。然后,当重复数据删除软件检测到同一数据块的重复时,该重复被删除,并且对原始数据的引用被包含在其位置中。

这是重复数据删除的主要形式,但并不是唯一的方法。在其他用例中,重复数据删除的替代方法在文件级别运行。单实例存储比较文件服务器内数据的完整副本,但不比较数据块或数据块。与其对应方法一样,文件重复数据删除取决于将原始文件保留在文件系统中并删除额外的副本。

应该注意的是,重复数据删除技术的工作方式与数据压缩算法(例如,LZ77、LZ78)并不完全相同,尽管两者确实都追求减少数据冗余的相同总体目标。与压缩算法相比,重复数据删除技术在更大的宏观范围内实现了这一目标,压缩算法的目标不是用共享副本替换相同的文件,而是更有效地编码数据冗余。

重复数据删除的类型

重复数据删除有不同类型,具体取决于 ,尤其是 重复数据删除过程发生:

  • 内联重复数据删除: 这种形式的重复数据删除是在数据在存储系统内流动时实时发生的。内联重复数据删除系统传输的数据流量较少,因为它既不传输也不存储重复数据。这可能会导致该组织所需的带宽总量减少。
  • 后处理重复数据删除: 这种类型的重复数据删除发生在数据被写入并放置在某种类型的存储设备上之后。

这里值得解释的是,这两种类型的重复数据删除都受到重复数据删除固有的哈希计算的影响。这些 加密 计算对于识别数据中的重复模式至关重要。在在线重复数据删除过程中,这些计算是即时执行的,这可能会主导并暂时压倒计算机功能。在后处理重复数据删除中,可以在以某种方式添加数据后的任何时间执行哈希计算,并且不会对组织的计算机资源造成过度负担。

重复数据删除类型之间的细微差别还不止于此。对重复数据删除类型进行分类的另一种方法是基于 哪里 这样的过程就会发生。

  • 源重复数据删除: 这种形式的重复数据删除发生在新数据实际生成的地方附近。系统扫描该区域并检测文件的新副本,然后将其删除。
  • 目标重复数据删除: 另一种类型的重复数据删除类似于源重复数据删除的反转。在目标重复数据删除中,系统会对在创建原始数据的区域以外的区域中找到的任何副本进行重复数据删除。

由于重复数据删除的实施方式有多种,具有前瞻性的组织必须对所选择的重复数据删除类型做出仔细、深思熟虑的决定,并根据公司的特定需求平衡该方法。

在许多用例中,组织选择的重复数据删除方法很可能取决于各种内部变量,例如:

  • 正在创建多少数据集以及什么类型的数据集
  • 组织的主存储系统
  • 正在使用哪些虚拟环境
  • 公司依赖哪些应用程序

重复数据删除的最新发展

与所有计算机输出一样,重复数据删除将越来越多地利用 人工智能(AI) 随着它的不断发展。重复数据删除将变得越来越复杂,因为它会产生更多细微差别,帮助它在扫描数据块时寻找冗余模式。

重复数据删除的一个新兴趋势是强化学习。这使用奖励和惩罚系统(如强化训练),并应用最佳策略来分离记录或合并记录。

另一个值得关注的趋势是使用集成方法,其中串联使用不同的模型或算法以确保重复数据删除过程中更高的准确性。

持续的困境

IT 世界越来越关注持续存在的数据激增问题及其应对措施。许多公司发现自己处于一个尴尬的境地,既希望保留他们努力积累的所有数据,又希望将溢出的新数据存储在任何可能的存储容器中,哪怕只是为了将其移开。

尽管这种困境仍然存在,但随着组织将重复数据删除视为购买更多存储的更便宜的替代方案,对重复数据删除工作的重视将继续下去。因为归根结底,虽然我们直观地理解业务需要数据,但我们也知道数据通常需要重复数据删除。

了解 IBM Storage FlashSystem 如何帮助您满足存储需求

本文是否有帮助?

没有


更多来自云




业务连续性与灾难恢复:哪个计划适合您?

7 阅读分钟业务连续性和灾难恢复计划是企业用来应对意外事件的风险管理策略。虽然这些术语密切相关,但在选择最适合您的术语时,仍需要考虑一些关键差异: 业务连续性计划 (BCP):BCP 是一项详细计划,概述了组织为恢复正常业务功能而采取的步骤发生灾难时。其他类型的计划可能侧重于恢复和中断的一个特定方面……




IBM Tech Now:29 年 2024 月 XNUMX 日

<1 阅读分钟欢迎观看 IBM Tech Now,这是我们的视频网络系列,其中包含技术领域最新、最精彩的新闻和公告。请务必订阅我们的 YouTube 频道,以便在每次发布新的 IBM Tech Now 视频时收到通知。 IBM Tech Now:第 91 集 在本集中,我们将讨论以下主题: IBM Think 2024 IBM Cloud Virtual Servers for VPC Verdantix 的绿色象限上的 IBM Cloud 预订 保持接通状态 您可以查看 IBM…




现已接受预订:IBM Cloud Virtual Servers for VPC

2 阅读分钟当组织努力减少企业云环境中的支出时,他们经常面临通过云提供商提供一刀切的所有支付选项的挑战。随着路线图和优先事项在资本减少和投资回报率收紧的背景下发生变化,组织的目标是最大限度地减少全年支出风险,并创造更可预测的预算环境。在设计云计算操作时,通过 IBM Cloud Virtual Servers for VPC 上的 IBM Cloud Reservations 进行高级规划会带来回报。 IBM是什么...




如何制定成功的灾难恢复策略

6 阅读分钟无论您的行业面临地缘政治冲突、全球流行病的影响还是网络安全领域日益加剧的攻击,现代企业面临的威胁无疑是强大的。灾难恢复策略为团队成员提供了在意外事件发生后恢复业务并运行的框架。在世界范围内,灾难恢复策略的受欢迎程度正在不断增加,这是可以理解的。根据最近的一份报告,去年,企业仅在网络安全和解决方案上就花费了 219 亿美元,比 12 年增长了 2022%。

IBM 时事通讯

获取我们的时事通讯和主题更新,提供最新的思想领导力和对新兴趋势的见解。

现在订阅

更多新闻通讯

时间戳记:

更多来自 IBM