数据可观察性:它是什么以及为什么重要 - DATAVERSITY

数据可观察性:它是什么以及为什么重要 – DATAVERSITY

源节点: 2691645
数据可观察性数据可观察性

作为一个过程,数据可观察性被处理大量数据的企业所使用。 许多大型现代组织都尝试使用各种应用程序和工具来监控他们的数据。 不幸的是,很少有企业发展出现实概览所需的可见性。 

数据可观察性提供了这种概览,以尽快消除数据流问题。

可观察性过程包括各种有助于实时识别和解决数据问题的方法和技术。 此过程构建了企业整个数据流的多维地图,提供了对系统性能和数据质量的更深入洞察。 

当被问及数据可观察性时,IBM 旗下公司 Databand 的首席营销官 Ryan Yackel 评论道,

“随着大数据管道的数量、速度和复杂性不断增长,公司依赖数据工程和平台团队作为其数据驱动业务的支柱。 问题是这些团队中的大多数都有自己的工作要做。 他们正在与可靠性和质量事件作斗争,因此很难专注于涉及 AL/ML、分析和数据产品的战略计划。 数据可观察性提供了一种解决方案。”

最初,数据可观察性似乎是一种形式 数据沿袭, 但是这两个过程服务于不同的目的。 

数据可观察性侧重于通过使用测量系统快速有效地解决数据问题。 然而,数据沿袭主要用于收集和存储高质量数据——可以信任的数据。

此外,数据沿袭可以用作支持可观察性程序的组件。 (一些文章将数据可观察性宣传为与数据沿袭具有相同的目的,这种说法有一定道理。数据沿袭是数据可观察性的一个组成部分。) 

“可观察性”一词最初是赫拉克利特在公元前 510 年左右提出的一个哲学概念。 他确定可观察性需要比较差异——与温暖相比可以观察到冷。 1871 年,物理学家詹姆斯 C. 麦克斯韦 (James C. Maxwell) 提出了这样一种想法,即不可能知道热力学实验中所有粒子的位置,但通过观察比较变化的“某些关键输出”,可以做出准确的预测。 

Maxwell 对使用关键输出的可观察性的描述被改编并应用于各种自动化应用,从工厂设备到飞机传感器。 大约在 2016 年,DevOps 将这一概念用于调试和处理“生产事件”。2019 年,Barr Moses(蒙特卡洛的首席执行官兼联合创始人)开发了一个可观察性流程,旨在提供组织数据流的概览. 

摩西写道

“数据可观察性是组织充分了解其系统中数据健康状况的能力。 数据可观察性通过应用从中学到的最佳实践来消除数据停机时间 DevOps的 至 数据管道可观察性设立的区域办事处外,我们在美国也开设了办事处,以便我们为当地客户提供更多的支持。“

数据可观察性的五个支柱

数据可观察性通过实时提供全面的数据图来解决数据和信息问题。 它为组织的数据活动提供可见性。 许多企业的数据都是孤立的,阻碍了可观察性。 必须消除数据孤岛以支持数据可观察性计划。 

当在没有可观察性仪表板的情况下执行跟踪、监控、警报、分析、日志记录和“比较”等活动时,可能会发生一种组织分区形式。 一个部门的人没有意识到他们的努力对另一个部门产生了意想不到的后果——例如信息缺失/孤立信息助长了错误的决策制定,或者系统的一部分出现故障而没有人意识到。 

请记住,可观察性是关于对某些关键输出进行测量。 Barr Moses 为衡量目的开发的五个支柱(或关键产出)是: 

  • 质量: 高质量的数据被认为是准确的,而低质量的数据则不准确。 对数据质量的测量可以深入了解您的数据是否可信。 有多种方式 测量 数据质量。
  • 架构: 这涉及数据组织方式的变化,模式测量可以显示数据流中的中断。 确定更改的时间、方式和人员在预防性维护方面可能很有用。 
  • 容量: 大量数据可用于研究和营销目的。 这可以为组织提供其客户和市场的综合视图。 研究过程中使用的当前和历史数据越多,见解就越多。
  • 数据沿袭: 一个好的数据沿袭程序会记录数据及其位置的变化,通常用于提高数据质量。 但是,它也可以用作数据观察程序的一部分。 在这种能力下,它用于解决可能发生的中断问题,并列出在损坏之前所做的事情。 
  • 新鲜: 这本质上是关于不使用旧信息,或者,正如 Barr Moses 所指的,陈旧数据。 新鲜 强调最新数据,这在制定数据驱动决策时很重要。 时间戳通常用于确定数据是否旧。 

结合使用时,这些组件或支柱的测量结果可以为已出现的问题或只是出现的问题提供有价值的见解,并提高尽快进行维修的能力。

数据可观察性挑战

正确的数据可观察性平台可以改变企业维护和管理数据的方式。 不幸的是,实施该平台可能会带来一些挑战。 当平台不合适时,兼容性问题就会出现。 

如果数据管道、软件、服务器和数据库不完全兼容,则可观察性平台和工具可能会受到限制。 这些平台不是在真空中工作,因此消除任何 数据孤岛 从系统中提取并确保组织内的所有数据系统都是集成的。 

在签订合同之前测试数据可观察性平台很重要。

可悲的是,即使所有业务的内部和外部数据源都正确集成到平台中,不同的 数据模型 可能会导致问题。 许多企业支持 400 个或更多数据源,如果每个外部源不使用相同的标准和格式,则可能会出现问题。

除了开源工具,可观察性平台都是基于云的,它们可能提供一些支持微调的灵活性。 

最好的可观察性平台专注于标准化的测量过程和日志记录指南。 这促进了信息的有效关联,但外部数据源和定制的数据管道可能会导致问题,并且需要额外的手动工作来完成本应自动化的任务。

此外,某些工具可能会带来不寻常的存储成本,从而限制可扩展性。

数据观测平台

数据可观察性平台通常包含各种有用的工具。 这些通常包括对自动数据沿袭、根本原因分析、数据质量和监控的自动支持,以识别、解决和防止数据流中的异常。 

这些平台促进了生产力的提高、管道的健康和客户的满意度。 一些流行的数据可观察性平台是:

  • 数据带 提供了一个功能强大的可观察性平台,可以非常快速地检测和解决数据问题,使用连续的可观察性过程在数据问题影响您的业务之前识别它们。 
  • 豪华度假村 提供了一个可观察性平台,可以描述为提供“从管道到 商业智能” 它为各种数据服务和工具的编排带来了数据可靠性。 
  • 超平面 具有端到端的可观察性。
  • 有各种各样的 开放源码 可用的可观察性工具,值得研究。

数据可观察性的重要性

对于处理大数据流的组织,可观察性可用于监控整个数据系统,并在出现问题时发出危险信号。 

随着企业从各种来源收集大量数据,他们开发系统来逐层处理这些数据。 这些系统包括数据存储、数据管道和许多工具。 每增加一层复杂性,都会增加因不兼容、旧数据和丢失数据等问题而导致数据停机的机会。

根据 Yackel 的说法,“持续使用数据可观察性来监控数据管道、数据集和数据表会在数据事件发生时提醒数据团队,并展示如何在其影响业务之前解决根本原因。 通过数据可观察性,工程人员可以专注于构建出色的数据产品,而不是维护损坏的流程。” 

数据可观察性将帮助企业主动识别管道问题、数据错误和数据流不一致的根源,以加强客户关系并提高数据质量。

图片经Shutterstock.com许可使用

时间戳记:

更多来自 数据多样性