Observabilidad de datos: qué es y por qué es importante - DATAVERSITY

Observabilidad de datos: qué es y por qué es importante – DATAVERSITY

Nodo de origen: 2691645
observabilidad de datosobservabilidad de datos

Como proceso, las empresas que trabajan con grandes cantidades de datos utilizan la observabilidad de datos. Muchas organizaciones grandes y modernas intentan monitorear sus datos usando una variedad de aplicaciones y herramientas. Desafortunadamente, pocas empresas desarrollan la visibilidad necesaria para una visión general realista. 

La observabilidad de datos proporciona esa visión general para eliminar los problemas de flujo de datos lo más rápido posible.

El proceso de observabilidad incluye una variedad de métodos y tecnologías que ayudan a identificar y resolver problemas de datos en tiempo real. Este proceso crea un mapa multidimensional de todo el flujo de datos de una empresa, lo que ofrece información más detallada sobre el rendimiento del sistema y la calidad de los datos. 

Cuando se le preguntó acerca de la observabilidad de los datos, Ryan Yackel, CMO de Databand, una empresa de IBM, comentó:

“A medida que el volumen, la velocidad y la complejidad de las canalizaciones de big data continúan creciendo, las empresas confían en los equipos de plataforma e ingeniería de datos como la columna vertebral de sus negocios basados ​​en datos. El problema es que la mayoría de estos equipos tienen mucho trabajo por delante. Están luchando contra los datos con incidentes de confiabilidad y calidad, lo que dificulta enfocarse en iniciativas estratégicas que involucran AL/ML, análisis y productos de datos. La observabilidad de los datos proporciona una solución”.

Inicialmente, la observabilidad de los datos podría parecer una forma de linaje de datos, pero los dos procesos tienen propósitos diferentes. 

La observabilidad de datos se enfoca en resolver problemas con los datos de manera rápida y eficiente mediante el uso de un sistema de medición. Sin embargo, el linaje de datos se utiliza principalmente para recopilar y almacenar datos de alta calidad, datos en los que se puede confiar.

Además, el linaje de datos se puede utilizar como componente para respaldar un programa de observabilidad. (Algunos artículos promueven la observabilidad de los datos con el mismo propósito que el linaje de los datos, y hay algo de verdad en la afirmación. El linaje de los datos es un componente de la observabilidad de los datos). 

El término "observabilidad" fue originalmente un concepto filosófico desarrollado por Heráclito alrededor del año 510 a. Determinó que la observabilidad requería diferencias comparativas: el frío se puede observar en comparación con el calor. En 1871, James C. Maxwell, un físico, desarrolló la idea de que era imposible conocer la ubicación de todas las partículas dentro de un experimento de termodinámica, pero al observar "ciertos resultados clave" para cambios comparativos, se podían hacer predicciones precisas. 

La descripción de Maxwell de la observabilidad utilizando resultados clave se adaptó y aplicó a una variedad de aplicaciones automatizadas, que van desde equipos de fábrica hasta sensores de aeronaves. Luego, DevOps adoptó el concepto para depurar y tratar "incidentes de producción", aproximadamente en 2016. En 2019, Barr Moses, director ejecutivo y cofundador de Monte Carlo, desarrolló un proceso de observabilidad diseñado para proporcionar una descripción general del flujo de datos de una organización. . 

Moisés escribió

“La observabilidad de los datos es la capacidad de una organización para comprender completamente la salud de los datos en sus sistemas. La observabilidad de los datos elimina el tiempo de inactividad de los datos al aplicar las mejores prácticas aprendidas de DevOps a observabilidad de canalización de datos."

Cinco pilares de la observabilidad de datos

La observabilidad de datos funciona para resolver problemas de datos e información al proporcionar un mapa completo de los datos en tiempo real. Proporciona visibilidad para las actividades de datos de una organización. Muchas empresas tienen datos en silos, lo que bloquea la observabilidad. Los silos de datos deben eliminarse para respaldar un programa de observabilidad de datos. 

Cuando se realizan actividades como el seguimiento, la supervisión, las alertas, el análisis, el registro y las "comparaciones" sin un panel de observabilidad, puede tener lugar una forma de partición organizativa. Las personas en un departamento no se dan cuenta de que sus esfuerzos tienen consecuencias no deseadas en otro departamento, como información faltante o almacenada en silos que promueve la mala toma de decisiones o parte del sistema que no funciona y nadie se da cuenta. 

Recuerde, la observabilidad se trata de tomar las medidas de ciertos resultados clave. Los cinco pilares (o resultados clave) que desarrolló Barr Moses para propósitos de medición son: 

  • Calidad: Los datos de alta calidad se consideran precisos, mientras que los de baja calidad no lo son. Las mediciones de la calidad de los datos brindan información sobre si se puede confiar en sus datos. Hay una variedad de maneras para medir Calidad de la fecha.
  • Esquema: Esto implica cambios en la forma en que se organizan los datos y las mediciones del esquema pueden mostrar interrupciones en el flujo de datos. Determinar cuándo, cómo y quién realizó los cambios puede ser útil en términos de mantenimiento preventivo. 
  • Volumen: Grandes cantidades de datos son útiles para fines de investigación y marketing. Esto puede proporcionar a las organizaciones una visión integrada de sus clientes y el mercado. Cuantos más datos actuales e históricos se utilicen durante la investigación, más información.
  • linaje de datos: Un buen programa de linaje de datos registra los cambios en los datos y sus ubicaciones, y normalmente se usa para mejorar la calidad de los datos. Sin embargo, también se puede utilizar como parte de un programa de observación de datos. En esta capacidad, se utiliza para solucionar averías que puedan ocurrir y enumerar lo que se hizo antes del daño. 
  • Frescura: Se trata esencialmente de no utilizar información antigua o, como Barr Moses se refiere a ella, datos obsoletos. Frescura enfatiza los datos actualizados, lo cual es importante cuando se toman decisiones basadas en datos. Las marcas de tiempo se usan comúnmente para determinar si los datos son antiguos. 

Cuando se combinan, las medidas de estos componentes, o pilares, pueden proporcionar información valiosa sobre los problemas que se desarrollan, o simplemente aparecen, y promueven la capacidad de realizar reparaciones lo más rápido posible.

Desafíos de observabilidad de datos

La plataforma de observabilidad de datos adecuada puede transformar la forma en que las empresas mantienen y administran sus datos. Desafortunadamente, implementar la plataforma puede presentar algunos desafíos. Los problemas de compatibilidad se presentarán cuando la plataforma no se ajuste bien. 

Las plataformas y herramientas de observabilidad pueden verse restringidas si la canalización de datos, el software, los servidores y las bases de datos no son completamente compatibles. Estas plataformas no funcionan en el vacío, por lo que es importante eliminar cualquier silos de datos del sistema y asegurar que todos los sistemas de datos dentro de la organización estén integrados. 

Es importante probar una plataforma de observabilidad de datos antes de firmar un contrato.

Lamentablemente, incluso cuando todas las fuentes de datos internas y externas de la empresa están integradas correctamente en la plataforma, diferentes modelos de datos puede causar problemas. Muchas empresas admiten 400 o más fuentes de datos, y cada fuente externa puede presentar un problema si no utiliza los mismos estándares y formatos.

A excepción de las herramientas de código abierto, las plataformas de observabilidad están basadas en la nube y pueden ofrecer cierta flexibilidad que admita ajustes. 

Las mejores plataformas de observabilidad se centran en un proceso de medición estandarizado y pautas de registro. Esto promueve la correlación efectiva de la información, pero las fuentes de datos externas y las canalizaciones de datos personalizadas pueden causar problemas y requerir esfuerzos manuales adicionales para realizar tareas que deberían haberse automatizado.

Además, algunas herramientas pueden tener costos de almacenamiento inusuales que restringen la escalabilidad.

Plataformas de Observación de Datos

Las plataformas de observabilidad de datos suelen contener una variedad de herramientas útiles. Estos a menudo incluyen soporte automatizado para linaje de datos automatizado, análisis de causa raíz, calidad de datos y monitoreo para identificar, resolver y prevenir anomalías dentro del flujo de datos. 

Las plataformas promueven una mayor productividad, tuberías más saludables y clientes más felices. Algunas plataformas populares de observabilidad de datos son:

  • Banda de datos proporciona una plataforma de observabilidad altamente funcional que puede detectar y resolver problemas de datos muy rápidamente mediante un proceso de observabilidad continuo que identifica los problemas de datos antes de que afecten a su empresa. 
  • Monte Carlo ofrece una plataforma de observabilidad que se puede describir como proporcionando observabilidad "desde la tubería hasta inteligencia empresarial .” Brinda confiabilidad de datos a la orquestación de varios servicios y herramientas de datos. 
  • Metaplano cuenta con observabilidad de extremo a extremo.
  • Hay una variedad de De código abierto herramientas de observabilidad disponibles, que valdría la pena investigar.

La importancia de la observabilidad de los datos

Para las organizaciones que manejan grandes flujos de datos, la observabilidad se puede usar para monitorear el sistema de datos en su totalidad y enviar señales de alerta cuando se presenta un problema. 

A medida que las empresas recopilan cantidades masivas de datos de una variedad de fuentes, desarrollan sistemas para manejarlos, capa tras capa. Estos sistemas incluyen almacenamiento de datos, canalizaciones de datos y una serie de herramientas. Cada capa adicional de complejidad aumenta las posibilidades de tiempo de inactividad de los datos debido a problemas como incompatibilidades o datos antiguos o faltantes.

Según Yackel, “El uso continuo de la observabilidad de datos para monitorear canalizaciones de datos, conjuntos de datos y tablas de datos alerta a los equipos de datos cuando ocurre un incidente de datos y muestra cómo solucionar la causa raíz, antes de que afecte su negocio. Con la observabilidad de datos, la ingeniería puede enfocarse en crear excelentes productos de datos en lugar de mantener procesos rotos”. 

La observabilidad de datos ayudará a las empresas a identificar de manera proactiva la fuente de problemas de canalización, errores de datos e inconsistencias en el flujo de datos para fortalecer las relaciones con los clientes y mejorar la calidad de los datos.

Imagen utilizada bajo licencia de Shutterstock.com

Sello de tiempo:

Mas de VERSIDAD DE DATOS