Superar un mundo inundado de datos sucios

Superar un mundo inundado de datos sucios

Nodo de origen: 2574986

Como un virus invisible, los “datos sucios” plagan el mundo empresarial actual. Es decir, en el mundo actual centrado en los “grandes datos” están proliferando datos inexactos, incompletos e inconsistentes.

Trabajar con datos sucios cuesta a las empresas millones de dólares al año. Disminuye la eficiencia y eficacia de los departamentos que abarcan la empresa y restringe los esfuerzos para crecer y escalar. Obstaculiza la competitividad, aumenta los riesgos de seguridad y presenta problemas de cumplimiento.

Los encargados de Administración de datos Hemos luchado con este desafío durante años. Muchas de las herramientas disponibles actualmente pueden abordar problemas de gestión de datos para equipos aislados dentro de los departamentos, pero no para la empresa en general ni para ecosistemas de datos más amplios. Peor aún, estas herramientas frecuentemente terminan creando aún más datos que deben administrarse, y esos datos también pueden ensuciarse, causando más dolores de cabeza y pérdida de ingresos.

Comprender los datos sucios

datos sucios se refiere a cualquier dato que sea engañoso, duplicado, incorrecto o inexacto, que aún no esté integrado, que infrinja las reglas comerciales, que carezca de formato uniforme o que contenga errores de puntuación u ortografía.

Para comprender hasta qué punto los datos sucios se han vuelto omnipresentes en las últimas décadas, imaginemos el siguiente escenario: 

Los prestamistas de un gran banco quedan perplejos cuando descubren que casi todos los clientes del banco son astronautas. Teniendo en cuenta que la NASA sólo tiene una unas pocas docenas de astronautas, esto no tiene sentido. 

Tras una mayor exploración, el departamento de préstamos descubre que los funcionarios bancarios que abrían nuevas cuentas habían estado insertando "astronauta" en el campo de ocupación de clientes. Los prestamistas aprenden que la descripción del puesto es irrelevante para sus homólogos responsables de las nuevas cuentas. Los funcionarios del banco habían estado seleccionando "astronauta", la primera opción disponible, simplemente para avanzar más rápidamente en la creación de nuevas cuentas.

Los prestamistas, sin embargo, deben tener registradas las ocupaciones correctas de sus clientes para obtener sus bonificaciones anuales. Para remediar la situación, el departamento de préstamos desarrolla su propia base de datos independiente. Se ponen en contacto con cada cliente, aprenden la ocupación correcta y la insertan en su base de datos.

Ahora, el banco tiene dos bases de datos con esencialmente la misma información, excepto un campo. Si un tercer departamento quiere acceder a la información de esas bases de datos, no existe ningún sistema para determinar qué base de datos es precisa. Entonces, ese tercer departamento también podría crear su propia base de datos.

Escenarios similares se han desarrollado en organizaciones de todo el país durante décadas.

Florecientes vertederos de datos digitales

El problema comenzó en la década de 1990 con la transformación digital auge. Las empresas implementaron software empresarial para mejorar sus procesos comerciales. Los productos de software como servicio de Salesforce, por ejemplo, permitieron mejores formas de gestionar los sistemas de ventas y marketing.

Pero 30 años después, esa infraestructura heredada se ha convertido en una pesadilla en materia de gestión de datos. Los silos de datos dispares con montones de información duplicada, incompleta e incorrecta salpican el panorama corporativo y del sector público. Esos silos comprenden líneas de negocio, geografías y funciones que poseen y supervisan respectivamente sus fuentes de datos.

Más allá de eso, la generación de datos ha aumentado exponencialmente a lo largo de las décadas. Cada proceso de negocio ahora necesita su propio software, que produce cada vez más datos. Las aplicaciones registran cada acción en sus bases de datos nativas y han surgido obstáculos para extraer los activos de datos recién creados.

En décadas anteriores, el vocabulario que definía los datos era específico del proceso empresarial que los creaba. Los ingenieros tuvieron que traducir esos léxicos en diccionarios discretos para los sistemas que consumían los datos. Por lo general, no existían garantías de calidad. Como en el ejemplo anterior del astronauta, los datos que eran utilizables por una función empresarial no podían ser utilizados por otras. Y la accesibilidad a los datos de los procesos comerciales originales era limitada, en el mejor de los casos, para funciones que de otro modo podrían haberse optimizado.

El enigma de la copia

Para solucionar este problema, los ingenieros empezaron a hacer copias de bases de datos originales porque, hasta hace poco, era la mejor opción disponible. Luego transformaron esas copias para satisfacer los requisitos de la función consumidora, aplicando reglas de calidad de datos y lógica de remediación exclusiva de la función consumidora. Hicieron muchas copias y las cargaron en múltiples almacenes de datos y sistemas de análisis.

¿El resultado? Un desbordamiento de copias de conjuntos de datos que algunas partes de la organización consideran "sucias", lo que genera confusión sobre cuál copia es la correcta. Hoy en día, las empresas tienen cientos de copias de datos de origen en almacenes de datos operativos, bases de datos, almacenes de datos, lagos de datos, zonas de pruebas de análisis y hojas de cálculo dentro de centros de datos y múltiples nubes. Sin embargo, los directores de información y los directores de datos no tienen control sobre la cantidad de copias generadas ni saben qué versión representa una fuente genuina de verdad.

Hay una gran cantidad de productos de software de gobernanza de datos disponibles para poner orden en este desorden. Entre ellos se incluyen catálogos de datos, sistemas de resolución de problemas y medición de la calidad de los datos, sistemas de gestión de datos de referencia, sistemas de gestión de datos maestros, descubrimiento de linaje de datos y sistemas de gestión.

Pero esos remedios son costosos y requieren mucho tiempo. Un proyecto típico de gestión de datos maestros para integrar datos de clientes de múltiples fuentes de datos de diferentes líneas de productos puede llevar años y costar millones de dólares. Al mismo tiempo, el volumen de datos sucios está aumentando a velocidades que superan los esfuerzos organizacionales para instalar controles y gobernanza.

Estos enfoques están plagados de fallas. Se basan en procesos manuales, lógica de desarrollo o reglas comerciales para ejecutar las tareas de inventariar, medir y corregir los datos. 

Recuperando el control

Tres tecnologías emergentes son las más adecuadas para abordar la situación actual: la gobernanza de datos impulsada por la inteligencia artificial y el aprendizaje automático, las plataformas de interoperabilidad semántica, como los gráficos de conocimiento, y los sistemas de distribución de datos, como los libros de contabilidad distribuidos: 

1. Soluciones de gobernanza de datos basadas en inteligencia artificial y aprendizaje automático reducir la dependencia de las personas y el código. La IA y el aprendizaje automático reemplazan el trabajo manual con acciones que incluyen el etiquetado automático, la organización y la supervisión de grandes cantidades de datos. La transformación y migración de la gestión de datos reduce los costos de TI. Las organizaciones también pueden construir arquitecturas más sólidas y sostenibles que fomenten la calidad de los datos a escala.

2. Gráficos de conocimiento Permitir la interoperabilidad nativa de activos de datos dispares para que la información pueda combinarse y entenderse en un formato común. Al aprovechar las ontologías semánticas, las organizaciones pueden preparar los datos para el futuro con contexto y un formato común para su reutilización por múltiples partes interesadas.

3. Libros mayores distribuidos, privacidad diferencial y virtualización eliminar la necesidad de copiar físicamente los datos. Los libros de contabilidad distribuidos comprenden bases de datos federadas y gobernadas que se pueden utilizar en todas las unidades de negocio y organizaciones. La privacidad diferencial permite enmascarar datos para cumplir con los requisitos de cumplimiento y, al mismo tiempo, compartirlos con las partes interesadas. La virtualización permite la puesta en marcha de datos en un entorno virtual en lugar de físico.

Una vez que los CIO y CDO comprendan que la raíz del problema es la infraestructura heredada que crea silos de datos, podrán mejorar las arquitecturas subyacentes y las estrategias de infraestructura de datos.

Los datos sucios limitan la capacidad de una organización para tomar decisiones informadas y operar con precisión y agilidad. Las organizaciones deben tomar el control de sus datos y fomentar la interoperabilidad, la calidad y la accesibilidad de los datos. Hacerlo proporcionará ventajas competitivas y eliminará las vulnerabilidades de seguridad y cumplimiento.

Sello de tiempo:

Mas de VERSIDAD DE DATOS