克服充斥着脏数据的世界

克服充斥着脏数据的世界

源节点: 2574986

就像一种看不见的病毒,“脏数据”困扰着当今的商业世界。 也就是说,在当今以“大数据”为中心的世界中,不准确、不完整和不一致的数据正在激增。

使用脏数据每年会给公司造成数百万美元的损失。 它降低了整个企业各部门的效率和效力,并削弱了发展和扩大规模的努力。 它会削弱竞争力、增加安全风险并带来合规性问题。

负责的人 数据管理 多年来一直在应对这一挑战。 许多当前可用的工具可以解决部门内孤立团队的数据管理问题,但不适用于整个公司或更广泛的数据生态系统。 更糟糕的是,这些工具经常最终会创建更多必须管理的数据——而且这些数据也可能变脏,从而导致更多的麻烦和收入损失。

了解脏数据

脏数据 引用任何数据 具有误导性、重复、不正确或不准确、尚未集成、违反业务规则、缺乏统一格式或包含标点符号或拼写错误。

要了解近几十年来脏数据如何变得无处不在,请想象以下场景: 

一家大型银行的贷款人发现几乎所有银行的客户都是宇航员时感到困惑。 考虑到 NASA 只有一个 几十名宇航员,这是没有意义的。 

经进一步调查,借贷部门发现,开户银行人员一直在将“宇航员”插入客户职业领域。 贷方了解到职位描述与负责新账户的同行无关。 银行职员一直选择“宇航员”,这是第一个可用的选项,只是为了更快地创建新账户。

然而,贷方必须将其客户的正确职业记录在案才能获得年度奖金。 为了纠正这种情况,贷款部门开发了自己的独立数据库。 他们联系每个客户,了解正确的职业,并将其插入他们的数据库。

现在,银行有两个数据库,除了一个字段外,信息基本相同。 如果第三方部门想要访问这些数据库中的信息,则没有系统可以确定哪个数据库是准确的。 因此,该第三部门也可能会创建自己的数据库。

几十年来,类似的场景在全国范围内的组织中上演。

新兴的数字数据垃圾填埋场

麻烦始于 1990 年代 数字化改造 繁荣。 公司部署了企业软件来改进他们的业务流程。 例如,Salesforce 的软件即服务产品提供了更好的方式来管理销售和营销系统。

但 30 年后,这种遗留基础架构导致了数据管理的噩梦。 包含大量重复、不完整和不正确信息的不同数据孤岛充斥着企业和公共部门的景观。 这些孤岛由分别拥有和监督其数据源的业务线、地理位置和职能组成。

除此之外,数据生成在过去几十年呈指数级增长。 每个业务流程现在都需要自己的软件,从而产生更多的数据。 应用程序将每一个动作记录在它们的本地数据库中,挖掘新创建的数据资产的障碍已经浮出水面。

在过去的几十年中,词汇定义数据特定于创建它的业务流程。 工程师必须将这些词典翻译成离散的词典,供系统使用数据。 通常不存在质量保证。 正如上面的宇航员示例,一个业务功能可用的数据不能被其他业务使用。 对原始业务流程中的数据的访问是有限的,充其量只能用于可能以其他方式实现优化的功能。

复制难题

为了解决这个问题,工程师们开始制作原始数据库的副本,因为直到最近,这还是最好的选择。 然后,他们转换这些副本以满足消费功能的要求,应用数据质量规则和专用于消费功能的补救逻辑。 他们制作了许多副本并将它们加载到多个数据仓库和分析系统中。

结果? 数据集副本溢出,对组织的某些部分来说是“脏”的,导致混淆哪个副本是正确的。 如今,公司在数据中心和多个云中的运营数据存储、数据库、数据仓库、数据湖、分析沙箱和电子表格中拥有数百个源数据副本。 然而,首席信息官和首席数据官既无法控制生成的副本数量,也不知道哪个版本代表真实的真实来源。

大量数据治理软件产品可用于为这种混乱局面带来一些秩序。 这些包括数据目录、数据质量测量和问题解决系统、参考数据管理系统、主数据管理系统、数据沿袭发现和管理系统。

但这些补救措施既昂贵又费时。 集成来自不同产品线的多个数据源的客户数据的典型主数据管理项目可能需要数年时间并耗资数百万美元。 与此同时,脏数据量的增长速度超过了组织为安装控制和治理所做的努力。

这些方法充满缺陷。 他们依靠手动流程、开发逻辑或业务规则来执行清点、测量和修复数据的任务。 

恢复控制

三种新兴技术最适合解决当前的困境:人工智能和机器学习驱动的数据治理、知识图谱等语义互操作平台,以及分布式账本等数据分布系统: 

1. 人工智能和机器学习驱动的数据治理解决方案 减少对人和代码的依赖。 人工智能和机器学习用包括自动标记、组织和监督大量数据在内的操作取代了手动工作。 数据管理转换和迁移降低了 IT 成本。 组织还可以构建更强大和可持续的架构,以鼓励大规模的数据质量。

2. 知识图谱 允许不同数据资产的本机互操作性,以便可以在通用格式下组合和理解信息。 通过利用语义本体,组织可以使数据具有上下文和通用格式,以供多个利益相关者重用。

3.分布式账本, 差分隐私和虚拟化 无需物理复制数据。 分布式账本包括可跨业务部门和组织使用的联合和治理数据库。 差分隐私使得屏蔽数据以符合合规性要求成为可能,同时与利益相关者共享数据。 虚拟化允许在虚拟环境而非物理环境中旋转数据。

一旦 CIO 和 CDO 了解问题的根源是造成数据孤岛的遗留基础架构,他们可能会改进底层架构和数据基础架构策略。

脏数据限制了组织做出明智决策以及准确敏捷地运营的能力。 组织必须控制他们的数据并鼓励数据互操作性、质量和可访问性。 这样做将提供竞争优势并消除安全性和合规性漏洞。

时间戳记:

更多来自 数据多样性