汚れたデータにあふれた世界を克服する

汚れたデータにあふれた世界を克服する

ソースノード: 2574986

目に見えないウイルスのように、「ダーティ データ」は今日のビジネス世界を悩ませています。つまり、今日の「ビッグデータ」中心の世界では、不正確、不完全、一貫性のないデータが急増しています。

ダーティデータの取り扱いには、企業に年間数百万ドルのコストがかかります。これにより、企業全体にわたる部門の効率と有効性が低下し、成長と拡大への取り組みが抑制されます。それは競争力を妨げ、セキュリティリスクを高め、コンプライアンス上の問題を引き起こします。

担当者 データ管理 私たちはこの課題に何年も取り組んできました。現在利用可能なツールの多くは、部門内のサイロ化されたチームのデータ管理問題に対処できますが、企業全体やより広範なデータ エコシステムのデータ管理問題には対処できません。さらに悪いことに、これらのツールは、管理する必要があるさらに多くのデータを作成することになることが多く、そのデータも汚くなり、さらなる問題や収益損失を引き起こす可能性があります。

ダーティデータを理解する

ダーティデータ あらゆるデータを指します 誤解を招くもの、重複しているもの、不正確または不正確なもの、まだ統合されていないもの、ビジネス ルールに違反しているもの、統一された書式が欠如しているもの、または句読点やスペルに誤りがあるもの。

ここ数十年でダーティ データがどのように遍在するようになったのかを把握するには、次のシナリオを想像してください。 

大手銀行の融資担当者は、銀行の顧客のほぼ全員が宇宙飛行士であることを知り当惑します。 NASA が 数十人の宇宙飛行士、 これは意味がありません。 

さらに調査を進めた結果、融資部門は、新規口座を開設する銀行職員が顧客の職業フィールドに「宇宙飛行士」と入力していたことを発見しました。貸し手は、その職務内容が新規口座を担当する相手方には無関係であることを知ります。銀行職員らは、単に新規口座の作成をより迅速に行うため、最初に利用可能な選択肢である「宇宙飛行士」を選択していた。

ただし、貸し手は年間ボーナスを受け取るために、顧客の正しい職業を記録しておく必要があります。この状況を改善するために、融資部門は独自の別個のデータベースを開発しました。彼らは各顧客に連絡し、正しい職業を学び、それをデータベースに入力します。

現在、この銀行には XNUMX つのデータベースがあり、XNUMX つのフィールドを除いて基本的に同じ情報が含まれています。第三部門がこれらのデータベース内の情報にアクセスしたい場合、どのデータベースが正確であるかを判断するシステムは存在しません。したがって、その XNUMX 番目の部門も独自のデータベースを作成する可能性があります。

同様のシナリオが何十年にもわたって全国の組織で展開されてきました。

急増するデジタルデータの埋め立て地

問題は 1990 年代に始まりました。 デジタル変換 ブーム。企業はビジネス プロセスを改善するためにエンタープライズ ソフトウェアを導入しました。たとえば、Salesforce の Software-as-a-Service 製品により、販売およびマーケティング システムをより適切に管理できるようになりました。

しかし 30 年後、このようなレガシー インフラストラクチャはデータ管理の悪夢をもたらしました。重複、不完全、不正確な情報が大量に存在する異種データサイロが、企業および公共部門の状況に点在しています。これらのサイロは、それぞれデータ ソースを所有および監督する事業分野、地域、および機能で構成されます。

さらに、データ生成は数十年にわたって指数関数的に増加しました。各ビジネス プロセスには独自のソフトウェアが必要となり、ますます多くのデータが生成されます。アプリケーションはすべてのアクションをネイティブ データベースに記録するため、新しく作成されたデータ資産のマイニングに対する障害が表面化しています。

過去数十年間、データを定義する語彙は、それを作成したビジネス プロセスに固有のものでした。エンジニアは、これらの辞書を、データを使用するシステム用の個別の辞書に翻訳する必要がありました。通常、品質保証は存在しませんでした。上記の宇宙飛行士の例と同様、あるビジネス機能で使用できるデータは、他のビジネス機能では使用できません。また、元のビジネス プロセスからのデータへのアクセスは、せいぜい、他の方法で最適化を達成できたかもしれない機能に限定されていました。

コピーの難問

この問題を解決するために、エンジニアは元のデータベースのコピーを作成し始めました。これは、最近までそれが利用可能な最良の選択肢だったためです。次に、それらのコピーを変換して、消費側機能の要件を満たすようにし、消費側機能専用のデータ品質ルールと修復ロジックを適用しました。彼らは多数のコピーを作成し、それらを複数のデータ ウェアハウスと分析システムにロードしました。

結果?組織の一部で「ダーティ」と認識されるデータセットのコピーが溢れ、どのコピーが正しいのか混乱が生じます。現在、企業は、データセンターや複数のクラウド内の運用データ ストア、データベース、データ ウェアハウス、データ レイク、分析サンドボックス、スプレッドシートにまたがるソース データのコピーを数百件保有しています。しかし、最高情報責任者と最高データ責任者は、生成されるコピーの数を制御することも、どのバージョンが真の真実の情報源を表すのかを知ることもできません。

この混乱に秩序をもたらすために、多数のデータ ガバナンス ソフトウェア製品が利用可能です。これらには、データ カタログ、データ品質の測定および問題解決システム、参照データ管理システム、マスター データ管理システム、データ リネージ ディスカバリ、および管理システムが含まれます。

しかし、それらの治療法は高価で時間もかかります。さまざまな製品ラインの複数のデータ ソースから顧客データを統合する一般的なマスター データ管理プロジェクトには、数年かかり、数百万ドルの費用がかかる場合があります。同時に、ダーティ データの量は、制御とガバナンスを導入するための組織の努力を上回る速度で増加しています。

これらのアプローチには欠陥がたくさんあります。データのインベントリ、測定、修復のタスクを実行するには、手動プロセス、開発ロジック、またはビジネス ルールに依存します。 

コントロールの回復

現在の苦境に対処するには、AI および機械学習主導のデータ ガバナンス、ナレッジ グラフなどのセマンティック相互運用性プラットフォーム、分散台帳などのデータ分散システムの XNUMX つの新興テクノロジーが最適です。 

1. AI および機械学習を活用したデータ ガバナンス ソリューション 人やコードへの依存を減らします。 AI と機械学習は、手動作業を、大量のデータの自動タグ付け、整理、監視などのアクションに置き換えます。データ管理の変革と移行により、IT コストが削減されます。組織は、大規模なデータ品質を促進する、より堅牢で持続可能なアーキテクチャを構築することもできます。

2. ナレッジグラフ 異種データ資産のネイティブな相互運用性を可能にし、情報を共通の形式で組み合わせて理解できるようにします。セマンティック オントロジーを活用することで、組織はコンテキストと共通形式を備えたデータを将来も保証し、複数の関係者が再利用できるようになります。

3. 分散型台帳、 差分プライバシーと仮想化 データを物理的にコピーする必要がなくなります。分散台帳は、ビジネスユニットや組織全体で使用できる、フェデレーテッドで管理されたデータベースで構成されます。差分プライバシーにより、データをマスクしてコンプライアンス要件を遵守しながら、同時に利害関係者と共有することが可能になります。仮想化により、物理環境ではなく仮想環境でデータをスピンアップできます。

CIO と CDO が、問題の根本がデータ サイロを生み出すレガシー インフラストラクチャにあることを理解すると、基盤となるアーキテクチャとデータ インフラストラクチャ戦略を改善できる可能性があります。

ダーティデータは、組織が情報に基づいた意思決定を行い、正確かつ機敏に業務を遂行する能力を制限します。組織はデータを管理し、データの相互運用性、品質、アクセシビリティを促進する必要があります。そうすることで、競争上の優位性が得られ、セキュリティとコンプライアンスの脆弱性が解消されます。

タイムスタンプ:

より多くの データバーシティ