データ品質評価: 成功の測定 - DATAVERSITY

データ品質評価: 成功の測定 – DATAVERSITY

ソースノード: 2903188
データ品質評価データ品質評価

データ品質評価の目標は、間違ったデータを特定するだけでなく、ビジネスのプロセスに与えられた損害を推定し、是正措置を実行することも目的としています。多くの大企業は、データの品質を維持するのに苦労しています。 

データは常にストレージ内に静的に保存されているわけではなく、定期的に使用されることに留意することが重要です。データは作成後、ダウンロード、調整、再フォーマット、交換、さらには破棄されます。 

各アクションの実行を誤ると、データの品質に悪影響を与える恐れがあります。さらに、データ品質が低いとボトルネックが発生する可能性があり、多くの場合、組織の意思決定に悪影響を及ぼします。適切な測定システムが導入されていないと、低品質のデータに気付かず修正されない可能性があります。

多くの企業は、データ品質の問題があることに気づいていません。データの品質の評価は、ビジネスの効率を最大化する上で小さなことですが非常に重要な部分です。データの品質の問題は、組織の業務運営または IT 部門が最初に気づくことがあります。データの品質の評価を実行する最初のステップは、「認識フェーズ」と考えることができます。 

データ品質評価は、 データ戦略、よく組織されたデータ戦略によりデータが調整され、ビジネスの目標、価値、ターゲットがサポートされます。

データプロファイリングとデータ品質評価s

データ プロファイリングはデータ品質評価を実行するための予備ステップとみなされることがよくありますが、この XNUMX つを同時に実行する必要があると考える人もいます。 データプロファイリング データの構造だけでなく、その内容や相互関係を理解することも扱います。一方、データ品質評価では、組織のデータ問題とそれらの問題の影響を評価して特定します。

有用なデータ品質評価指標

データ品質評価指標は、組織のデータの関連性、信頼性、正確さ、一貫性などを測定します。ビジネスの業種や目標によっては、組織のデータが品質要件を満たしているかどうかを判断するために特定の指標が必要になる場合があります。データの品質を測定し、データメトリクスがどのように使用されるか、ツールとベストプラクティスがどのように機能するかを理解することは、 データ駆動型の 組織。 

基本的なデータ品質メトリクスには次のものが含まれます。

関連性: データは高品質である可能性がありますが、組織の目標達成を支援するという点では役に立ちません。たとえば、カスタマイズされたブーツの販売に重点を置いている企業は、有用な出荷データには関心がありますが、ブーツの修理用の製品を探している人のリストには関心がありません。後で関連するであろうという漠然とした期待を抱いてデータを保存することは、よくある間違いです。 メタプレーン 関連性を測定するためのソフトウェアを提供します。  

位置精度: 多くの場合、データ品質の最も重要な測定と考えられており、精度はソースの文書化またはその他の独立した確認手法を通じて測定される必要があります。精度メトリクスには、リアルタイムで発生するデータのステータス変化も含まれます。

適時性: 古いデータは、役に立たないものから損害を与える可能性のあるものまで多岐にわたります。たとえば、更新されないクライアントの連絡先データは、マーケティング キャンペーンや広告に悪影響を及ぼします。また、正しくなくなった古い住所に商品が発送される可能性もあります。良好なビジネスには、スムーズで効率的なビジネス プロセスを実現するためにすべてのデータが更新される必要があります。

完全: データの完全性は通常、各データ エントリが「完全な」データ エントリであるかどうかを判断することによって判断されます。不完全なデータでは、ビジネスに役立つ洞察が得られないことがよくあります。多くの場合、完全性を評価するプロセスは、データ品質ソフトウェアではなく、データ専門家によって行われる主観的な測定です。

完全性: データの整合性 データのライフサイクル全体にわたる全体的な精度、一貫性、完全性を表します。データの完全性は、個人のプライバシーとセキュリティに関する法規制遵守の観点からのデータの安全性にも関連しています。

一貫性: 同じデータのバージョンが異なると、ビジネスが混乱する可能性があります。混乱を避けるために、データと情報はビジネスのすべてのシステムにわたって一貫している必要があります。幸いなことに、ソフトウェアが利用できるため、データの各バージョンを手動で比較する必要はありません。 (マスターデータと その管理 は、繰り返し使用されるデータを一元管理し、複数のバージョンを回避するためのオプションです)。

評価の準備 

評価の前に懸念事項と目標のリストを作成すると、データ品質評価がより効率的に進み、より良い結果が得られます。このリストを作成するときは、短期的な目標をリストする一方で、組織の長期的な目標にも注意してください。たとえば、ビジネスをより効率的にするという長期的な目標は、適切な人に適切な請求書が届くようにシステムを修正することや、すべての顧客の住所が正しいことなど、小さな目標に分割することができます。 

このリストは、データ品質評価ソフトウェアの開始と支払い、または評価を実行する請負業者の雇用の根拠として取締役会に提示することもできます。リストを作成するための基本的な手順を以下に示します。

  • まず、過去 XNUMX 年間に発生したデータ品質の問題のリストを作成します。
  • XNUMX ~ XNUMX 週間かけてデータの流れを観察し、何が疑わしいのか、そしてその理由を判断してください。
  • 観察した内容を他のマネージャーやスタッフと共有し、フィードバックを得て、フィードバックを使用して結果を調整します。
  • データ品質の問題リストを調べて、収益への影響に基づいて最も優先度の高いものを決定します。
  • 優先順位が最初にリストされるようにリストを書き換えます。 (このリストは、範囲が設定された後、取締役会およびデータ品質評価請負業者が利用できるようになります。)
  • 範囲を確立します – 評価中にどのデータが調べられるか?
  • データを使用しているユーザーを特定し、評価の前後でそのユーザーのデータ使用行動を調査し、変更が必要かどうかを判断します。

データ品質評価プラットフォーム

データ品質評価を手動で実行するには多大な労力が必要となるため、ほとんどのマネージャーは決して承認しません。幸いなことに、利用可能なデータ品質プラットフォームとソリューションがあります。総合的なアプローチを取る企業もあれば、特定のプラットフォームやツールに焦点を当てる企業もいます。データ品質評価プラットフォームは、組織が直面する増大するデータの課題に対処するのに役立ちます。 

クラウドおよびエッジ コンピューティング サービスの利用が拡大するにつれて、組織はデータ品質評価プラットフォームを使用して、電子メール、ソーシャル メディア、モノのインターネットなどのさまざまなソースから取得したデータを分析、管理、クレンジングできるようになります。いくつかの評価プラットフォーム (ダッシュボードを含む) については以下で説明します。

TErwin Data Intelligence Platform は、AI および ML 対応の検出ツールを使用してデータ パターンを検出し、データ品質評価のためのビジネス ルールを作成します。 Erwin データ インテリジェンス プラットフォーム データ品質評価を自動化し、継続的なデータ可観測性を提供し、詳細なダッシュボードを備えています。

Acceldata のエンタープライズ データ オブザーバビリティ プラットフォームは、さまざまなテクノロジーとうまく統合し、パブリック、ハイブリッド、マルチクラウド環境でうまく機能します。非常に効果的なデータ品質ダッシュボードを提供し、機械学習自動化アルゴリズムを使用してデータの効率を最大化します。 アクセルデータのプラットフォーム データ パイプラインの開始時に問題を検出して修正し、下流の分析に影響を与える前に問題を隔離します。

IBM Infosphere Information Server for Data Quality Platform は、データ品質の継続的な分析と監視を支援する幅広いデータ品質ツールを提供します。 IBM プラットフォーム データ品質を分析および監視しながらデータをクレンジングおよび標準化し、不正確または一貫性のないデータを削減します。

データ ラダーの DataMatch Enterprise は、データをクリーンアップして標準化できるさまざまなツールを提供する柔軟なアーキテクチャを備えています。ほとんどのシステムに統合でき、使いやすいです。 データマッチエンタープライズ は、基本的な異常を特定できるセルフサービスのデータ品質ツールです。精度、完全性、適時性などを測定します。また、詳細なデータのクレンジング、照合、結合も実行します。

Intellectyx は、データ品質の評価とソリューションの提供を含む、さまざまなデータ サービスの請負業者として機能します。 彼らのプロセス 含まれています:

  • ビジネスニーズの特定
  • データ品質メトリクスの定義
  • 現在のデータ品質の評価
  • 改善計画の策定

OpenRefine はデータ品質評価プラットフォームではありませんが、乱雑なデータを処理するように設計された無料の強力なオープンソース ツールです。 ツール データをクリーンアップし、適切な形式に変換します。データは、データ ロンダリング クラウドではなく、コンピューター システム上でクリーンアップされます。 

評価レポート

データ品質評価レポートは通常、評価の結果、観察および推奨事項を説明するように設計されています。このレポートには、組織に重大な影響を与えた異常と、それらの異常を特定して排除するためのソリューションが含まれています。 

レポートには以下を含める必要があります。

  • 概要: レポートの概要と簡単な説明を組み合わせたもの
  • 主な調査結果: データの流れに関する問題と、それがビジネスに与える影響
  • 使用したプロセス: ソフトウェアとプロセスについて説明します。 (業者を利用した場合は業者の責任で報告してください)
  • スコアと総合評価(問題ごと)
  • 推奨事項 (問題ごと)
  • 未解決の問題: 未解決の問題
  • 結論: 変更が行われた場合にビジネス上で期待される結果、および未解決の問題に関する観察またはアドバイス

Shutterstock.comからのライセンスに基づき使用されている画像

タイムスタンプ:

より多くの データバーシティ