不良データの影響を理解する - DATAVERSITY

不良データの影響を理解する – DATAVERSITY

ソースノード: 3070625

データ品質の低下によるコストをご存知ですか?以下では、データ可観測性の重要性、不良データのリスクを軽減する方法、およびその ROI を測定する方法を検討します。不良データの影響を理解し、効果的な戦略を導入することで、組織はデータ品質への取り組みのメリットを最大化できます。 

データは現代の意思決定に不可欠な部分となっているため、ビジネス関係者が正確な結論を下せるようにするにはデータの品質が最も重要です。 

しかし、現代のデータリーダーなら誰もが言う落とし穴があります。それは、データ品質管理は難しいということです。時間と労力がかかります。さらに、ROI (投資収益率) を測定するのは難しいことがよくあります。 

不良データはどの程度有害なのでしょうか?

不正なデータは重大な経済的損失につながる可能性があります。 Gartner の推定では、データ品質が低いと、組織は毎年平均で次のようなコストが発生します。 12.9万ドル。 2022年、 Unityソフトウェア は110億4.2万ドルの収益とXNUMX億ドルの時価総額の損失を報告した。同社は「大規模な顧客から不正なデータを取り込んだ結果」と述べた。同様に、不正なデータが原因で エクイファックス、上場信用報告機関である、貸し手に不正確な信用スコアを送信するために 何百万 顧客の。最近では、データ事件により英国とアイルランドの航空交通に大きな混乱が生じました。 2,000便以上のフライトがキャンセルされ、数十万人の旅行者が足止めされたと報告されており、航空会社の累積経済的損失は126.5億XNUMX万ドルと推定されています。

不良データの影響 

データは現代のあらゆるビジネスの中心です。データ チームの主な責任は、組織が拡張して目標を達成できるようにしながら、社内外の顧客に提供するデータ製品を構築および維持することです。 

組織のデータ イニシアチブを確実に成功に向けて準備することに関して、データ チームからの基本的な期待は次のように要約できます。

  • 稼働時間: データはサービスであるため、必要なときにデータを利用できるようにすることが重要です。
  • セキュリティ: 規制への準拠 (GDPR や HIPAA など)。チームは、機密情報を保護し、データのプライバシーを維持するための対策と実践の実施に責任を負います。
  • 信頼性の向上: データとデータプラットフォームの両方について。これには稼働時間も含まれますが、従来の意味でのデータの品質と精度も含まれます。 
  • スケール: データ プラットフォームは、増大するデータ量、ユースケースの数、ビジネス ニーズに対応できる拡張性を備えている必要があります。
  • 革新: データはイノベーションを推進する必要があり、この分野では、データチームがデータプラクティスの内外でイノベーションをもたらすことで模範を示すことが重要です。 

データの可観測性によるデータ品質の達成

データ可観測性は、ライフサイクル全体を通じてデータの健全性をプロアクティブに監視し、維持するためのソリューションです。ロギング、トレース、監視技術を実装することで、組織はデータ ストリームを可視化し、データ品質の問題を迅速に特定してトラブルシューティングし、分析ダッシュボードの中断を防ぎます。 データリテラシーデータの調達、解釈、伝達を含むこのプロセスは、意思決定者がデータを効果的にビジネス価値に変換するために不可欠です。データドリブンの文化を育み、適切なツールに投資することは、データの可観測性を通じてデータ品質を達成するための重要なステップです。 

データ可観測性の ROI の定量化

データ可観測性の ROI を測定することは、ビジネス リーダーがこの実践への投資に関連する価値と利点を理解するのに役立ちます。年間の発生率やインシデント数、検出までの時間、解決までの時間など、いくつかの定量化可能な指標は、不良データのコストを評価するための開始点として役立ちます。

微粉は必ずしもネガティブと断言できません。 その他の抽出方法よりも、ジェズべコーヒー(トルコ式コーヒー)を好む人たちは、微粉のもつ力を自然と利用しています。 伝統的なジェズべコーヒーは、可能な限り細かい粒度設定で抽出されます。 トルコ式コーヒーの独特の抽出方法も相まって、XNUMX%からXNUMX%の高い収率でも素晴らしい味わいとなります。 粒子径の広がりが大きい場合は抽出をコントロールすることが難しくなります。 ほんの僅かでも粒度を細かく設定した途端、数百万の粒子を瞬時に増やしていることを忘れないでください。 データ品質の問題 事業運営の規模と複雑さによって異なる場合があります。被害を評価し、データ可観測性ソリューションの強力な根拠を構築するために、データ実務者が簡単に実装および監視でき、内部でケースをサポートするために使用できる 5 つの主要な指標を提案します。

  1. インシデントの数と頻度: データ インシデントが毎日発生する企業もあれば、データ インシデントが発生しないまま数週間、あるいは数日続く企業もあります。インシデントの重大度は、長年誰も使用していないダッシュボードにリンクされている古いデータなどの「軽微な」ものから、サーバーの過充電を引き起こし、最終的にダウンするデータ重複の問題までさまざまです。実話、Netflix 2016)。多くの場合、データ プラットフォームの規模と複雑さ、企業の業界 (一部の業界は他の業界よりも本質的にデータが成熟している)、データ アーキテクチャのタイプ (集中型、分散型、ハイブリッド) などに関連していることがわかります。インシデントを文書化することで、次のようなことがわかります。次回同じようなことが起こったときに何を探すべきかについてより良いアイデアが得られ、繰り返し発生するインシデントは、その下にある何かがより詳細な注意を必要とすることを示す良い指標となることがよくあります。  
  2. インシデントの分類: すべてのデータ インシデントの重大度が同じであるわけではありません。軽微で簡単に軽減できるものもあれば、重大な結果をもたらす可能性のあるものもあります。インシデントの重大度を文書化することは、適切なエスカレーションと優先順位付けを確実に行うために重要です。ここで、データリネージュが役立ちます。これにより、インシデントの下流への影響を評価して、重要性をより深く理解できるようになります。 CEO のお気に入りのダッシュボード、本番データベース、または重要なデータ製品に関連するインシデントは、重大度が高い可能性があります。 
  3. 平均検出時間 (MTTD): データとデータ チームに対する信頼を構築する場合、ビジネス関係者が最初にデータ品質の問題を発見することは、すべてのデータ実務者にとっての悪夢です。それはチームの信頼性と、真にデータドリブンになる企業の能力を大きく傷つける可能性があります。インシデントを文書化し、その重大度を分類し始めるときは、インシデントがどのように検出されたか、データ チームがインシデントを認識するまでにかかった時間を追跡することも重要です。このメトリクスは、インシデント管理の堅牢性を示す良い指標となる可能性がありますが、これを減らすことは、インシデントがさらなる損害を引き起こす可能性があるリスクを減らすことも意味します。 
  4. 平均解決時間 (MTTR): インシデントが報告されるとどうなりますか? MTTR は、データ インシデントを認識してから解決するまでに費やした平均時間です。解決時間はインシデントの重大度とデータ プラットフォームの複雑さに大きく影響されるため、このフレームワークでは平均値を考慮しています。
  5. 平均実稼働時間 (MTTP) 新しいデータ製品の出荷にかかる平均時間、言い換えれば、データ製品の市場投入までの平均時間です。これは、アナリストがデータ サイエンス モデルのデータを「クリーニング」するのに費やした時間である可能性があります。実際、によれば、 フォーブス, データ準備はデータサイエンティストの仕事の約 80% を占めます。データを製品として扱いたい世界では、データ品質の向上は市場投入までの時間の短縮に直接的な影響を与える可能性があります。 

上記の定量化可能な指標に加えて、不良データのコストを検討する際には、定量化が容易ではないものの同様に重要な他の指標も考慮する価値があります。

  • 信頼の低下: データの中で および データチーム。私の意見では、これは不良データの最も危険な結果であり、データチームの離職や、データドリブンになって進化するデジタル環境に対応する企業の能力に対する信頼の喪失など、より大きな問題を引き起こす可能性があります。そして一度信頼が崩れると、それを取り戻すのは非常に困難です。以前の経験では、非常に不安定な株式取引環境において、データが不正確である可能性が高いことを承知でデータを使用するよりも、むしろデータを使用せず、むしろ「経験」と「勘」に頼ろうとするデータ消費者に対処していました。 。 
  • 生産性の低下: データが悪い場合、チームはエラーが発生した場合に応戦し、修正する必要があります。この絶え間ない消火活動は体力を消耗するだけでなく、逆効果でもあります。戦略的な計画や成長への取り組みに費やすことができる貴重な時間がトラブルシューティングに浪費され、より重要なタスクからリソースが転用されています。
  • 規制および風評リスク: 財務報告の誤りや個人データの誤った取り扱いは、高額な罰金や法廷闘争につながる可能性があります。コンプライアンス問題への対応は、経済的な負担は言うまでもなく、生産性を大幅に低下させます。
  • 業績不振: データチーム内の生産性が失われるだけでなく、企業が顧客の前でデジタル対応や信頼性を確保するのに苦労し、外部の脅威に対して脆弱になるため、不良データは全体的な業績を妨げる可能性があります。 

データ品質の問題は、データの信頼の喪失、チームの生産性と士気の低下、規制への違反、意思決定の質の低下など、さまざまな問題を引き起こす可能性があります。部門内または事業単位内でデータがサイロ化されているため、組織のデータ状況の全体像を把握することが困難になります。これにより、非効率な意思決定が生じ、データ文化が妨げられ、GDPR や HIPAA などの規制への準拠が危険にさらされる可能性があります。さらに、データチームは、データの問題のトラブルシューティングに過度の時間を費やしてストレスを感じ、仕事の満足度に悪影響を及ぼし、従業員の離職につながる可能性があります。 

1x10x100 ルール

インシデント管理で広く認識されている原則である 1x10x100 ルールは、データ品質の低下に伴うコストの増大を強調しています。このルールによれば、エントリ時点でのデータ品質の問題に対処するコストは、元のコストの約 1 倍になります。問題が検出されずにシステム内に広がると、修正と修復の作業にかかるコストが約 10 倍に増加します。ただし、データ品質の低下がエンドユーザーまたは意思決定段階に達すると、業務の中断、機会損失、顧客の不満などの重大なビジネス上の影響により、コストが初期費用の 100 倍という驚異的な額に跳ね上がる可能性があります。このルールは、悪いデータ品質が指数関数的に影響を与えることを強調しており、組織はデータの可観測性に投資することが重要になります。これにより、問題が発生した場合に、下流ではなく根本原因に近づけることができます。

まとめ

データ品質の問題はビジネスに大きな影響を与え、リソースの無駄や機会の損失につながります。データの可観測性への投資は、不良データに関連するリスクを防止および軽減するために不可欠です。定量化可能な指標を活用し、定量化不可能な要素を考慮することで、組織はデータ可観測性の ROI を測定し、その価値を意思決定者に示すことができます。データの信頼性を確保し、効果的なドメインの意思決定を促進し、規制を遵守し、満足度の高いデータ チームを育成することはすべて、データ品質への取り組みのメリットを最大化するために重要な側面です。データの可観測性を採用することは、今日のデータ主導の世界においてデータの正確性、信頼性、利用を保護するための戦略的投資です。 

豊富な可観測性プラクティスを構築している組織は、複雑に絡み合った環境の可視性を高めることができ、その結果、停止が減り、問題がより迅速に解決され、アプリの信頼性がさらに高まり、最終的には収益が増加し、顧客の満足度が高まります。

タイムスタンプ:

より多くの データバーシティ