データの可観測性: データの可観測性とは何か、そしてなぜ重要なのか - DATAVERSITY

データの可観測性: データの可観測性とは何か、そしてなぜ重要なのか – DATAVERSITY

ソースノード: 2691645
データの可観測性データの可観測性

データ可観測性は、プロセスとして、大量のデータを扱う企業によって使用されます。 現代の大規模組織の多くは、さまざまなアプリケーションやツールを使用してデータを監視しようとしています。 残念ながら、現実的な概要を把握するために必要な可視性を開発している企業はほとんどありません。 

データの可観測性はその概要を提供し、データ フローの問題をできるだけ早く解決します。

可観測性プロセスには、データの問題をリアルタイムで特定して解決するのに役立つさまざまな方法とテクノロジーが含まれています。 このプロセスでは、ビジネス全体のデータ フローの多次元マップを構築し、システムのパフォーマンスとデータ品質についてのより深い洞察を提供します。 

データの可観測性について尋ねられたとき、IBM 社 Databand の CMO である Ryan Yackel 氏は次のようにコメントしました。

「ビッグデータ パイプラインの量、速度、複雑さが増大し続ける中、企業はデータドリブン ビジネスのバックボーンとしてデータ エンジニアリング チームとプラットフォーム チームに依存しています。 問題は、これらのチームのほとんどが自分たちに割り当てられた仕事を抱えていることです。 彼らは信頼性と品質に関するインシデントを伴うデータと格闘しており、AL/ML、分析、データ製品に関わる戦略的取り組みに集中することが困難になっています。 データの可観測性が解決策を提供します。」

当初、データ可観測性は次のような形式のように見えるかもしれません。 データ系統ただし、XNUMX つのプロセスは異なる目的を果たします。 

データの可観測性は、測定システムの使用を通じてデータの問題を迅速かつ効率的に解決することに重点を置いています。 ただし、データ リネージュは主に高品質のデータ、つまり信頼できるデータを収集して保存するために使用されます。

さらに、データリネージは、可観測性プログラムをサポートするコンポーネントとして使用できます。 (一部の記事では、データ可観測性がデータリネージと同じ目的を果たすものとして宣伝されていますが、その主張にはある程度の真実があります。データリネージはデータ可観測性のコンポーネントです。) 

「観察可能性」という用語は、もともと紀元前 510 年頃にヘラクレイトスによって開発された哲学的概念でした。 彼は、可観測性には比較の違いが必要であると判断しました。つまり、寒さは暖かさと比較して観察できるのです。 1871 年、物理学者のジェームス C. マクスウェルは、熱力学実験内ですべての粒子の位置を知ることは不可能だが、比較変化の「特定の重要な出力」を観察することで正確な予測を行うことができるという考えを発展させました。 

主要な出力を使用した可観測性に関するマクスウェルの説明は、工場の設備から航空機のセンサーに至るまで、さまざまな自動化アプリケーションに適応され、適用されました。 その後、この概念は、2016 年頃にデバッグと「本番インシデント」の処理のために DevOps に採用されました。2019 年、Monte Carlo の CEO 兼共同創設者である Barr Moses は、組織のデータ フローの概要を提供するように設計された可観測性プロセスを開発しました。 。 

モーセは書きました

「データの可観測性とは、組織がシステム内のデータの健全性を完全に理解する能力です。 データ可観測性により、以下から学んだベスト プラクティスを適用することでデータのダウンタイムが排除されます。 DevOps 〜へ データパイプラインの可観測性に設立された地域オフィスに加えて、さらにローカルカスタマーサポートを提供できるようになります。」

データ可観測性の XNUMX つの柱

データ可観測性は、データの完全なマップをリアルタイムで提供することで、データと情報の問題を解決します。 組織のデータ活動を可視化します。 多くの企業ではデータがサイロ化されており、可観測性が妨げられています。 データ可観測性プログラムをサポートするには、データ サイロを排除する必要があります。 

追跡、監視、アラート、分析、ロギング、「比較」などのアクティビティが可観測性ダッシュボードなしで実行されると、組織的な分割が発生する可能性があります。 ある部門の人々は、自分たちの努力が別の部門に予期せぬ結果をもたらしていることに気づいていません。たとえば、情報が欠落していたり​​サイロ化されて間違った意思決定を促進したり、システムの一部がダウンしていて誰もそれに気づかなかったりするなどです。 

可観測性とは、特定の主要な出力の測定を行うことであることを思い出してください。 Barr Moses が測定目的で開発した XNUMX つの柱 (または主要な成果) は次のとおりです。 

  • 品質: 高品質のデータは正確であると見なされますが、低品質のデータは正確ではないと考えられます。 データの品質を測定すると、データが信頼できるかどうかがわかります。 いろいろな方法があります 測定する データ品質。
  • スキーマ: これにはデータの編成方法の変更が含まれ、スキーマ測定によりデータ フローの中断が示される可能性があります。 いつ、どのように、誰が変更を加えたかを特定することは、予防メンテナンスの観点から役立ちます。 
  • ボリューム: 大量のデータは研究やマーケティングの目的に役立ちます。 これにより、組織は顧客と市場の統合されたビューを得ることができます。 研究中に使用される最新データと過去のデータが多ければ多いほど、より多くの洞察が得られます。
  • データ系統: 優れたデータ系統プログラムは、データとその場所に対する変更を記録し、通常はデータ品質を向上させるために使用されます。 ただし、データ観察プログラムの一部として使用することもできます。 この機能では、発生する可能性のある破損のトラブルシューティングを行い、破損前に何が行われたかをリストするために使用されます。 
  • 鮮度: これは基本的に、古い情報、つまり Barr Moses の言葉を借りれば、古いデータを使用しないことです。 鮮度 データに基づいた意思決定を行う際に重要となる、最新のデータを強調します。 タイムスタンプは、データが古いかどうかを判断するためによく使用されます。 

これらのコンポーネントまたは柱の測定値を組み合わせると、発生した問題、または単に発生した問題について貴重な洞察が得られ、できるだけ早く修復できるようになります。

データ可観測性の課題

適切なデータ可観測性プラットフォームは、企業がデータを維持および管理する方法を変革できます。 残念ながら、プラットフォームの実装にはいくつかの課題が生じる可能性があります。 プラットフォームが適合しない場合、互換性の問題が発生します。 

データ パイプライン、ソフトウェア、サーバー、データベースに完全な互換性がない場合、可観測性のプラットフォームとツールが制限される可能性があります。 これらのプラットフォームは単独では機能しないため、あらゆる問題を排除することが重要です。 データサイロ をシステムから分離し、組織内のすべてのデータ システムが確実に統合されるようにします。 

契約を結ぶ前にデータ可観測性プラットフォームをテストすることが重要です。

悲しいことに、企業の内部および外部のすべてのデータ ソースがプラットフォームに正しく統合されている場合でも、 データモデル 問題が発生する可能性があります。 多くの企業は 400 以上のデータ ソースをサポートしており、各外部ソースが同じ標準と形式を使用していないと問題が発生する可能性があります。

オープンソース ツールを除いて、可観測性プラットフォームはクラウドベースであり、微調整をサポートするある程度の柔軟性を提供する場合があります。 

最高の可観測性プラットフォームは、標準化された測定プロセスとロギング ガイドラインに重点を置いています。 これにより、情報の効果的な相関関係が促進されますが、外部データ ソースやカスタマイズされたデータ パイプラインによって問題が発生し、自動化されるべきタスクを実行するために追加の手動作業が必要になる場合があります。

さらに、一部のツールには、スケーラビリティを制限する異常なストレージ コストがかかる場合があります。

データ観察プラットフォーム

データ可観測性プラットフォームには通常、さまざまな便利なツールが含まれています。 これらには、多くの場合、自動データリネージの自動サポート、根本原因分析、データ品質、データ フロー内の異常を特定、解決、防止するための監視が含まれます。 

このプラットフォームは、生産性の向上、パイプラインの健全性、顧客の満足度の向上を促進します。 一般的なデータ可観測性プラットフォームには次のようなものがあります。

  • データバンド は、データの問題がビジネスに影響を及ぼす前に特定する継続的な可観測性プロセスを使用して、データの問題を非常に迅速に検出して解決できる高機能な可観測性プラットフォームを提供します。 
  • の様々なものがあります オープンソースの 可観測性ツールが利用可能であり、調査する価値があります。

データの可観測性の重要性

大規模なデータ フローを扱う組織の場合、可観測性を使用してデータ システム全体を監視し、問題が発生したときに危険信号を送信できます。 

企業はさまざまなソースから大量のデータを収集するため、それを処理するシステムを何層にも重ねて開発します。 これらのシステムには、データ ストレージ、データ パイプライン、および多数のツールが含まれます。 複雑さが増すごとに、非互換性や古いデータや欠落したデータなどの問題によるデータのダウンタイムが発生する可能性が高くなります。

Yackel 氏は、「データの可観測性を継続的に使用してデータ パイプライン、データ セット、データ テーブルを監視することで、データ インシデントが発生したときにデータ チームに警告を発し、ビジネスに影響を及ぼす前に根本原因を修正する方法を示します。 データの可観測性により、エンジニアリングは壊れたプロセスを維持するのではなく、優れたデータ製品の構築に集中できます。」 

データの可観測性は、企業がパイプラインの問題、データ エラー、データ フローの不一致の原因を積極的に特定して、顧客との関係を強化し、データ品質を向上させるのに役立ちます。

Shutterstock.comからのライセンスに基づき使用されている画像

タイムスタンプ:

より多くの データバーシティ